หากคุณทำงานด้านเว็บไซต์หรือ SEO คงเคยได้ยินคำว่า “Robots.txt” อยู่บ่อยครั้ง แต่คุณรู้หรือไม่ว่าไฟล์เล็ก ๆ นี้มีความสำคัญอย่างมากต่อการทำ SEO และการจัดการเว็บไซต์ของคุณ ในบทความนี้ Yes จะพาคุณไปทำความเข้าใจเกี่ยวกับ Robots.txt ตั้งแต่หลักการทำงานพื้นฐาน ไปจนถึงเทคนิคการใช้งานขั้นสูงที่จะช่วยเพิ่มประสิทธิภาพในการทำ SEO ให้กับเว็บไซต์ของคุณ
Robots.txt คืออะไร?
Robots.txt เป็นเครื่องมือพื้นฐานที่ช่วยให้คุณสามารถควบคุมการทำงานของเว็บครอว์เลอร์ (web crawler) หรือโปรแกรมอัตโนมัติต่าง ๆ ที่เข้ามาสำรวจเว็บไซต์ของคุณได้ ซึ่งการควบคุมนี้จะส่งผลโดยตรงต่อการแสดงผลของเว็บไซต์ในหน้าผลการค้นหาของ Google และ Search Engine อื่น ๆ
Robots.txt ทำงานอย่างไร?
รูปภาพจาก : seobility
Robots.txt เป็นไฟล์ข้อความธรรมดา (plain text file) ที่อยู่ในโฟลเดอร์หลักของเว็บไซต์ มีหน้าที่คือสื่อสารกับบอทของเสิร์ชเอนจินต่าง ๆ ที่ใช้ในการสำรวจและเก็บข้อมูลจากเว็บไซต์ทั่วโลก ซึ่งข้อความนี้จะถูกเขียนขึ้นเพื่อกำกับบอทไว้ว่าสามารถเข้าไปที่หน้าไหนได้บ้าง หรือไม่ต้องการให้เข้าไปที่หน้าไหนบ้าง
เพราะเมื่อบอทเข้ามายังเว็บไซต์ของคุณ สิ่งแรกที่มันจะทำคือค้นหาไฟล์ Robots.txt ที่อยู่ในตำแหน่ง root directory เช่น https://www.example.com/Robots.txt เพื่อตรวจสอบว่ามีคำสั่งหรือข้อจำกัดใด ๆ ที่เจ้าของเว็บไซต์ต้องการกำหนดไว้หรือไม่
หลักการทำงานของ Robots.txt นั้นเรียบง่าย คือการระบุว่า
- บอทตัวไหนที่คำสั่งนี้ใช้บังคับ (User-agent) เช่น Googlebot, Bingbot, Yahoobot, AdsBot-Google, Googlebot-Image
- ส่วนไหนของเว็บไซต์ที่อนุญาตหรือไม่อนุญาตให้บอทเข้าถึงได้ (Allow/Disallow)
มีข้อควรระวังว่า Robots.txt เป็นเพียงคำขอหรือแนวทางปฏิบัติเท่านั้น ไม่ใช่กลไกรักษาความปลอดภัย บอทที่ดีจะเคารพคำสั่งใน Robots.txt แต่บอทที่ไม่ดีอาจละเมิดและเข้าถึงส่วนที่คุณพยายามปิดกั้นได้
โครงสร้างและคำสั่งสำคัญในไฟล์ Robots.txt
รูปภาพจาก : Backlinko
ไฟล์ Robots.txt ประกอบด้วยคำสั่งพื้นฐานที่สำคัญหลายคำสั่ง ซึ่งทำหน้าที่ควบคุมการทำงานของบอทที่เข้ามาเยี่ยมชมเว็บไซต์ของคุณ
User-agent
คำสั่ง User-agent ใช้ระบุว่าคำสั่งชุดนั้น ๆ จะมีผลกับบอทตัวใดบ้าง โดยสามารถระบุชื่อของบอทเฉพาะ หรือใช้เครื่องหมาย * เพื่อหมายถึงบอททุกตัว
User-agent: Googlebot
คำสั่งนี้จะมีผลเฉพาะกับ Googlebot ซึ่งเป็นบอทของ Google
User-agent: *
คำสั่งนี้จะมีผลกับบอททุกตัวที่เข้ามาเยี่ยมชมเว็บไซต์ของคุณ
Disallow
คำสั่ง Disallow ใช้ระบุส่วนของเว็บไซต์ที่คุณไม่ต้องการให้บอทเข้าถึง
Disallow: /admin/
คำสั่งนี้จะป้องกันไม่ให้บอทเข้าถึงโฟลเดอร์ admin และโฟลเดอร์ย่อยทั้งหมดภายใน
Disallow: /
คำสั่งนี้จะปิดกั้นบอทไม่ให้เข้าถึงทุกส่วนของเว็บไซต์ (ไม่แนะนำสำหรับเว็บไซต์ทั่วไป เพราะจะทำให้เสิร์ชเอนจินไม่สามารถเก็บข้อมูลเว็บไซต์ของคุณได้)
Disallow:
หากไม่ระบุค่าหลัง Disallow หมายความว่าอนุญาตให้บอทเข้าถึงทุกส่วนของเว็บไซต์
Allow
คำสั่ง Allow ใช้ระบุส่วนของเว็บไซต์ที่คุณอนุญาตให้บอทเข้าถึงได้ โดยมักใช้ร่วมกับคำสั่ง Disallow เพื่อสร้างข้อยกเว้น เช่น
User-agent: *
Disallow: /private/
Allow: /private/public/
ชุดคำสั่งนี้จะปิดกั้นบอททุกตัวไม่ให้เข้าถึงโฟลเดอร์ private แต่ยกเว้นให้เข้าถึงโฟลเดอร์ public ที่อยู่ภายในได้
Sitemap
คำสั่ง Sitemap ใช้ระบุตำแหน่งของไฟล์ XML Sitemap ของเว็บไซต์ ซึ่งช่วยให้เสิร์ชเอนจินรู้ถึงโครงสร้างของเว็บไซต์ และจัดเก็บข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น
Sitemap: https://www.example.com/sitemap.xml
ซึ่งคำสั่งนี้บอกให้บอททุกตัวรอ 10 วินาทีระหว่างการร้องขอแต่ละครั้ง (หมายเหตุ: Google ไม่รองรับคำสั่ง Crawl-delay แต่จะใช้ค่านี้ได้ใน Google Search Console แทน)
อ่านเพิ่มเติม : Sitemap คืออะไร
วิธีใช้ Robots.txt เพื่อควบคุมการเข้าถึงของบอท
การใช้ Robots.txt อย่างมีประสิทธิภาพจะช่วยให้คุณสามารถควบคุมวิธีการที่บอทต่าง ๆ เข้าถึงเว็บไซต์ของคุณได้ ซึ่งส่งผลโดยตรงต่อการทำ SEO
ป้องกันการเข้าถึงส่วนที่ไม่ต้องการให้แสดงผลในการค้นหา
บางส่วนของเว็บไซต์อาจไม่เหมาะสมที่จะปรากฏในผลการค้นหา เช่น หน้าแอดมิน หน้าเข้าสู่ระบบ หรือหน้าที่มีเนื้อหาซ้ำซ้อน ซึ่งสามารถใช้ Robots.txt เพื่อป้องกันการเข้าถึงส่วนเหล่านี้ได้ โดยสามารถเขียนได้ดังนี้
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /search/
Disallow: /login/
ป้องกันการเข้าถึงไฟล์ที่ไม่จำเป็น
ไฟล์บางประเภท เช่น ไฟล์ CSS หรือ JavaScript อาจไม่จำเป็นต้องแสดงในผลการค้นหา ก็สามารถปิดกั้นบอทจากการเข้าถึงไฟล์เหล่านี้ได้
User-agent: *
Disallow: /*.pdf$
Disallow: /*.js$
Disallow: /*.css$
กำหนดกฎเฉพาะสำหรับบอทแต่ละตัว
บอทแต่ละตัวมีพฤติกรรมและวัตถุประสงค์ที่แตกต่างกัน คุณอาจต้องเขียนให้บอทบางตัวเข้าถึงส่วนของเว็บไซต์ที่แตกต่างจากบอทตัวอื่น ดังนี้
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: Bingbot
Disallow: /nobingbot/
User-agent: *
Disallow: /private/
จัดการกับการดึงข้อมูลที่มากเกินไป
หากเว็บไซต์ของคุณมีขนาดใหญ่หรือมีการเปลี่ยนแปลงข้อมูลบ่อย บอทอาจเข้ามาดึงข้อมูลมากเกินไปจนทำให้เซิร์ฟเวอร์ทำงานหนัก ซึ่งสามารถจำกัดอัตราการเข้าถึงได้ด้วย Crawl-delay (สำหรับบางเสิร์ชเอนจิน)
User-agent: Yandexbot
Crawl-delay: 10
User-agent: Baiduspider
Crawl-delay: 5
วิธีการสร้างและอัปโหลดไฟล์ Robots.txt
การสร้างไฟล์ Robots.txt สามารถทำได้ง่าย ๆ ด้วยการใช้โปรแกรมแก้ไขข้อความ เช่น Notepad หรือ TextEdit โดยบันทึกไฟล์ในรูปแบบ UTF-8 จากนั้นก็อัปโหลดไฟล์ไปยังไดเร็กทอรีหลักของเว็บไซต์ผ่าน FTP หรือ File Manager ของโฮสติ้งแพลตฟอร์ม
ตัวอย่างการตั้งค่าไฟล์ Robots.txt สำหรับ SEO
1.อนุญาตให้ Googlebot เข้าเว็บไซต์ทั้งหมด ยกเว้นโฟลเดอร์ admin
User-agent: Googlebot
Disallow: /admin/
2.บล็อกบอททุกตัวไม่ให้เข้าเว็บไซต์
User-agent: *
Disallow: /
3.อนุญาตเฉพาะบอท Googlebot-News เท่านั้น
User-agent: Googlebot-News
Allow: /
4.แจ้งเสิร์ชเอนจินเกี่ยวกับไฟล์ Sitemap
Sitemap: https://www.example.com/sitemap.xml
เทคนิคการใช้ Robots.txt ให้เกิดประโยชน์สูงสุด
ควรตรวจสอบไฟล์ Robots.txt ผ่าน Google Search Console เพื่อให้แน่ใจว่าไม่มีข้อผิดพลาด และหลีกเลี่ยงการบล็อกหน้าเว็บสำคัญ เช่น หน้า Landing Page หรือหน้าผลิตภัณฑ์ โดยใช้คำสั่ง Disallow อย่างระมัดระวัง เพราะหากใช้คำสั่งนั้นในหน้าเว็บที่สำคํบ อาจทำให้หน้านั้น ๆ ไม่ถูกจัดอันดับ
สรุป
ไฟล์ Robots.txt เป็นเครื่องมือสำคัญในการกำหนดแนวทางให้เสิร์ชเอนจินเข้าถึงหน้าเว็บไซต์ตามที่ต้องการ ช่วยเพิ่มประสิทธิภาพการทำ SEO ได้อย่างมีนัยสำคัญ การตั้งค่าที่ถูกต้องจะช่วยให้เว็บไซต์ถูกจัดอันดับได้ดีขึ้น ขณะที่การตั้งค่าผิดพลาดอาจส่งผลกระทบต่อการแสดงผลบน Google ดังนั้น ควรให้ความสำคัญกับการใช้งาน Robots.txt อย่างเหมาะสมเพื่อลดความเสี่ยงและเพิ่มโอกาสให้เว็บไซต์มีอันดับที่ดีขึ้นบนเสิร์ชเอนจิน
หากธุรกิจของคุณต้องการคำปรึกษาเกี่ยวกับบริการรับทำ SEO สามารถปรึกษาผู้เชี่ยวชาญของ Yes Web Design Studio ได้ เราเป็นบริษัทเว็บดีไซน์ชั้นนำในไทยที่ไม่เพียงรับทำเว็บไซต์ แต่ยังให้คำปรึกษาด้านการตลาดดิจิทัลและ AI Solution อย่างครบวงจร
Yes Web Design Studio
Tel. : 096-879-5445
LINE : @yeswebdesign
E-mail : [email protected]
Address : ชั้น 17 อาคารวิทยกิตติ์ ถนนพญาไท วังใหม่ ปทุมวัน กรุงเทพมหานคร 10330 (สถานี BTS สยาม)
ข้อมูลจาก
https://www.cloudflare.com/learning/bots/what-is-robots-txt/
https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=th