Robots.txt คืออะไร ? ทำงานยังไง พร้อมตัวอย่างสาย SEO ห้ามพลาด

บทความโดย Yes Web Design Studio

Robots.txt คืออะไร ? ทำงานยังไง พร้อมตัวอย่างสาย SEO ห้ามพลาด
Table of Contents

หากคุณทำงานด้านเว็บไซต์หรือ SEO คงเคยได้ยินคำว่า “Robots.txt” อยู่บ่อยครั้ง แต่คุณรู้หรือไม่ว่าไฟล์เล็ก ๆ นี้มีความสำคัญอย่างมากต่อการทำ SEO และการจัดการเว็บไซต์ของคุณ ในบทความนี้ Yes จะพาคุณไปทำความเข้าใจเกี่ยวกับ Robots.txt ตั้งแต่หลักการทำงานพื้นฐาน ไปจนถึงเทคนิคการใช้งานขั้นสูงที่จะช่วยเพิ่มประสิทธิภาพในการทำ SEO ให้กับเว็บไซต์ของคุณ

 

 

Robots.txt คืออะไร?

Robots.txt เป็นเครื่องมือพื้นฐานที่ช่วยให้คุณสามารถควบคุมการทำงานของเว็บครอว์เลอร์ (web crawler) หรือโปรแกรมอัตโนมัติต่าง ๆ ที่เข้ามาสำรวจเว็บไซต์ของคุณได้ ซึ่งการควบคุมนี้จะส่งผลโดยตรงต่อการแสดงผลของเว็บไซต์ในหน้าผลการค้นหาของ Google และ Search Engine อื่น ๆ

 

 

Robots.txt ทำงานอย่างไร?

 

Robots.txt ทำงานอย่างไร?

รูปภาพจาก : seobility 

 

Robots.txt เป็นไฟล์ข้อความธรรมดา (plain text file) ที่อยู่ในโฟลเดอร์หลักของเว็บไซต์ มีหน้าที่คือสื่อสารกับบอทของเสิร์ชเอนจินต่าง ๆ ที่ใช้ในการสำรวจและเก็บข้อมูลจากเว็บไซต์ทั่วโลก ซึ่งข้อความนี้จะถูกเขียนขึ้นเพื่อกำกับบอทไว้ว่าสามารถเข้าไปที่หน้าไหนได้บ้าง หรือไม่ต้องการให้เข้าไปที่หน้าไหนบ้าง 

 

เพราะเมื่อบอทเข้ามายังเว็บไซต์ของคุณ สิ่งแรกที่มันจะทำคือค้นหาไฟล์ Robots.txt ที่อยู่ในตำแหน่ง root directory เช่น https://www.example.com/Robots.txt เพื่อตรวจสอบว่ามีคำสั่งหรือข้อจำกัดใด ๆ ที่เจ้าของเว็บไซต์ต้องการกำหนดไว้หรือไม่ 

 

หลักการทำงานของ Robots.txt นั้นเรียบง่าย คือการระบุว่า

  1. บอทตัวไหนที่คำสั่งนี้ใช้บังคับ (User-agent) เช่น Googlebot, Bingbot, Yahoobot, AdsBot-Google, Googlebot-Image 
  2. ส่วนไหนของเว็บไซต์ที่อนุญาตหรือไม่อนุญาตให้บอทเข้าถึงได้ (Allow/Disallow)

 

มีข้อควรระวังว่า Robots.txt เป็นเพียงคำขอหรือแนวทางปฏิบัติเท่านั้น ไม่ใช่กลไกรักษาความปลอดภัย บอทที่ดีจะเคารพคำสั่งใน Robots.txt แต่บอทที่ไม่ดีอาจละเมิดและเข้าถึงส่วนที่คุณพยายามปิดกั้นได้

 

 

โครงสร้างและคำสั่งสำคัญในไฟล์ Robots.txt

 

โครงสร้างและคำสั่งสำคัญในไฟล์ Robots.txt

รูปภาพจาก : Backlinko

 

ไฟล์ Robots.txt ประกอบด้วยคำสั่งพื้นฐานที่สำคัญหลายคำสั่ง ซึ่งทำหน้าที่ควบคุมการทำงานของบอทที่เข้ามาเยี่ยมชมเว็บไซต์ของคุณ

 

User-agent

คำสั่ง User-agent ใช้ระบุว่าคำสั่งชุดนั้น ๆ จะมีผลกับบอทตัวใดบ้าง โดยสามารถระบุชื่อของบอทเฉพาะ หรือใช้เครื่องหมาย * เพื่อหมายถึงบอททุกตัว

User-agent: Googlebot 

 

คำสั่งนี้จะมีผลเฉพาะกับ Googlebot ซึ่งเป็นบอทของ Google

User-agent: *

 

คำสั่งนี้จะมีผลกับบอททุกตัวที่เข้ามาเยี่ยมชมเว็บไซต์ของคุณ

 

Disallow

 

คำสั่ง Disallow ใช้ระบุส่วนของเว็บไซต์ที่คุณไม่ต้องการให้บอทเข้าถึง

Disallow: /admin/

 

คำสั่งนี้จะป้องกันไม่ให้บอทเข้าถึงโฟลเดอร์ admin และโฟลเดอร์ย่อยทั้งหมดภายใน

Disallow: / 

 

คำสั่งนี้จะปิดกั้นบอทไม่ให้เข้าถึงทุกส่วนของเว็บไซต์ (ไม่แนะนำสำหรับเว็บไซต์ทั่วไป เพราะจะทำให้เสิร์ชเอนจินไม่สามารถเก็บข้อมูลเว็บไซต์ของคุณได้)

Disallow:

 

หากไม่ระบุค่าหลัง Disallow หมายความว่าอนุญาตให้บอทเข้าถึงทุกส่วนของเว็บไซต์

 

Allow

คำสั่ง Allow ใช้ระบุส่วนของเว็บไซต์ที่คุณอนุญาตให้บอทเข้าถึงได้ โดยมักใช้ร่วมกับคำสั่ง Disallow เพื่อสร้างข้อยกเว้น เช่น

User-agent: *

Disallow: /private/

Allow: /private/public/

 

ชุดคำสั่งนี้จะปิดกั้นบอททุกตัวไม่ให้เข้าถึงโฟลเดอร์ private แต่ยกเว้นให้เข้าถึงโฟลเดอร์ public ที่อยู่ภายในได้

 

Sitemap

คำสั่ง Sitemap ใช้ระบุตำแหน่งของไฟล์ XML Sitemap ของเว็บไซต์ ซึ่งช่วยให้เสิร์ชเอนจินรู้ถึงโครงสร้างของเว็บไซต์ และจัดเก็บข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น

 Sitemap: https://www.example.com/sitemap.xml 

 

ซึ่งคำสั่งนี้บอกให้บอททุกตัวรอ 10 วินาทีระหว่างการร้องขอแต่ละครั้ง (หมายเหตุ: Google ไม่รองรับคำสั่ง Crawl-delay แต่จะใช้ค่านี้ได้ใน Google Search Console แทน)

 

 

อ่านเพิ่มเติม : Sitemap คืออะไร

 

 

 

วิธีใช้ Robots.txt เพื่อควบคุมการเข้าถึงของบอท

การใช้ Robots.txt อย่างมีประสิทธิภาพจะช่วยให้คุณสามารถควบคุมวิธีการที่บอทต่าง ๆ เข้าถึงเว็บไซต์ของคุณได้ ซึ่งส่งผลโดยตรงต่อการทำ SEO

 

ป้องกันการเข้าถึงส่วนที่ไม่ต้องการให้แสดงผลในการค้นหา

บางส่วนของเว็บไซต์อาจไม่เหมาะสมที่จะปรากฏในผลการค้นหา เช่น หน้าแอดมิน หน้าเข้าสู่ระบบ หรือหน้าที่มีเนื้อหาซ้ำซ้อน ซึ่งสามารถใช้ Robots.txt เพื่อป้องกันการเข้าถึงส่วนเหล่านี้ได้ โดยสามารถเขียนได้ดังนี้

User-agent: *

Disallow: /wp-admin/       

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /search/

Disallow: /login/ 

 

ป้องกันการเข้าถึงไฟล์ที่ไม่จำเป็น

ไฟล์บางประเภท เช่น ไฟล์ CSS หรือ JavaScript อาจไม่จำเป็นต้องแสดงในผลการค้นหา ก็สามารถปิดกั้นบอทจากการเข้าถึงไฟล์เหล่านี้ได้

User-agent: *

Disallow: /*.pdf$

Disallow: /*.js$

Disallow: /*.css$

 

กำหนดกฎเฉพาะสำหรับบอทแต่ละตัว

บอทแต่ละตัวมีพฤติกรรมและวัตถุประสงค์ที่แตกต่างกัน คุณอาจต้องเขียนให้บอทบางตัวเข้าถึงส่วนของเว็บไซต์ที่แตกต่างจากบอทตัวอื่น ดังนี้

User-agent: Googlebot

Disallow: /nogooglebot/

 

User-agent: Bingbot

Disallow: /nobingbot/

 

User-agent: *

Disallow: /private/

 

จัดการกับการดึงข้อมูลที่มากเกินไป

หากเว็บไซต์ของคุณมีขนาดใหญ่หรือมีการเปลี่ยนแปลงข้อมูลบ่อย บอทอาจเข้ามาดึงข้อมูลมากเกินไปจนทำให้เซิร์ฟเวอร์ทำงานหนัก ซึ่งสามารถจำกัดอัตราการเข้าถึงได้ด้วย Crawl-delay (สำหรับบางเสิร์ชเอนจิน)

User-agent: Yandexbot

Crawl-delay: 10

 

User-agent: Baiduspider

Crawl-delay: 5

 

 

วิธีการสร้างและอัปโหลดไฟล์ Robots.txt

การสร้างไฟล์ Robots.txt สามารถทำได้ง่าย ๆ ด้วยการใช้โปรแกรมแก้ไขข้อความ เช่น Notepad หรือ TextEdit โดยบันทึกไฟล์ในรูปแบบ UTF-8 จากนั้นก็อัปโหลดไฟล์ไปยังไดเร็กทอรีหลักของเว็บไซต์ผ่าน FTP หรือ File Manager ของโฮสติ้งแพลตฟอร์ม

 

ตัวอย่างการตั้งค่าไฟล์ Robots.txt สำหรับ SEO

1.อนุญาตให้ Googlebot เข้าเว็บไซต์ทั้งหมด ยกเว้นโฟลเดอร์ admin

User-agent: Googlebot

Disallow: /admin/

 

2.บล็อกบอททุกตัวไม่ให้เข้าเว็บไซต์

User-agent: *

Disallow: /

 

3.อนุญาตเฉพาะบอท Googlebot-News เท่านั้น

User-agent: Googlebot-News

Allow: /

 

4.แจ้งเสิร์ชเอนจินเกี่ยวกับไฟล์ Sitemap

Sitemap: https://www.example.com/sitemap.xml

 

เทคนิคการใช้ Robots.txt ให้เกิดประโยชน์สูงสุด

ควรตรวจสอบไฟล์ Robots.txt ผ่าน Google Search Console เพื่อให้แน่ใจว่าไม่มีข้อผิดพลาด และหลีกเลี่ยงการบล็อกหน้าเว็บสำคัญ เช่น หน้า Landing Page หรือหน้าผลิตภัณฑ์ โดยใช้คำสั่ง Disallow อย่างระมัดระวัง เพราะหากใช้คำสั่งนั้นในหน้าเว็บที่สำคํบ อาจทำให้หน้านั้น ๆ ไม่ถูกจัดอันดับ

 

 

สรุป

ไฟล์ Robots.txt เป็นเครื่องมือสำคัญในการกำหนดแนวทางให้เสิร์ชเอนจินเข้าถึงหน้าเว็บไซต์ตามที่ต้องการ ช่วยเพิ่มประสิทธิภาพการทำ SEO ได้อย่างมีนัยสำคัญ การตั้งค่าที่ถูกต้องจะช่วยให้เว็บไซต์ถูกจัดอันดับได้ดีขึ้น ขณะที่การตั้งค่าผิดพลาดอาจส่งผลกระทบต่อการแสดงผลบน Google ดังนั้น ควรให้ความสำคัญกับการใช้งาน Robots.txt อย่างเหมาะสมเพื่อลดความเสี่ยงและเพิ่มโอกาสให้เว็บไซต์มีอันดับที่ดีขึ้นบนเสิร์ชเอนจิน

 

หากธุรกิจของคุณต้องการคำปรึกษาเกี่ยวกับบริการรับทำ SEO สามารถปรึกษาผู้เชี่ยวชาญของ Yes Web Design Studio ได้ เราเป็นบริษัทเว็บดีไซน์ชั้นนำในไทยที่ไม่เพียงรับทำเว็บไซต์ แต่ยังให้คำปรึกษาด้านการตลาดดิจิทัลและ AI Solution อย่างครบวงจร

 

 

 

 

Yes Web Design Studio
Tel. : 096-879-5445
LINE : @yeswebdesign
E-mail : [email protected]
Address : ชั้น 17 อาคารวิทยกิตติ์ ถนนพญาไท วังใหม่ ปทุมวัน กรุงเทพมหานคร 10330 (สถานี BTS สยาม)

 

 

 

 

ข้อมูลจาก

https://www.cloudflare.com/learning/bots/what-is-robots-txt/

https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=th

มีโปรเจกต์ในใจแล้วใช่ไหม ?