Robots.txt คือ

เราคงรู้กันดีอยู่แล้วนะครับถึงการทำงานของกูเกิ้ลบอทว่ามันชอบวิ่งไต่ไปตามลิงค์ต่างๆ ไม่ว่าจะเป็นหน้าเว็บไซต์หลักและหน้าเพจต่างๆ ที่อยู่ภายในเว็บไซต์ของเรา ซึ่งการทำงานหลักๆ ของมันก็ไม่มีอะไรมากครับ แค่มันจะกำหนดเส้นทางของกูเกิ้ลบอทว่าต้องการให้เก็บส่วนใดของเว็บไซต์เรา และส่วนไหนทีไม่ต้องการให้บอทเข้าถึงก็สามารถมาบอกมันได้ในไฟล์นี้ครับ ส่วนที่อยู่ของไฟล์ robots.txt ก็จะเก็บอยู่ที่ root เลยครับ ส่วนวิธีการสร้างไฟล์นั้นก็ใช้โปรแกรมพื้นๆ Notepad ที่มีอยู่ในทุกเครื่องนั้นแหละครับ แล้วก็ใส่คำสั่งเพียงไม่กี่ตัวบอทก็จะทำตามคำสั่งเราแล้วครับ

                คำสั่งที่เราสามารถกำหนดเข้าถึงของบอทมีดังนี้ ภายในไฟล์ Robots.txt

User-agent:*

Disallow:/

คือไม่ให้บอทของทุก Search Engine เข้ามาเก็บข้อมูล

User-agent:*

Allow:/

ต้องการให้บอทเข้ามาเก็บข้อมูลทั้งเว็บไซต์ของเรา

 

User-agent: Googlebot

ต้องการให้บอทเฉพาะของกูเกิ้ลเท่านั้นมาเก็บข้อมูลได้

User-agent: msnbot

ต้องการให้บอทเฉพาะของค่าย MSN เท่านั้นเข้ามได้ หรือต้องการ Search Engine รายอื่นเราแค่เปลี่ยนชื่อบอทแค่นั้นครับ

User-agent:* เรียกบอททุกตัวให้เข้ามาได้

Disallow:/foldername ไม่ต้องการให้บอทเข้ามาเก็บโฟเดอร์ที่กำหนด

Disallow:/filename ไม่ต้องการให้บอททุกตัวเข้ามาเก็บชื่อไฟล์ที่กำหนด

Disallow:/*.jpg$ ไม่ต้องการให้บอททุกตัวเข้ามาเก็บไฟล์นามสกุล jpg
ทั้งหมดนี้จะต้องเก็บอยู่ในไฟล์ Robots.txt นะครับ ก็กำหนดเอาว่าเราต้องการให้มันมาเก็บข้อมูลส่วนไหนของเว็บบ้าง ถ้าถามว่าแล้วเว็บดังๆ เขามีกันหรือป่าว เราสามารถเช็คได้ครับ แค่พิมพ์โดเมนแล้วตามด้วยชื่อไฟล์เราก็รู้แล้วล่ะครับ แต่เว็บส่วนใหญ่ก็มีกันทั้งนั้นแหละครับ ผมว่าไม่ว่าเว็บจะใหญ่หรือไม่ก็ควรจะศึกษาเทคนิคแบบนี้ไว้นะครับ มีประโยชน์จริงๆ

nattanon

ณัฐนนท์ ลำสมุทร

Leave a Reply

Your email address will not be published. Required fields are marked *