SEO Basics

File robots.txt là gì?

File robots.txt là một tệp văn bản nằm trong thư mục gốc của website, dùng để chỉ dẫn cho các trình thu thập dữ liệu (crawlers) của công cụ tìm kiếm biết trang hoặc phần nào chúng nên hoặc không nên thu thập dữ liệu. Đây là công cụ quan trọng để quản lý crawl budget (ngân sách thu thập dữ liệu) và ngăn chặn việc lập chỉ mục các phần nhạy cảm hoặc dư thừa của trang web.

Về cơ bản, file robots.txt là một bộ quy tắc dành cho các robot web. Khi một công cụ tìm kiếm như Google truy cập vào trang web, thứ đầu tiên nó tìm kiếm chính là tệp này. Nó sử dụng 'Giao thức loại trừ Robot' để đưa ra các lệnh như 'User-agent' (quy tắc áp dụng cho ai) và 'Disallow' (đường dẫn nào cần bỏ qua). Mặc dù nó rất tuyệt vời trong việc ngăn chặn bot lãng phí thời gian vào các trang giá trị thấp—như màn hình đăng nhập, kết quả tìm kiếm nội bộ hoặc thư mục quản trị—nhưng cần lưu ý rằng robots.txt không đảm bảo 100% trang sẽ không xuất hiện trên Google. Nếu một trang bị chặn trong robots.txt nhưng có các liên kết bên ngoài trỏ đến, Google vẫn có thể lập chỉ mục URL đó. Để thực sự ngăn một trang xuất hiện trong kết quả tìm kiếm, bạn cần sử dụng thẻ 'noindex'. Cấu hình sai file robots.txt là một lỗi kỹ thuật SEO phổ biến; việc vô tình chặn toàn bộ trang web có thể dẫn đến mất hoàn toàn khả năng hiển thị trên tìm kiếm, vì vậy cần phải xử lý tệp này hết sức cẩn thận.

Hướng dẫn từng bước

1

Xác định hoặc tạo mới

Đảm bảo tệp có tên robots.txt tồn tại trong thư mục gốc của trang web (ví dụ: example.com/robots.txt).

2

Xác định User-Agents

Chỉ định quy tắc áp dụng cho bot nào, sử dụng dấu sao (*) cho tất cả các bot hoặc 'Googlebot' cho các bot cụ thể.

3

Thiết lập quy tắc Disallow

Liệt kê các thư mục hoặc đường dẫn tệp cụ thể mà bạn muốn ẩn khỏi các trình thu thập dữ liệu.

4

Thêm liên kết Sitemap

Chèn đường dẫn trực tiếp đến XML sitemap của bạn ở cuối tệp để giúp bot tìm thấy nội dung nhanh hơn.

5

Kiểm tra lỗi

Sử dụng công cụ robots.txt Tester trong Google Search Console để đảm bảo bạn không chặn nhầm các trang quan trọng.

Pro Tips

🚀

pSeoMatic giúp bạn như thế nào

pSeoMatic tự động giám sát tệp robots.txt của bạn để phát hiện các thay đổi bất thường. Nếu một lập trình viên vô tình chặn một phần có lưu lượng truy cập cao của trang web, hệ thống của chúng tôi sẽ gửi cảnh báo ngay lập tức, ngăn chặn tình trạng sụt giảm hiển thị tự nhiên nghiêm trọng trước khi nó ảnh hưởng đến doanh thu của bạn.

Dùng thử pSeoMatic miễn phí

Câu hỏi liên quan

Robots.txt có thể ngăn một trang bị lập chỉ mục không?

Nó ngăn việc thu thập dữ liệu, nhưng việc lập chỉ mục vẫn có thể xảy ra nếu các trang khác liên kết đến đó. Hãy dùng thẻ noindex để loại bỏ hoàn toàn.

Tôi nên đặt file robots.txt ở đâu?

Nó phải được đặt ở thư mục gốc (root directory) trên host của website.

File robots.txt có phân biệt chữ hoa chữ thường không?

Có, cả tên tệp và các đường dẫn thư mục liệt kê bên trong đều phân biệt chữ hoa chữ thường.

Hướng dẫn liên quan

Sẵn sàng để đưa vào thực tế?

pSeoMatic tạo ra hàng ngàn trang tối ưu SEO từ dữ liệu của bạn.