Hướng dẫn seo website với robots.txt

File robots.txt nằm ở thư mục gốc của trang web của bạn.

File robots.txt là tệp không thể thiếu trong quá trình tối ưu hoá website của bạn.

Nó liên quan trực tiếp đến việc Seo website của bạn lên các trang tìm kiếm Google.

File robots.txt là gì? Công dụng của nó.

Robots.txt là tập tin text có đuôi .txt được đặt trong thư mục gốc của website cùng cấp với tập tin index.

Robots.txt chứa các câu lệnh điều hướng giúp cho quản trị website thuận tiện trong việc cho hay không cho các Google Bot của công cụ tìm kiếm Google lập chỉ mục những thành phần trong website của mình.

VD: https://howtocode.ml/robots.txt

Tạo file robots.txt

Các lệnh cơ bản trong robots.txt

– User-agent: Khai báo bot, đường dẫn, thư mục,…

– Allow: Cho phép bot vào thư mục nào đó.

– Disallow: Không cho bot đọc file nào đó.

– Sitemap: url sitemap của website.

– dấu * : thay thế một chuỗi ký tự bất kỳ.

– dấu $ thường dùng ở định dạng file, ví dụ như .doc, .pdt, .ppt, .swf…, dùng ở cuối câu.

Chèn sitemap

Sitemap giống như một tấm bản đồ để Google Bot khám phá trang web của bạn.

Nếu số lượng index của trang web quá lớn mà trang web không có sitemap, bọ Google có thể sẽ không đủ tài nguyên (crawl budget) để quét hết trang web của bạn. Từ đó, Google có thể sẽ không index được một số nội dung quan trọng.

Một trang web có thể có nhiều hơn một sitemap (ví dụ như sitemap bài viết, sitemap hình ảnh, sitemap tin tức…). Bạn nên dùng một phần mềm để tạo sitemap cho trang web, rồi sau đó khai báo các đường dẫn sitemap đó vào trong file robots.txt.

Đối với WordPress, pluginYoast SEO đã tự động tạo sitemap cho bạn (thường là /sitemap_index.xml).

Chặn bot trong quá trình cài đặt

Để chặn Google Bot, bạn khai báo file robots.txt như sau:

Đối với WordPress, có thể vào phần Settings/Reading/Search Engine Visibility, chọn ô Discourage search engines from indexing this site là xong.

Lưu ý: Cách cấu hình file robots.txt như trên, bạn chỉ được dùng trong khi setup hệ thống.

Chặn bot truy cập

Chặn Bot check backlink

Để không cho các công cụ phân tích backlink của bạn, bạn có thể chặn bot của chúng trong file robots.txt.

Ví dụ: muốn chặn bot của Ahrefs, cú pháp:

Lưu ý: Nếu tồn tại các website vệ tinh thì cần thêm vào tất cả các website vệ tinh.
Danh sách các bot check backlink: Bot Backlink

Chặn Bot độc hại

Ngoài bọ check backlink, còn một số loại bọ độc hại khác.

Các Bot chuyên dùng để copy nội dung người khác như EtaoSpider(của Alibaba), Zealbot, MSIECrawler, SiteSnagger, WebStripper, WebCopier…

Và các bot gửi quá nhiều request tới máy chủ làm tốn băng thông và tài nguyên hệ thống như fast, wget, NPBot, grub-client…

Tham khảo danh sách những con bot đó, và lí do chặn chúng tại đây.

Chặn đường dẫn trùng lặp

Thường ở các đường dẫn trong tìm kiếm và sắp xếp có định dạng ?sort=abc . Đường dẫn này thường trùng lặp trong website.

Nên tốt nhất là nên chặn các đường dẫn kiểu như vậy.

Tham Khảo

https://support.google.com/webmasters/answer/156184

Trả lời

Close Menu