Mặc dù cố gắng chặn bot có thể giúp giải phóng tài nguyên và dọn sạch nhật ký của bạn, điều quan trọng cần lưu ý là robot.txt và thậm chí sử dụng thẻ meta trên các trang noindex không thực sự ngăn chặn bot truy cập trang web của bạn. Thỉnh thoảng họ vẫn có thể thu thập dữ liệu trang web của bạn để xem liệu bị từ chối từ robot đã bị xóa hay chưa. Nhiều bot thậm chí không sử dụng tác nhân người dùng và sẽ sử dụng tác nhân người dùng chuẩn. Các bot mà tôi đang đề cập đến thường là các bot thu hoạch SEO quét các liên kết ngược chứ không phải các bot chung mà bạn tìm thấy từ các công cụ tìm kiếm.
Thay vì chặn các bot, bạn chỉ nên tính đến các bot này khi đếm số khách truy cập của mình, sau một thời gian tích cực theo dõi trang web của bạn, bạn sẽ thiết lập một con số sơ sài là bot. Hầu hết mọi người quan tâm đến các lượt truy cập duy nhất và điều này loại trừ các bot vì chúng liên tục quay trở lại. Trong thời đại ngày nay, có rất nhiều máy chủ, lưu trữ được chia sẻ có thể xử lý các bot này ngoài các trang mà bạn không muốn lập chỉ mục Tôi không thấy lý do gì để chặn các loại bot này. Tất nhiên bạn cũng có các bot có hại nhưng chúng chắc chắn sẽ không sử dụng tác nhân người dùng;).
Cá nhân tôi tin rằng việc chặn robot là lãng phí thời gian vì chúng không sử dụng nhiều tài nguyên đó, robot SEO có thể giúp đỡ khi chúng liệt kê trang web của bạn trên các trang PR0, điều này tất nhiên làm tăng PageRank của bạn và ở đó tự động để bạn không bị trừng phạt bởi họ.
Nhật ký vấn đề
Bạn nên sử dụng trình xem nhật ký thích hợp cho phép bạn lọc ra một số yêu cầu nhất định, điều này giúp dễ dàng hơn khi xem lại nhật ký của bạn. Những người xem giỏi có thể lọc ra nhiều thứ như các lượt truy cập bình thường, 404s và hơn thế nữa.