Bên cạnh việc tuân theo robot.txt, hãy tuân theo nofollow
và noindex
trong <meta>
các yếu tố và liên kết:
Có nhiều người tin rằng robot.txt không phải là cách thích hợp để chặn lập chỉ mục và vì quan điểm đó, đã hướng dẫn nhiều chủ sở hữu trang web dựa vào <meta name="robots" content="noindex">
thẻ để thông báo cho các trình thu thập dữ liệu web không lập chỉ mục một trang.
Nếu bạn đang cố gắng tạo một biểu đồ kết nối giữa các trang web (bất cứ thứ gì tương tự như PageRank),
(và <meta name="robots" content="nofollow">
) được cho là trang web nguồn không tin tưởng trang web đích đủ để cung cấp cho nó một sự chứng thực phù hợp. Vì vậy, trong khi bạn có thể lập chỉ mục trang web đích, bạn không nên lưu trữ mối quan hệ giữa hai trang web.
SEO là một nghệ thuật hơn là một khoa học thực sự và nó được thực hiện bởi rất nhiều người biết họ đang làm gì, và rất nhiều người đọc bản tóm tắt điều hành của những người biết họ đang làm gì. Bạn sẽ gặp phải các vấn đề trong đó bạn sẽ bị chặn khỏi các trang web để làm những việc mà các trang web khác thấy hoàn toàn chấp nhận được do một số quy tắc ai đó đã nghe hoặc đọc trong một bài đăng trên blog về SEOmoz có thể hoặc không thể hiểu chính xác.
Do yếu tố con người đó, trừ khi bạn là Google, Microsoft hoặc Yahoo!, Bạn được coi là độc hại trừ khi được chứng minh khác đi. Bạn cần hết sức cẩn thận để hành động như thể bạn không phải là mối đe dọa đối với chủ sở hữu trang web và hành động theo cách bạn muốn một trình thu thập dữ liệu có khả năng độc hại (nhưng hy vọng là lành tính):
- dừng thu thập dữ liệu một trang web khi bạn phát hiện ra mình đang bị chặn: 403/241 trên các trang bạn biết công việc, điều tiết, hết thời gian, v.v.
- tránh thu thập thông tin đầy đủ trong khoảng thời gian tương đối ngắn: thu thập dữ liệu một phần của trang web và quay lại sau (một vài ngày sau) để thu thập thông tin một phần khác. Đừng đưa ra yêu cầu song song.
- tránh thu thập dữ liệu các khu vực có khả năng nhạy cảm:
/admin/
ví dụ : URL có trong đó.
Ngay cả khi đó, đây sẽ là một trận chiến trên đồi trừ khi bạn sử dụng các kỹ thuật mũ đen như giả mạo UA hoặc cố tình che giấu các mẫu thu thập thông tin của bạn: nhiều chủ sở hữu trang web, vì những lý do tương tự ở trên, sẽ chặn một trình thu thập dữ liệu không xác định thay vì nhìn cơ hội có ai đó không cố gắng "hack trang web của họ". Chuẩn bị cho rất nhiều thất bại.
Một điều bạn có thể làm để chống lại hình ảnh tiêu cực mà trình thu thập thông tin không xác định sẽ có là làm cho nó rõ ràng trong chuỗi tác nhân người dùng của bạn, bạn là ai:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Nơi http://example.com/aarobot.html
giải thích những gì bạn đang cố gắng thực hiện và tại sao bạn không phải là mối đe dọa. Trang đó nên có một vài điều:
- Thông tin về cách liên hệ trực tiếp với bạn
- Thông tin về những gì trình thu thập thông tin thu thập và lý do tại sao nó thu thập nó
- Thông tin về cách từ chối và xóa mọi dữ liệu được thu thập
Điều cuối cùng là chìa khóa: từ chối tốt giống như Bảo đảm hoàn tiền ™ và đạt được số tiền thiện chí không hợp lý. Cần phải nhân văn: một bước đơn giản (địa chỉ email hoặc, lý tưởng nhất là hình thức) và toàn diện (không nên có bất kỳ "gotchas" nào: từ chối có nghĩa là bạn ngừng thu thập thông tin mà không có ngoại lệ).