Thực sự có 2 vấn đề ở đây:
- Liệu
robots.txt
trên trang web của bạn Disallow (block) Wayback thu thập thông tin trang web của bạn.
- Wayback sẽ thu thập dữ liệu trang web của bạn.
Đối với điểm # 1:
Như những người khác đã nói, mục nhập chính xác cho robot.txt là:
User-agent: ia_archiver
Disallow:
Hãy nhớ rằng có thể mất một lúc (có lẽ là một thời gian dài), để Wayback nhận thấy bất kỳ thay đổi nào bạn đã thực hiện đối với robot.txt.
Để kiểm tra xem robots.txt
trên trang web của bạn có cho phép Wayback thu thập dữ liệu trang web của bạn không:
- Truy cập URL này: https://archive.org/web/
- Trong hộp ở đầu trang, nhập URL của trang trên trang của bạn và nhấp vào
"Browse History"
nút.
- Hoặc, trong hộp bên dưới "Lưu trang ngay bây giờ" (hiện ở gần phía dưới bên phải) và nhập URL của trang trên trang web của bạn và nhấp vào
"Save Page"
nút.
Tại thời điểm này, bạn sẽ thấy 1 trong 3 điều:
- Bạn sẽ thấy một thông báo lỗi cho biết Wayback không thể truy cập các trang trên trang web đó do "robot.txt".
- Bạn sẽ thấy "lịch" các điểm lưu lịch sử cho trang trên trang web của bạn. Trong trường hợp này, bạn biết rằng Wayback KHÔNG bị chặn thu thập dữ liệu trang web của bạn.
- Hoặc, bạn sẽ thấy một thông báo cho biết Wayback không có kho lưu trữ của trang đó và đề nghị nhấp vào liên kết để thêm trang vào Wayback. Trong trường hợp này cũng vậy, bạn biết rằng Wayback KHÔNG bị chặn khi thu thập dữ liệu trang web của bạn.
Bây giờ, cho điểm # 2:
Wayback sẽ thu thập dữ liệu trang web của bạn?
Chỉ vì bạn cho phép Wayback thu thập dữ liệu trang web của bạn, điều đó không có nghĩa là họ (sẽ) thu thập dữ liệu trang web của bạn.
Theo Câu hỏi thường gặp Wayback (nhấn mạnh thêm):
Phần lớn dữ liệu web được lưu trữ của chúng tôi đến từ thu thập dữ liệu của chúng tôi hoặc từ thu thập dữ liệu của Alexa Internet. Cả hai tổ chức đều không có "thu thập dữ liệu trang web của tôi ngay bây giờ!" quy trình nộp hồ sơ. Thu thập dữ liệu của Internet Archive có xu hướng tìm các trang web được liên kết tốt từ các trang web khác . Cách tốt nhất để đảm bảo rằng chúng tôi tìm thấy trang web của bạn là đảm bảo nó được bao gồm trong các thư mục trực tuyến và các trang web tương tự / liên quan đến bạn.
Alexa Internet sử dụng các phương pháp riêng để khám phá các trang web để thu thập dữ liệu. Có thể hữu ích để cài đặt thanh công cụ Alexa miễn phí và truy cập trang web bạn muốn thu thập thông tin để đảm bảo họ biết về nó.
Bất kể ai đang thu thập dữ liệu trang web, bạn nên đảm bảo rằng các quy tắc 'robot.txt' của trang web và các chỉ thị robot META trong trang không cho các trình thu thập thông tin tránh trang web của bạn.
Cập nhật: ngày 09 tháng 5 năm 2017
Những người khác đã để lại nhận xét / câu trả lời cho thấy rằng Archive.org không còn tôn vinh robot.txt. Có lẽ đây là một "công việc đang tiến triển" và cuối cùng nó sẽ xảy ra, nhưng tôi chưa thấy hành vi mới này.
Trường hợp này dường như đến từ bài viết này: Robots.txt: ROBOTS.TXT LÀ MỘT LƯU Ý BỀN VỮNG bởi archiveteam.org
. Mặc dù trang đó có rất ít điều để nói về "Robots.txt", nhưng nó không đề cập đến bất cứ nơi nào mà Archive.org sẽ không còn tôn vinh robot.txt.
Cũng cần lưu ý: bài viết đó được lưu trữ trên archiveteam.org
đó, điều chắc chắn là không archive.org
, và tôi không chắc có bất kỳ mối quan hệ (chính thức) nào giữa archive.org
và archiveteam.org
.
Trên thực tế, trang này về Nhóm Lưu trữ , dường như tuyên bố sự khác biệt giữa và (nhấn mạnh thêm):archive.org
archive.org
archiveteam.org
Được thành lập vào năm 2009, Nhóm Lưu trữ ( không bị nhầm lẫn với kho lưu trữ.org Nhóm Lưu trữ-It) là một tập thể lưu trữ lừa đảo chuyên lưu các bản sao của các trang web bị chết nhanh hoặc bị xóa vì mục đích lịch sử và di sản kỹ thuật số. ...
Trong mọi trường hợp, tôi đã quyết định dùng thử và tôi thấy rằng, ít nhất tại thời điểm này, Archive.org VẪN tôn vinh robot.txt:
- Tôi tìm thấy một mục ngẫu nhiên trên eBay: Mục #: 131795294232
- Nhấn vào đây để xem các mặt hàng đã bán:
- Trang "Các mặt hàng đã bán" mở ra: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Sao chép liên kết vào bảng tạm.
- Goto web.archive.org và dán liên kết từ eBay.
- Bạn sẽ thấy rằng
archive.org
"Trang không thể được hiển thị do robot.txt."
Vì vậy, tại thời điểm này, tôi vẫn không bị thuyết phục, nhưng tôi rất thích được chứng minh là sai ... thật tuyệt nếu điều đó là sự thật.