Làm thế nào để (dis) cho phép bot archive.org? Có phải mọi thứ thay đổi, nếu vậy khi nào?

10

Tôi có một trang web mà tôi hầu như không muốn được lập chỉ mục bởi các công cụ tìm kiếm, nhưng tôi muốn giữ nó vĩnh viễn trên archive.org. Vì vậy, tôi robots.txtbắt đầu với điều này:

User-agent: *
Disallow: /

Hôm nay, theo archive.org tôi phải thêm vào phần sau đây robots.txtđể cho phép các bot của họ:

User-agent: ia_archiver
Disallow:

Nhưng, tôi đã thực hiện những gì họ chỉ ra vài năm trước, ít nhất, tôi đã thêm vào như sau:

User-agent: archive.org_bot
Disallow:

Sau đó, có một nguồn khác tuyên bố rằng bạn phải thêm hai ở trên Disallow, cộng với một nguồn khác:

User-agent: ia_archiver-web.archive.org 
Disallow:

Lưu ý rằng bạn cần đặt Disallow: /nếu bạn không muốn bot lưu trữ trang web của mình.

Đã có một sự thay đổi với bot IA? Nếu sau đó?

Cách được đề nghị là gì? Tôi có nên cho phép cả ba bây giờ và hy vọng rằng IA sẽ không thay đổi tên bot của họ trong tương lai không?

web-crawlers robots.txt internet-archive

— kqw
nguồn

Tôi chỉ biết về ia_archiver. Những người khác là một bất ngờ đối với tôi. Bạn có liên kết cho điều này? Lý do tôi hỏi là archive.org vẫn truy cập trang web của tôi và tôi phải chặn chúng bằng địa chỉ IP. Bạn cũng có đề cập rằng bạn Đừng muốn cho phép archive.org nhưng sau đó nói về ngăn chặn nó. Tôi chỉ muốn rõ ràng hơn về điều này và các liên kết có thể giúp tất cả chúng ta. Cảm ơn trước!

— Closnoc

Cập nhật câu hỏi. Hy vọng nó rõ ràng hơn bây giờ. Phiên bản nhỏ: Tôi không muốn bot công cụ tìm kiếm trên trang web này, tôi muốn bot bot archive.org. Nhưng có lẽ tôi nên đảo ngược câu hỏi vì đó là điều mà hầu hết mọi người đang tìm kiếm?

— kqw

Trên thực tế, nếu bạn không sử dụng bất kỳ thứ nào trong số này, bạn đang cho phép archive.org cung cấp rằng bạn không chặn bằng một tuyên bố về chăn.

— Closnoc

Chỉ sử dụng "ia_archiver" cũng sẽ chặn "ia_archiver-web.archive.org", do đó, sau này dường như là không cần thiết (cung cấp bot này theo tiêu chuẩn).

— MrWhite

Bạn có thấy bot ia-archiver (hoặc archive.org_bot) trong nhật ký truy cập của mình không?

— MrWhite

9

Cập nhật : Như @KevinFegan ghi chú trong các bình luận, tài liệu của họ đã thay đổi. Phần dưới đây mô tả cách Lưu trữ Internet đã xử lý nó trong quá khứ (ít nhất là vào năm 2014).

Câu hỏi thường gặp của họ Làm cách nào để các trang của trang web của tôi được loại trừ khỏi Wayback Machine? đề cập đến việc xóa tài liệu khỏi máy Wayback , tài liệu mà bot của họ được gọi ia_archiver.

Vì vậy, bản ghi này sẽ cho phép bot của họ thu thập dữ liệu toàn bộ trang web của bạn:

User-agent: ia_archiver
Disallow:

— unor
nguồn

Thứ tự của các nhóm không nên quan trọng. Tác nhân người dùng cụ thể nhất (ví dụ: dài nhất) phù hợp là tác nhân chiến thắng. Các *nhóm chỉ phù hợp khi không có nhóm khác đã xuất hiện.

— MrWhite

@ w3d: Bạn nói đúng, tôi đã xóa phần này. Cảm ơn thông tin :)

— unor

1

Rõ ràng, điều này đã thay đổi theo thời gian. Tôi không thể tìm thấy "ia_archiver" trên Trang Câu hỏi thường gặp mà bạn đã cung cấp và trên trang Blog Archive.org này từ ngày 25 tháng 4 năm 2017, Mark Graham nói: Tác nhân người dùng của i i___iveriver được sử dụng bởi Alexa Internet, không phải là Lưu trữ Internet.

— Kevin Fegan

@KevinFegan: Cảm ơn thông báo của bạn! Tôi đã cập nhật câu trả lời của mình để liên kết đến các phiên bản lưu trữ của tài liệu có chứa tên.

— unor

Tôi thích cách họ cố tình làm cho mọi thứ trở nên phức tạp để họ có thể thoát khỏi!

— Ultralisk

5

Thực sự có 2 vấn đề ở đây:

Liệu robots.txttrên trang web của bạn Disallow (block) Wayback thu thập thông tin trang web của bạn.
Wayback sẽ thu thập dữ liệu trang web của bạn.

Đối với điểm # 1:
Như những người khác đã nói, mục nhập chính xác cho robot.txt là:

User-agent: ia_archiver
Disallow:

Hãy nhớ rằng có thể mất một lúc (có lẽ là một thời gian dài), để Wayback nhận thấy bất kỳ thay đổi nào bạn đã thực hiện đối với robot.txt.

Để kiểm tra xem robots.txttrên trang web của bạn có cho phép Wayback thu thập dữ liệu trang web của bạn không:

Truy cập URL này: https://archive.org/web/
Trong hộp ở đầu trang, nhập URL của trang trên trang của bạn và nhấp vào "Browse History"nút.
Hoặc, trong hộp bên dưới "Lưu trang ngay bây giờ" (hiện ở gần phía dưới bên phải) và nhập URL của trang trên trang web của bạn và nhấp vào "Save Page"nút.

Tại thời điểm này, bạn sẽ thấy 1 trong 3 điều:

Bạn sẽ thấy một thông báo lỗi cho biết Wayback không thể truy cập các trang trên trang web đó do "robot.txt".
Bạn sẽ thấy "lịch" các điểm lưu lịch sử cho trang trên trang web của bạn. Trong trường hợp này, bạn biết rằng Wayback KHÔNG bị chặn thu thập dữ liệu trang web của bạn.
Hoặc, bạn sẽ thấy một thông báo cho biết Wayback không có kho lưu trữ của trang đó và đề nghị nhấp vào liên kết để thêm trang vào Wayback. Trong trường hợp này cũng vậy, bạn biết rằng Wayback KHÔNG bị chặn khi thu thập dữ liệu trang web của bạn.

Bây giờ, cho điểm # 2:

Wayback sẽ thu thập dữ liệu trang web của bạn?

Chỉ vì bạn cho phép Wayback thu thập dữ liệu trang web của bạn, điều đó không có nghĩa là họ (sẽ) thu thập dữ liệu trang web của bạn.

Theo Câu hỏi thường gặp Wayback (nhấn mạnh thêm):

Làm cách nào tôi có thể đưa trang web của mình vào Wayback Machine?

Phần lớn dữ liệu web được lưu trữ của chúng tôi đến từ thu thập dữ liệu của chúng tôi hoặc từ thu thập dữ liệu của Alexa Internet. Cả hai tổ chức đều không có "thu thập dữ liệu trang web của tôi ngay bây giờ!" quy trình nộp hồ sơ. Thu thập dữ liệu của Internet Archive có xu hướng tìm các trang web được liên kết tốt từ các trang web khác . Cách tốt nhất để đảm bảo rằng chúng tôi tìm thấy trang web của bạn là đảm bảo nó được bao gồm trong các thư mục trực tuyến và các trang web tương tự / liên quan đến bạn.

Alexa Internet sử dụng các phương pháp riêng để khám phá các trang web để thu thập dữ liệu. Có thể hữu ích để cài đặt thanh công cụ Alexa miễn phí và truy cập trang web bạn muốn thu thập thông tin để đảm bảo họ biết về nó.

Bất kể ai đang thu thập dữ liệu trang web, bạn nên đảm bảo rằng các quy tắc 'robot.txt' của trang web và các chỉ thị robot META trong trang không cho các trình thu thập thông tin tránh trang web của bạn.

Cập nhật: ngày 09 tháng 5 năm 2017

Những người khác đã để lại nhận xét / câu trả lời cho thấy rằng Archive.org không còn tôn vinh robot.txt. Có lẽ đây là một "công việc đang tiến triển" và cuối cùng nó sẽ xảy ra, nhưng tôi chưa thấy hành vi mới này.

Trường hợp này dường như đến từ bài viết này: Robots.txt: ROBOTS.TXT LÀ MỘT LƯU Ý BỀN VỮNG bởi archiveteam.org. Mặc dù trang đó có rất ít điều để nói về "Robots.txt", nhưng nó không đề cập đến bất cứ nơi nào mà Archive.org sẽ không còn tôn vinh robot.txt.

Cũng cần lưu ý: bài viết đó được lưu trữ trên archiveteam.orgđó, điều chắc chắn là không archive.org, và tôi không chắc có bất kỳ mối quan hệ (chính thức) nào giữa archive.orgvà archiveteam.org.

Trên thực tế, trang này về Nhóm Lưu trữ , dường như tuyên bố sự khác biệt giữa và (nhấn mạnh thêm):archive.org archive.orgarchiveteam.org

Được thành lập vào năm 2009, Nhóm Lưu trữ ( không bị nhầm lẫn với kho lưu trữ.org Nhóm Lưu trữ-It) là một tập thể lưu trữ lừa đảo chuyên lưu các bản sao của các trang web bị chết nhanh hoặc bị xóa vì mục đích lịch sử và di sản kỹ thuật số. ...

Trong mọi trường hợp, tôi đã quyết định dùng thử và tôi thấy rằng, ít nhất tại thời điểm này, Archive.org VẪN tôn vinh robot.txt:

Tôi tìm thấy một mục ngẫu nhiên trên eBay: Mục #: 131795294232
Nhấn vào đây để xem các mặt hàng đã bán:

Trang "Các mặt hàng đã bán" mở ra: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Sao chép liên kết vào bảng tạm.
Goto web.archive.org và dán liên kết từ eBay.
Bạn sẽ thấy rằng archive.org"Trang không thể được hiển thị do robot.txt."

Vì vậy, tại thời điểm này, tôi vẫn không bị thuyết phục, nhưng tôi rất thích được chứng minh là sai ... thật tuyệt nếu điều đó là sự thật.

— Kevin Fegan
nguồn

Khóa

— kho lưu trữ.org

@wortwart - Điều đó sẽ rất tuyệt nếu như vậy (xem bản cập nhật tôi đã thêm vào câu trả lời của mình). Bạn có liên kết đến thông tin về điều này?

— Kevin Fegan

Chắc chắn: blog.archive.org/2017/04/17/... "Một vài tháng trước, chúng tôi dừng lại đề cập đến các file robots.txt trên của chính phủ Mỹ và các trang web quân sự (...) Chúng tôi đang tìm cách để làm rộng rãi này hơn. "

— wortwart

4

Cập nhật 2017

Bot lưu trữ bây giờ không quan tâm đến robot.txt của bạn.

Nếu bạn thực sự muốn chặn nó, hãy gửi email cho họ theo trang này hoặc chặn địa chỉ IP của họ thông qua htaccess.

— Goyllo
nguồn

2

Xem các cập nhật tháng 5 năm 2017 đến câu trả lời của tôi: Làm thế nào để đúng cách (dis) cho phép các bot archive.org ...? . Bot Lưu trữ vẫn quan tâm đến tệp robot.txt, ngoại trừ các trang web của chính phủ. Lưu ý bài viết bạn đề cập là từ www.archiveteam.org, không liên quan đến Archive.org. --->

— Kevin Fegan

---> Mặc dù trang đó có rất ít điều để nói về "Robots.txt", nhưng nó không đề cập đến bất cứ nơi nào mà Archive.org sẽ không còn tôn vinh robot.txt. Bài viết trên Archive.org có liên quan là: Robots.txt có nghĩa là cho các công cụ tìm kiếm không hoạt động tốt cho lưu trữ web . "Vài tháng trước, chúng tôi đã ngừng đề cập đến các tệp robot.txt trên các trang web của chính phủ và quân đội Hoa Kỳ (...) Chúng tôi hiện đang tìm cách làm điều này rộng hơn."

— Kevin Fegan

Đúng. Bây giờ Lưu trữ hoàn toàn bỏ qua các yêu cầu loại bỏ.

— Ultralisk

3

Mục nhập Robot.txt ia_archiver Không cho phép (với "/") sẽ phù hợp với nhu cầu bạn mô tả (để "bảo tồn vĩnh cửu", nhưng chưa được công khai).

Tôi vừa thực hiện một bài kiểm tra nhanh, nhận xét mục ia_archiver Không cho phép trang web có ít nhất 10 năm qua. Sau đó, tôi đã tìm kiếm trang web trên archive.org/web và nó đã hiển thị các lượt truy cập mà nó đã thu thập trong các năm 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 và 2017! Điều này có nghĩa là Archive.org không bao giờ tôn trọng nghiêm ngặt những gì người khác cho là tuyên bố "không lưu trữ" trong những năm này, nó chỉ đơn thuần là không tiết lộ các bản sao lưu trữ.

— mike
nguồn

2

"Ia_archiver" hiện được (ab) sử dụng bởi Alexa, một số nguồn cho biết: 1 , 2 .
Archive.org ngay bây giờ (2018) KHÔNG tôn trọng "robot.txt" nữa. 3 Không chỉ cho các trang mil / gov, mà cho tất cả các trang. Như đã có kinh nghiệm với trang web riêng của tôi, đã có và không có robot.txt từ năm 2012; và bây giờ tôi đột nhiên phát hiện ra nó đã được họ thu thập và lưu lại trong suốt những năm qua và bây giờ toàn bộ lịch sử có thể nhìn thấy được. Đó là một cảm giác bị phản bội. > :-(

— Carl
nguồn

1

Tôi đã thử robots.txtphương pháp và nó không hoạt động. Vì vậy, tôi đã liên hệ với trang web trên email của họ info@archive.org:

Xin chào,

Bạn có thể vui lòng xóa trang web cá nhân của tôi dimitarnestorov.com khỏi kho lưu trữ của bạn không?

Cảm ơn!

Dimitar

Và tôi đã nhận được câu trả lời sau:

Xin chào,

Lưu trữ Internet có thể loại trừ các trang web khỏi Wayback Machine (web.archive.org), nhưng trước tiên chúng tôi yêu cầu bạn giúp chúng tôi xác minh rằng bạn là chủ sở hữu trang web hoặc tác giả nội dung của dimitarnestorov.com bằng cách thực hiện bất kỳ thao tác nào sau đây:

(Lưu ý: Một số tùy chọn này có thể được tham chiếu đến nội dung nằm trong các bản chụp Wayback Machine trước đó và / hoặc tài liệu bạn có thể có liên quan đến khoảng thời gian được chỉ định.)

gửi yêu cầu của bạn trên phiên bản hiện tại của trang web (và gửi cho chúng tôi một liên kết).

gửi yêu cầu của bạn từ liên hệ email chính được liệt kê trên trang web và cho chúng tôi biết nơi có thể được đặt (nếu có).

gửi yêu cầu từ email của người đăng ký (nếu có thể xem công khai trên tra cứu WHOIS, bạn có thể liên kết với chúng tôi) hoặc email của quản trị viên web được liệt kê trên trang web.

chỉ chúng tôi đến nơi thông tin cá nhân của bạn (tên, điểm liên hệ, hình ảnh của chính bạn) xuất hiện trên trang web theo cách xác định bạn là chủ sở hữu của trang web hoặc tác giả của nội dung bạn muốn loại trừ - trong trường hợp này, chúng tôi yêu cầu để xác minh danh tính của bạn thông qua việc quét ID ảnh hợp lệ (thông tin nhạy cảm như ngày sinh, địa chỉ hoặc số điện thoại có thể được xác định lại).

chuyển tiếp cho chúng tôi thông tin liên lạc từ một công ty lưu trữ hoặc công ty đăng ký gửi cho bạn với tư cách là chủ sở hữu của tên miền.

(Lưu ý: Việc đề cập đơn giản tên / tên người dùng và / hoặc siêu liên kết / chuyển hướng giữa các trang web / trang / tài khoản thường không đủ để lưu trữ loại trừ.)

Nếu không có tùy chọn nào trong số này có sẵn cho bạn, vui lòng cho chúng tôi biết khi trả lời email này.

Chúng tôi sẽ biết ơn nếu bạn giúp chúng tôi bảo quản càng nhiều kho lưu trữ càng tốt. Do đó, vui lòng cho chúng tôi biết nếu chỉ có các URL hoặc thư mục cụ thể mà bạn quan tâm để chúng tôi có thể để phần còn lại của tài liệu lưu trữ.

Như bạn có thể biết, Internet Archive là một thư viện kỹ thuật số phi lợi nhuận, đang tìm cách duy trì thông qua Wayback Machine một bản ghi lịch sử có thể truy cập tự do của Internet. Tài liệu trong kho lưu trữ không được Internet Archive khai thác vì lợi nhuận thương mại.

Nhóm lưu trữ Internet

Tôi đã tạo wayback-removal-request.htmlvới nội dung sau (thậm chí không hợp lệ HTML):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Tải lên và trả lời email của họ với URL mà trang web có sẵn và sau đó tôi nhận được câu trả lời sau:

Xin chào,

Trang web / URL được tham chiếu trong email của bạn dưới đây hiện đã được gửi để loại trừ khỏi Wayback Machine tại http://www.archive.org (liên quan đến tất cả các ảnh chụp trong quá khứ):

dimitarnestorov.com

Vui lòng cho phép tối đa một ngày để các phần tự động của quy trình chạy khóa học của họ và để các thay đổi có hiệu lực.

Nhóm lưu trữ Internet

Khi tôi kiểm tra một vài giờ sau đó, trang web của tôi đã bị xóa.

— Dimitar Nestorov
nguồn