Kiểm soát Lưu trữ Internet bên cạnh chỉ có Dis Disallow / Lần?


13

Có bất kỳ cơ chế nào để kiểm soát những gì Lưu trữ Internet trên một trang web không? Tôi biết không cho phép tất cả các trang tôi có thể thêm :

User-agent: ia_archiver
Disallow: /
  1. Tôi có thể nói với bot rằng tôi muốn họ thu thập dữ liệu trang web của tôi mỗi tháng một lần hoặc mỗi năm một lần không?

  2. Tôi có một trang web / trang không / không được lưu trữ chính xác vì tài sản không được chọn. Có cách nào để nói với bot Lưu trữ Internet những tài sản cần thiết nếu nó sẽ lấy trang web không?


Tôi cũng rất quan tâm đến câu trả lời cho điều này. +1 :)
Tim Post

Câu trả lời:


8

Lưu ý : Câu trả lời này ngày càng lỗi thời.

Người đóng góp lớn nhất cho bộ sưu tập web của Internet Archive là Alexa Internet. Tài liệu mà Alexa thu thập cho mục đích của nó đã được tặng cho IA một vài tháng sau đó. Việc thêm quy tắc không được đề cập trong câu hỏi không ảnh hưởng đến những lần thu thập thông tin đó, nhưng Wayback sẽ 'hồi tố' tôn trọng họ (từ chối quyền truy cập, tài liệu vẫn sẽ nằm trong kho lưu trữ - bạn nên loại trừ robot của Alexa nếu bạn thực sự muốn loại bỏ tài liệu của mình của Lưu trữ Internet).

Có thể có những cách để ảnh hưởng đến việc thu thập dữ liệu của Alexa, nhưng tôi không quen với điều đó.

Kể từ khi IA phát triển trình thu thập thông tin riêng (Heritrix), họ đã bắt đầu tự thu thập thông tin, nhưng những người này có xu hướng được nhắm mục tiêu (họ thu thập thông tin bầu cử cho Thư viện Quốc hội và đã thực hiện thu thập thông tin quốc gia cho Pháp và Úc, v.v.). Họ không tham gia vào các loại thu thập thông tin quy mô thế giới bền vững mà Google và Alexa thực hiện. Thu thập dữ liệu lớn nhất của IA là một dự án đặc biệt để thu thập dữ liệu 2 tỷ trang.

Vì các thu thập thông tin này được vận hành theo lịch xuất phát từ các yếu tố cụ thể của dự án, bạn không thể ảnh hưởng đến tần suất họ truy cập trang web của bạn hoặc nếu họ truy cập trang web của bạn.

Cách duy nhất để ảnh hưởng trực tiếp đến cách thức và thời điểm IA thu thập dữ liệu trang web của bạn là sử dụng dịch vụ Lưu trữ-Nó . Dịch vụ đó cho phép bạn chỉ định thu thập thông tin tùy chỉnh. Dữ liệu kết quả sẽ (cuối cùng) sẽ được đưa vào bộ sưu tập web của IA. Tuy nhiên, đây là một dịch vụ thuê bao trả phí.


3
Nhận xét của bạn về IA thực hiện thu thập thông tin của riêng họ là đúng vào năm 2011 và không còn đúng trong năm 2016: hiện tại chúng tôi thực hiện rất nhiều thao tác thu thập thông tin.
Greg Lindahl

@GregLindahl bạn được chào đón để thêm câu trả lời cập nhật cho câu hỏi này
Stephen Ostermiller

2

Hầu hết các công cụ tìm kiếm đều hỗ trợ chỉ thị "Thu thập thông tin chậm trễ", nhưng tôi không biết nếu IA thực hiện. Bạn có thể thử nó mặc dù:

User-agent: ia_archiver
Crawl-delay: 3600

Điều này sẽ giới hạn độ trễ giữa các yêu cầu xuống 3600 giây (tức là 1 giờ) hoặc ~ 700 yêu cầu mỗi tháng.

Tôi không nghĩ # 2 là có thể - bot IA lấy tài sản khi nó thấy phù hợp. Nó có thể có giới hạn kích thước tệp để tránh sử dụng quá nhiều bộ nhớ.


@Kris: Đặt độ trễ thu thập thông tin sẽ thực hiện điều đó bằng proxy. Nếu bạn có 30 trang và bạn bảo trình thu thập thông tin chỉ truy cập một lần một ngày, mỗi trang có thể sẽ được làm mới khoảng 30 ngày một lần. (Không phải là một sự đảm bảo, rõ ràng.)
DisgruntledGoat

Tuy nhiên, trên lý thuyết là có, nếu bạn đang thực hiện lưu trữ thu thập thông tin, bạn sẽ không bao giờ tuân theo quy tắc như vậy. Thu thập dữ liệu một trang web một tài liệu mỗi ngày có nghĩa là bạn không thể có được một trang web tốt tại một thời điểm cụ thể. Nếu thuộc tính này được tôn trọng, nó sẽ có giới hạn trên 1-5 phút trong bất kỳ thu thập dữ liệu lưu trữ nào .
Kris

Ah OK, tôi thấy quan điểm của bạn.
Không hài lòngGoat

Tôi vừa mới xem Heritrix 3 được phát hành gần đây và tôi thấy rằng họ đã thêm xử lý chỉ thị trì hoãn thu thập thông tin, nhưng nó mặc định chỉ tôn trọng tối đa 300 giây (5 phút).
Kris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.