Lưu ý : Câu trả lời này ngày càng lỗi thời.
Người đóng góp lớn nhất cho bộ sưu tập web của Internet Archive là Alexa Internet. Tài liệu mà Alexa thu thập cho mục đích của nó đã được tặng cho IA một vài tháng sau đó. Việc thêm quy tắc không được đề cập trong câu hỏi không ảnh hưởng đến những lần thu thập thông tin đó, nhưng Wayback sẽ 'hồi tố' tôn trọng họ (từ chối quyền truy cập, tài liệu vẫn sẽ nằm trong kho lưu trữ - bạn nên loại trừ robot của Alexa nếu bạn thực sự muốn loại bỏ tài liệu của mình của Lưu trữ Internet).
Có thể có những cách để ảnh hưởng đến việc thu thập dữ liệu của Alexa, nhưng tôi không quen với điều đó.
Kể từ khi IA phát triển trình thu thập thông tin riêng (Heritrix), họ đã bắt đầu tự thu thập thông tin, nhưng những người này có xu hướng được nhắm mục tiêu (họ thu thập thông tin bầu cử cho Thư viện Quốc hội và đã thực hiện thu thập thông tin quốc gia cho Pháp và Úc, v.v.). Họ không tham gia vào các loại thu thập thông tin quy mô thế giới bền vững mà Google và Alexa thực hiện. Thu thập dữ liệu lớn nhất của IA là một dự án đặc biệt để thu thập dữ liệu 2 tỷ trang.
Vì các thu thập thông tin này được vận hành theo lịch xuất phát từ các yếu tố cụ thể của dự án, bạn không thể ảnh hưởng đến tần suất họ truy cập trang web của bạn hoặc nếu họ truy cập trang web của bạn.
Cách duy nhất để ảnh hưởng trực tiếp đến cách thức và thời điểm IA thu thập dữ liệu trang web của bạn là sử dụng dịch vụ Lưu trữ-Nó . Dịch vụ đó cho phép bạn chỉ định thu thập thông tin tùy chỉnh. Dữ liệu kết quả sẽ (cuối cùng) sẽ được đưa vào bộ sưu tập web của IA. Tuy nhiên, đây là một dịch vụ thuê bao trả phí.