Bài viết của 2001 2001 là gì để chặn các chương trình truy xuất tự động của Google, được đề cập bởi trang wget man?


11

Các wgettrang người đàn ông khẳng định này, bên dưới phần cho các --random-waittham số:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Tôi muốn có được một bản sao của bài viết này để đọc, và đã thử nhiều tìm kiếm trên Internet để xác định bài viết. Tuy nhiên, tất cả những gì tôi có thể tìm thấy với các tìm kiếm này là trang man wgetđược lưu trữ trên các trang web khác nhau; và một số tài liệu nghiên cứu khác không liên quan gì đến chủ đề này.

Có ai biết bài viết nào đang được đề cập và nơi tôi có thể có được một bản sao không?


Tôi đã đào qua danh sách gửi thư wget và tìm thấy cái này : lists.gnu.org/archive/html/orms-wget/2015-05/msg00029.html
7171u

Câu trả lời:


15

Mặc dù không phải là một câu trả lời trực tiếp, git blamegit logtiết lộ rằng phần này đã được giới thiệu trong cam kết 2c41d783 bởi một hniksicngười đi làm được gọi , người hóa ra là Hrvoje Niksic. Địa chỉ email của anh ấy có thể được tìm thấy trong ChangeLogtập tin của wget (Tôi sẽ không xuất bản nó ở đây vì những lý do rõ ràng). Tôi đề nghị hỏi anh ấy trực tiếp, vì anh ấy có thể là người tốt nhất để đưa ra câu trả lời thỏa đáng hơn. Trong khi ở đó, bạn có thể xem xét hỏi anh ta liệu anh ta có phiền cập nhật trang này cho phù hợp không. ;)


4

Tôi nghĩ rằng nó có thể là bài viết này:

Tạo dữ liệu có ý nghĩa từ nhật ký web bằng cách sử dụng cơ sở SAS

Có một đoạn thảo luận về việc chặn phạm vi lớp C:

Khi địa chỉ IP được tách thành các thành phần của nó, việc lọc phạm vi địa chỉ IP rất đơn giản. Một bộ lọc lớp B được thực hiện đối với hai octet đầu tiên, ví dụ 168.126.xx.xx. Đây là biến Onetwo trong ví dụ mã ở trên. Phạm vi lớp C được sử dụng phổ biến hơn khi chúng nhắm mục tiêu toàn bộ máy chủ và sử dụng ba trong số bốn octet, ví dụ 168.126.56.xx. Trong mẫu mã ở trên, đây là trường Ba cho rằng Usrhost là giá trị địa chỉ TCP / IP của nhật ký web.

Và một đề cập wgettrong chặn chuỗi dựa trên tác nhân người dùng:

Phương pháp ưa thích của chúng tôi để nhận dạng chuỗi tác nhân người dùng sử dụng chức năng khớp mẫu chỉ mục. Ví dụ:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Đó là kết quả thứ năm trong Googling cho "wget ​​phân tích nhật ký" cho năm 2001 .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.