Làm cách nào để các trang web phát hiện bot phía sau proxy hoặc mạng công ty


12

Làm thế nào để các trang web lớn (ví dụ Wikipedia) đối phó với các bot đứng sau mặt nạ IP khác? Chẳng hạn, ở trường đại học của tôi, mọi người đều tìm kiếm Wikipedia, mang lại cho nó một tải trọng đáng kể. Nhưng, theo như tôi biết, Wikipedia chỉ có thể biết IP của bộ định tuyến đại học, vì vậy nếu tôi thiết lập một bot "giải phóng" (chỉ có một độ trễ nhỏ giữa các yêu cầu), Wikipedia có thể cấm bot của tôi mà không cấm toàn bộ tổ chức không? một trang web thực sự có thể cấm một IP đằng sau một mạng lưới tổ chức?



@isanae Liên quan: superuser.com/q/1013630
326546

Câu trả lời:


21

Không, họ sẽ cấm IP công cộng và tất cả những ai là NAT của IP đó cũng sẽ bị cấm.

Mặc dù ít nhất là tại stack nếu chúng tôi nghĩ rằng chúng tôi sẽ cấm một trường đại học hoặc một cái gì đó tương tự, chúng tôi sẽ liên hệ với người liên hệ lạm dụng của họ để khiến họ theo dõi kẻ phạm tội và ngăn chặn vấn đề.


2
Những gì Zypher nói. Nói như một người thường theo dõi các khiếu nại được gửi đến lạm dụng@unnamedacademiainstlation.edu, chúng tôi thường rất háo hức tìm người chịu trách nhiệm để họ bỏ chặn IP công khai. (Sinh viên đại học thích chia sẻ âm nhạc ngang hàng với nhau. RIAA thích liên hệ với lạm dụng@whthing.edu về điều đó.)
Kinda Villyard

... trừ khi có một cái gì đó có thể nhận dạng duy nhất về bot của bạn, chẳng hạn như chuyển mã thông báo truy cập hoặc id trình duyệt duy nhất.
đơn giản

1
Điều này không trả lời câu hỏi tiêu đề thực tế về cách các trang web này phát hiện bot. Trên thực tế, có vẻ như nếu bạn làm chậm bot của mình một cách đầy đủ (sẽ không nhiều), thực tế nó sẽ không thể phân biệt được với việc sử dụng hợp lệ bởi cả một nhóm sinh viên đại học.
tự đại diện

1
Để mở rộng nhận xét của @ KindaVillyard. Chính thức giám sát mạng lưới của một tổ chức nếu không có ai liên lạc với chúng tôi trước khi chặn và tài nguyên chúng tôi bị chặn thường xuyên được sử dụng, chúng tôi sẽ liên hệ với họ để khắc phục sự cố. Thông thường họ sẵn sàng bỏ chặn chúng tôi nếu chúng tôi sẽ giải quyết vấn đề này từ cuối của chúng tôi. Điều này có nghĩa là theo đuổi các nguồn lạm dụng. Là Wikipedia, ngay cả khi họ không liên hệ với tổ chức của bạn, tổ chức của bạn có thể sẽ xem xét khi họ nhận ra rằng họ đã bị đưa vào danh sách đen. Lệnh cấm dường như vô hại đó có thể nhanh chóng biến thành trục xuất.
Bacon Brad

1
@Wildcard FWIW hầu hết các địa điểm sẽ không cho bạn biết cách họ phát hiện các bot đơn giản bởi vì điều đó sẽ giúp các tác giả bot mà họ bắt được để thay đổi mọi thứ. Điều đó nói rằng, có nhiều tín hiệu khác ngoài tốc độ yêu cầu phát hiện bot. Nhưng hầu hết các nơi sẽ không quan tâm đến điều đó nếu bạn đang chơi tốt, không làm điều gì đó tồi tệ hoặc làm căng tài nguyên. Nó không đáng để theo đuổi mọi bot nhỏ ngoài kia.
Zypher

1

Một trang web không thể trực tiếp cấm một IP đứng sau NAT. Nó có thể hoạt động trên các IP được chuyển qua các proxy HTTP không ẩn danh - khi một proxy như vậy chuyển tiếp yêu cầu, nó thường nối địa chỉ đó vào tiêu đề X-Forwarded-For, vì vậy nếu truy cập từ mạng riêng của bạn thực sự phải đi qua như vậy proxy IP nội bộ có thể bị lộ; tuy nhiên, hầu hết các trang web (bao gồm cả wikipedia) sẽ không tin vào thông tin trong tiêu đề đó bởi vì nó dễ bị giả mạo để ám chỉ các IP vô tội hoặc trốn tránh các lệnh cấm.

Tuy nhiên, có những kỹ thuật khác cố gắng xác định duy nhất người dùng độc lập với địa chỉ IP. Bạn có thể thẩm vấn trình duyệt web để biết nhiều thông tin về nó và hệ thống mà nó đang chạy, chẳng hạn như tác nhân người dùng, độ phân giải màn hình, danh sách các plugin, v.v. - xem https://github.com/carlo/jquery- dấu vân tay trình duyệtcho một ví dụ về điều này trong thực tế. Bạn có thể sử dụng dấu vân tay đó để kiểm soát quyền truy cập, mặc dù tùy thuộc vào thiết kế trang web, bạn có thể tương tác với nó mà không cần tham gia vào quá trình lấy dấu vân tay và ngay cả khi bot không thể cung cấp dữ liệu giả và ngẫu nhiên để tránh có dấu vân tay phù hợp nếu bạn nhận thức được loại bảo vệ này. Phương pháp kiểm soát này cũng có nguy cơ dương tính giả, đặc biệt là khi nói đến thiết bị di động, nơi có thể sẽ có một số lượng lớn khách hàng chạy các máy khách chứng khoán giống hệt nhau trên phần cứng chứng khoán giống hệt nhau (hầu hết mọi người trên một mẫu iPhone cụ thể chạy phiên bản cụ thể của iOS , ví dụ, có thể sẽ có cùng dấu vân tay).


1
Nó hoàn toàn không có khả năng; nhiều trường đại học và ít nhất một quốc gia, kết nối web proxy và thêm X-Forwarded-For.
Michael Hampton

Hấp dẫn. Cá nhân tôi sẽ rất ngạc nhiên nếu một công ty định cấu hình proxy web của họ để làm điều đó vì nó tiết lộ một số thông tin (tầm thường) về mạng nội bộ của bạn, nhưng tôi đoán nó phụ thuộc vào org.
Càrcer

@Carcer, nó không phải là địa chỉ IP nội bộ thực sự, chỉ là thứ phù hợp với từng người dùng proxy.
Ian Ringrose

0

Nói chung, địa chỉ IP không đủ thông tin cho lệnh cấm chính xác. Vì vậy, các mạng tiên tiến hoạt động cao lên ngăn xếp mạng.

Một cuộc tấn công từ chối dịch vụ (DoS) (mà bạn lo lắng về việc tạo) thường được xử lý bằng cách giới hạn tốc độ thiết lập kết nối TCP ban đầu. Điều này có nghĩa là người dùng hợp pháp sẵn sàng chờ đợi sẽ vượt qua trong khi những người chỉ cố gắng tiêu thụ tài nguyên máy chủ bị chậm lại đến mức nó trở nên vô hại. Đây là nơi DoS sau đó phát triển thành một cuộc tấn công DoS phân tán (DDoS).

Khi bạn có kết nối đến máy chủ, bạn có thể thực hiện bao nhiêu yêu cầu tùy ý, quản trị máy chủ web có thể định cấu hình bao nhiêu yêu cầu để xử lý.

Dù sao thì máy chủ web có thể xử lý nhiều dung lượng hơn cổng mạng cục bộ của bạn, đó có lẽ là yếu tố hạn chế trong trường hợp sử dụng của bạn. Tôi cá rằng các quản trị viên mạng Đại học của bạn sẽ đến gõ cửa nhà bạn trước khi Wikipedia làm.

Điều quan trọng là trở thành một công dân Internet tốt vì vậy tôi sẽ thêm mã giới hạn tỷ lệ vào bot.

Cũng cần chỉ ra rằng Wikipedia cung cấp các bãi chứa dữ liệu để việc truy tìm trang web không thực sự cần thiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.