Tự động chặn sử dụng băng thông HTTP quá mức?


24

Chúng tôi hơi ngạc nhiên khi thấy điều này trên biểu đồ Cacti cho lưu lượng truy cập web ngày 4 tháng 6:

Chúng tôi đã chạy Log Parser trên nhật ký IIS của chúng tôi và hóa ra đây là một cơn bão hoàn hảo của các bot Yahoo và Google lập chỉ mục cho chúng tôi .. trong khoảng thời gian 3 giờ đó, chúng tôi đã thấy 287 nghìn lượt truy cập từ 3 IP Google khác nhau, cộng với 104 nghìn từ Yahoo. Ôi?

Mặc dù chúng tôi không muốn chặn Google hoặc Yahoo, nhưng điều này đã xuất hiện trước đó. Chúng tôi có quyền truy cập vào Cisco PIX 515E và chúng tôi đang suy nghĩ về việc đặt nó ở phía trước để chúng tôi có thể tự động đối phó với những người vi phạm băng thông mà không cần chạm trực tiếp vào máy chủ web của chúng tôi.

Nhưng đó có phải là giải pháp tốt nhất? Tôi tự hỏi liệu có phần mềm hoặc phần cứng nào có thể giúp chúng tôi xác định và chặn sử dụng băng thông quá mức , lý tưởng trong thời gian thực không? Có lẽ một số phần cứng hoặc phần mềm nguồn mở mà chúng ta có thể đặt trước các máy chủ web của mình?

Chúng tôi chủ yếu là một cửa hàng Windows nhưng chúng tôi cũng có một số kỹ năng Linux; chúng tôi cũng sẵn sàng mua phần cứng nếu PIX 515E không đủ. Bạn muốn giới thiệu gì?

Câu trả lời:


23

Nếu PIX của bạn đang chạy phiên bản 7.2 trở lên của HĐH hoặc có thể được nâng cấp lên nó, thì bạn có thể thực hiện các chính sách QOS ở cấp tường lửa. Đặc biệt, điều này cho phép bạn định hình lưu lượng truy cập và sẽ cho phép bạn giới hạn băng thông được sử dụng bởi các bot. Cisco có một gudie tốt cho điều này ở đây .


Vấn đề duy nhất tôi có với câu trả lời này là người đăng không muốn BLOCK (hoặc xuống cấp) Google hoặc Yahoo mà chỉ muốn họ "thu thập dữ liệu tốt".
KPWINC

1
QOS không phải là về việc chặn. Đó là lý do Sam Cogan viết "nên cho phép bạn giới hạn băng thông được sử dụng bởi bot".
Piotr Dobrogost

9

Tôi không chắc chắn về yahoo, nhưng bạn có thể định cấu hình tần số bot của Google lập chỉ mục trang web của bạn. Hãy xem Google Webmaster . Tôi không chắc liệu Yahoo có gì tương tự không. Tại bất kỳ điều gì sẽ làm giảm lưu lượng truy cập của bạn lên đến 50%.

Ngoài ra, một số máy chủ web có thể giới hạn lưu lượng trên mỗi kết nối để bạn có thể thử điều đó. Cá nhân tôi sẽ tránh xa các giải pháp phần cứng vì rất có thể nó sẽ có giá cao hơn.


Yahoo! có Site Explorer.
Amok

9

Để giảm tải thu thập thông tin - Điều này chỉ hoạt động với Microsoft và Yahoo. Đối với Google, bạn sẽ cần chỉ định tốc độ thu thập dữ liệu chậm hơn thông qua Công cụ quản trị trang web của họ ( http://www.google.com/webmasters/ ).

Hãy cẩn thận khi thực hiện điều này bởi vì nếu bạn làm chậm quá trình thu thập dữ liệu quá nhiều, robot sẽ không thể truy cập tất cả trang web của bạn và bạn có thể mất các trang từ chỉ mục.

Dưới đây là một số ví dụ (chúng đi trong robots.txttệp của bạn ):

# Yahoo's Slurp Robot - Please wait 7 seconds in between visits

User-agent: slurp
Crawl-delay: 7

# MSN Robot - Please wait 5 seconds in between visits

User-agent: msnbot
Crawl-delay: 5

Hơi lạc đề, nhưng bạn cũng có thể chỉ định tệp chỉ mục Sơ đồ trang web hoặc Sơ đồ trang web.

Nếu bạn muốn cung cấp cho các công cụ tìm kiếm một danh sách toàn diện các URL tốt nhất của mình, bạn cũng có thể cung cấp một hoặc nhiều chỉ thị khám phá tự động Sơ đồ trang web. Xin lưu ý rằng tác nhân người dùng không áp dụng cho chỉ thị này, vì vậy bạn không thể sử dụng điều này để chỉ định sơ đồ trang web cho một số nhưng không phải tất cả các công cụ tìm kiếm.

# Please read my sitemap and index everything!

Sitemap: http://yourdomain.com/sitemap.axd

4

Chúng tôi sử dụng tường lửa Watchguard (chúng tôi là X1000, hiện đã hết hạn sử dụng). Họ có rất nhiều người yêu thích xoay quanh việc chặn các tên miền hoặc ips được nhìn thấy hết lần này đến lần khác hoặc đang sử dụng một lượng băng thông đáng sợ.

Điều này sẽ cần một số điều chỉnh vì bạn obvisouly sẽ không muốn chặn Jon Skeet trên stackoverflow :)


3

Tôi muốn giới thiệu Microsoft ISA Server 2006. Cụ thể cho yêu cầu này, nó sẽ giới hạn ở 600 yêu cầu HTTP / phút trên mỗi IP theo mặc định và bạn có thể áp dụng ngoại lệ cho Jon Skeet (xin lỗi, tôi nhận ra rằng "trò đùa" đã được thực hiện! ).

Bạn có các lợi ích bổ sung của lọc cấp độ ứng dụng, khả năng cân bằng tải trên nhiều máy chủ web (thay vì NLB trên các máy chủ đó), chấm dứt VPN, v.v. Có một số tiện ích mở rộng thương mại có sẵn và thậm chí bạn có thể viết bộ lọc ISAPI của riêng mình nếu bạn đang cảm thấy dũng cảm

Đây rõ ràng không phải là nguồn mở nhưng có lợi ích cho một cửa hàng Windows và chạy trên phần cứng hàng hóa.


Đây là cách tiếp cận linh hoạt nhất cùng với redirectig robot.txt
Jim B

Cảm ơn. Tôi đồng ý rằng các trình thu thập thông tin cần phải được đưa ra một số hướng!
Robin M

2

Chúng tôi sử dụng bộ cân bằng tải của Foundry (cụ thể là SI850) để xử lý loại vấn đề định hình này, nó cũng xử lý khá nhiều 'nastys' khác như lũ lụt, v.v. Tuy nhiên, có thể hơi quá mức cho các bạn.


2

Các sản phẩm PacketShaper của Bluecoat (trước đây là Packeteer) có thể điều chỉnh linh hoạt việc sử dụng quá mức đối với lưu lượng truy cập mà nó quản lý.


1

Bạn thậm chí có thể thực hiện giới hạn tốc độ thô sơ với bất kỳ bộ định tuyến thông thường nào của Cisco với bất kỳ dung lượng / cổ điển nào. Bạn đang sử dụng bộ định tuyến của Cisco?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.