Làm thế nào để chặn nhện b Nikol


15

Hầu hết các chuyến thăm của tôi là từ những con nhện b Nikol. Tôi không nghĩ rằng nó giúp công cụ tìm kiếm chút nào vì vậy tôi đang nghĩ cách chặn chúng. Điều này có thể được thực hiện thông qua iptables? Tôi đang sử dụng nginx làm máy chủ web của mình.


2
Tại sao tôi không nên? Tôi không muốn giao thông Trung Quốc.
Zhianc

6
Tôi không nói bạn không nên, tôi như đang hỏi tại sao lại bận tâm. Có phải họ đang làm tổn thương bạn theo một cách nào đó? Là nó không dễ dàng hơn chỉ để bỏ qua? "Không muốn giao thông Trung Quốc" thực sự không phải là một câu trả lời ở đây, chỉ là vấn đề bài ngoại biên giới. Và việc chặn một công cụ tìm kiếm gần như không giống với việc chặn người Trung Quốc, vì vậy bạn thậm chí không thực sự có ý nghĩa. Dường như với tôi rằng bạn có thể đã tìm kiếm một giải pháp dựa trên một vấn đề bị lỗi. Nhưng rõ ràng là bạn chỉ muốn tùy tiện chặn một số con nhện, vì vậy hãy tiếp tục, tôi đoán vậy.
Su '

7
@Su 'Tôi phát hiện ra rằng con nhện b Nikol đã bò rất mạnh trên trang web của tôi, gây ra sự cố giữ lưu lượng truy cập hợp pháp. Hơn nữa, tôi cũng thấy rằng con nhện b Nikol không tuân thủ robots.txtcác quy tắc.
starbeamrainbowlabs

2
Tôi nhận được khoảng 1-2 lượt truy cập mỗi giây từ các con nhện được cho là của Baidu. Mỗi lần truy cập sẽ tạo một tệp phiên mới trên máy chủ của tôi. Tôi có một tập lệnh để loại bỏ các tệp phiên đó nhưng những con nhện đó cũng làm quá tải máy chủ MySQL của tôi. Tôi chắc chắn muốn chặn chúng.
Butussy Butkus

2
Có thể xác nhận rằng baiduspider hoặc một cái gì đó đặt ra là baiduspider thu thập dữ liệu các trang web một cách phi đạo đức và bỏ qua các chỉ thị robot.txt.
JMC

Câu trả lời:


8

Trong tệp robots.txt của bạn thêm

#Baiduspider
User-agent: Baiduspider
Disallow: /

#Yandex
User-agent: Yandex
Disallow: /

5
Điều gì xảy ra nếu họ không tôn trọng robot.txt?
Zhianc

5
Tôi tình cờ biết rằng "Baiduspider / 2.0" truy cập từ các địa chỉ IP của Trung Quốc không tuân theo robot.txt trên trang web của tôi. Ngoài ra, họ thường sử dụng các truy cập phối hợp (cách nhau vài phút) từ cùng một khối địa chỉ IP không sử dụng ID tác nhân người dùng "Baiduspider".
mgkrebbs

Yandex tuân theo robot.txt Tôi đã khóa chúng cho đến khi chúng tôi nhận ra một phần tốt của việc kinh doanh của chúng tôi đến từ Nga và phải loại bỏ khối. Yahoo, bạn phải kiểm tra các netblocks. Không phải tất cả các thông báo của UA đều là Yahoo, vì vậy bạn cần phải thực hiện một khối robot.txt cho lưu lượng truy cập hợp pháp của Yahoo và sau đó thực hiện một chuỗi chuỗi UA trong .htaccess của bạn cho những gì còn lại và sau đó lãng phí cuộc sống của bạn bằng cách nhận dạng khối và từ chối phần còn lại xung quanh khối chuỗi UA. Nó chỉ hoạt động nhiều như việc tăng cường máy chủ của bạn để tăng lưu lượng truy cập.
Phòng thí nghiệm Fiasco

2
Tôi có User-agent: *và truy cập baiduspider tiếp tục được thực hiện.
Revierpost

3
Yandex là một công cụ tìm kiếm khác nhau cho thị trường Nga, vì vậy chỉ bao gồm nó ở đây khi câu hỏi không hỏi về nó và không viết bất cứ điều gì về nó là hơi vô trách nhiệm.
Nhà sưu tập

7

Tôi vừa chặn thành công searchbot Trung Quốc Baiduspidertruy cập bất kỳ nội dung nào trên trang web của tôi. Tôi đã quyết định làm như vậy vì những lý do sau đây.

Lý do quyết định chặn

  1. Khoảng 20 yêu cầu đến máy chủ của tôi là từ bot b Nikol. Đây là hành vi thiếu lịch sự. Baidubot chiếm 5% sử dụng băng thông trang web của tôi.
  2. Tôi nỗ lực rất nhiều để giữ cho các tài nguyên trên trang web của tôi nhỏ và tận dụng công nghệ như bộ nhớ đệm trình duyệt để tạo ra những chiến thắng nhỏ về tốc độ và băng thông. Thật hợp lý khi xem xét giải phóng 5% đó bằng cách chặn Baidubot.
  3. Khả năng mất một số lưu lượng truy cập của Trung Quốc là rủi ro chấp nhận được đối với doanh nghiệp vì nội dung của trang web cụ thể về mặt địa lý đối với Vương quốc Anh, không có phiên bản tiếng Trung Quốc và doanh thu được tạo từ Quảng cáo nhắm vào thị trường Anh.

Vì vậy, tôi hy vọng Su 'và những người khác quan tâm đến Xenophobia sẽ hiểu quyết định này là một phản ứng tuyệt vời đối với số lượng yêu cầu không chính đáng.

phương pháp

Baiduspider truy cập máy chủ của tôi bằng nhiều địa chỉ IP khác nhau nhưng những địa chỉ này nằm trong phạm vi nhất định. Vì vậy, tập tin .htaccess của tôi hiện chứa các dòng sau:

order allow,deny 
allow from all
# Block access to Baiduspider 
deny from 180.76.5.0/24 180.76.6.0/24 123.125.71.0/24 220.181.108.0/24 

Dòng dưới cùng về cơ bản mô tả 4 dải IP trong đó tôi biết Baiduspider và CHỈ Baiduspider truy cập máy chủ của tôi. Mỗi trong số 4 phạm vi là 256 địa chỉ liên tiếp (tổng số 1024). Xin lưu ý, cú pháp cho các dải IP trên deny from...đường dây có thể rất khó hiểu nếu bạn chưa đọc về phạm vi CIDR. Chỉ cần hiểu rằng 0/24có nghĩa là phạm vi kích thước 256 bắt đầu từ 0 nên 180.76.5.0/24thực sự có nghĩa là mọi địa chỉ IP nằm giữa 180.76.5.0180.76.5.255. Vâng, không đặc biệt rõ ràng! Nhưng nếu bạn muốn tìm hiểu lý do tại sao hoặc bạn chỉ thích cảm giác bối rối, hãy truy cập http://www.mediawiki.org/wiki/Help:Range_blocks

Tóm lược

Internet nên miễn phí, cởi mở và công bằng. Nhưng điều đó có nghĩa là các tổ chức như Yahoo học cách tuân theo Robots.txt và ít tham lam hơn với tính thường xuyên của nó. Giải pháp của tôi liên quan đến việc sửa đổi các cài đặt rất mạnh mẽ, vì vậy trước khi bạn loay hoay với tệp .htaccess, hãy chắc chắn sao lưu bản gốc của bạn, sẵn sàng khôi phục nếu bạn gỡ xuống máy chủ của mình trong ánh hào quang rực rỡ. Tiến hành có nguy cơ của riêng bạn.


khối địa chỉ IP của chúng có thể thay đổi, do đó cần có thời gian bảo trì
vào

5

Bạn có thể sử dụng chỉ thị sau robots.txtđể không cho phép thu thập dữ liệu trang web của bạn.

# robots.txt
User-agent: Baiduspider
Disallow: /

Tuy nhiên, trình thu thập thông tin có thể quyết định bỏ qua nội dung của tệp robots.txt của bạn. Hơn nữa, tập tin có thể được lưu trữ bởi các công cụ tìm kiếm và phải mất thời gian trước khi những thay đổi được phản ánh.

Cách tiếp cận hiệu quả nhất là sử dụng khả năng máy chủ của bạn. Thêm quy tắc sau vào nginx.conftệp của bạn để chặn Yahoo ở cấp máy chủ.

if ($http_user_agent ~* ^Baiduspider) {
  return 403;
}

Nhớ khởi động lại hoặc tải lại Nginx để áp dụng các thay đổi.


3

Chỉ cần quyết định chặn Baidu vì lượng lưu lượng truy cập mà nó mang lại cho chúng tôi quá không đáng kể cho quá trình quét tích cực của họ. Ngoài ra, giờ đây họ điều hành một đại lý mạo danh trình duyệt và khởi chạy mã JavaScript (như Google Analytics) và làm rối loạn số liệu thống kê của chúng tôi.

Phiên bản đẹp đang cập nhật tệp robots.txt của bạn với thông tin sau

User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-video
Disallow: /
User-agent: Baiduspider-image
Disallow: /

Nhưng xem xét những gì người khác đã viết ở đây và họ sử dụng tác nhân người dùng che giấu sự hiện diện của họ, tôi sẽ chặn hoàn toàn địa chỉ IP của họ. Sau đây là cách nó được thực hiện trong nginx

# Baidu crawlers
deny 123.125.71.0/24;
deny 180.76.5.0/24;
deny 180.76.15.0/24;
deny 220.181.108.0/24;

2

Giải pháp Wordpress (không phải tốt nhất nhưng giúp)

Vấn đề tương tự với nhện Biadu, sự hung hăng mà hộp của tôi xếp hạng trên 35 trong bảng điều khiển của tôi bằng cách sử dụng hàng đầu. Rõ ràng là ngay cả một máy tính nhanh cũng không thể xử lý hiệu quả các yêu cầu bên ngoài đang chạy ở 35 ....

Tôi đã theo dõi số lượng IP (từ tòa nhà Đại học đó ????) là hàng trăm, chủ yếu là hai người dùng)

Hậu quả trực tiếp? Khi tôi có một máy chủ đám mây, tôi đã phải nâng cấp tương tự lên bộ nhớ cao hơn để cho phép phản hồi từ chối.

Câu trả lời trước:

#Baiduspider
User-agent: Baiduspider
Disallow: /

Yahoo dường như hoàn toàn không thể tôn trọng chỉ dẫn robot.txt.

Tôi đã làm gì:

Tôi đã cài đặt plugin WP-Ban cho Wordpress (miễn phí) và cấm các mục sau:

ĐẠI LÝ NGƯỜI DÙNG:

  • Baiduspider+(+http://www.baidu.com/search/spider.htm)

  • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Hơn nữa, bằng cách sử dụng Wp Super Cache, tôi đặt lại địa chỉ trang lỗi tương đối thành một trang tĩnh, do đó toàn bộ cài đặt wordpress không / hoặc ít nhất là chỉ đối với những người dùng bị cấm kiểm tra khả năng truy cập của Mysql.

(Đây là Wordpress blablabla tiêu chuẩn, vì vậy mọi người đều có thể cài đặt Plugin Wordpress có thể làm điều đó, vì không yêu cầu truy cập mã hóa hoặc ftp cho quy trình này)

Tôi đồng ý với tất cả mọi người: Internet là miễn phí, cấm bất cứ ai hoặc bất cứ điều gì hoàn toàn là điều cuối cùng mà mọi người nên làm, nhưng Baidoo hôm nay phải trả thêm 40 USD / tháng, chỉ để thu thập một trang web viết bằng tiếng Portughese và tôi có một số nghi ngờ nếu có Rất nhiều người dân Trung Quốc và du khách có thể đọc và hiểu ngôn ngữ này.


1

Bạn có thể chặn theo địa chỉ IP bằng cách sử dụng ngx_http_access_modulenginx. Để chặn một IP duy nhất, bạn có thể thêm một dòng vào tệp conf như

deny 12.34.567.1;

Để chặn phạm vi, hãy sử dụng ký hiệu CIDR , như 12.34.567.1/24đối với khối mạng con 24 bit (gồm 256 địa chỉ IP) bao gồm địa chỉ IP 12.34.567.1. Để biết thêm chi tiết, xem, ví dụ, trang này .


1

Sử dụng .htaccess với

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Baidu [NC]
RewriteRule .*  - [L,F]

"RewriteEngine On" cho phép bạn biết rằng các dòng sau được phân tích cú pháp chính xác. HTTP_USER_AGENT là dòng nơi các con nhện tự nhận dạng. Điều kiện này là đúng nếu dòng chứa "MJ12bot" hoặc "Baidu". NC có nghĩa là "không phân biệt chữ hoa chữ thường" và bạn có thể xâu chuỗi các điều kiện với OR. Dòng cuối cùng không được chứa "HOẶC" hoặc quy tắc không hoạt động.

Yahoo đặc biệt khó chịu vì nó cố đọc các mục Wordpress ("fckeditor", "wp-content") mà hoàn toàn không có lý do. MJ12bot cũng là một trong những sinh vật xấu.

Quy tắc Rewrite có nghĩa là chặn con nhện bằng 403 Forbidden ([F]) để truy cập tất cả các tệp (. * Là biểu thức chính quy cho bất kỳ tệp nào) và dừng đánh giá thêm ([L]) của htaccess.


1
Các Flá cờ nghĩa L, do đó bạn không cần phải bao gồm một cách rõ ràng Lcờ đây. Ngoài ra, một mô hình như ^.*Baidulà giống như đơn giản Baidu.
MrWhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.