lưu lượng truy cập bất hợp pháp từ tác nhân người dùng Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)


31

Đây là một sự kiện thay đổi nhanh chóng mà chưa có câu trả lời.

Xin vui lòng không đăng những phát hiện hoặc giả định của bạn dưới dạng câu trả lời; bảo lưu trường trả lời khi bạn thực sự có câu trả lời.

Nếu bạn có một cái gì đó mới để thêm, xin vui lòng chỉnh sửa nó trực tiếp vào câu hỏi.


Kể từ đầu năm, tôi nhận được rất nhiều lưu lượng truy cập với tác nhân người dùng:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

Nhật ký truy cập của tôi hiển thị 40% - 60% từ tác nhân người dùng đó. Điều đó thật lạ vì tác nhân người dùng nêu trình duyệt Firefox 3.0.10 (có ai sử dụng trình duyệt đó vào năm 2012 không? Chắc chắn không phải 40% -60% khách truy cập trên một trang web bình thường).

Ngoài ra, nhật ký cho thấy tác nhân người dùng này chỉ yêu cầu tài liệu HTML và không có tài sản được tham chiếu như hình ảnh, tệp css, js.

Tôi đã kiểm tra IP của những yêu cầu đó (với UA đó). Nó đến từ khắp nơi trên thế giới. Tôi nhận ra rằng những IP đó đôi khi có một tác nhân người dùng di động.

Vì vậy, sự nghi ngờ của tôi là một ứng dụng di động đang thực hiện rất nhiều "yêu cầu nhện". Sẽ là tốt để biết nguyên nhân gốc của lưu lượng truy cập từ tác nhân người dùng đó.

Bất cứ ai có thể xác định nguyên nhân gốc rễ?

Trong vài tuần qua, chúng tôi đã nhận ra rằng lưu lượng truy cập từ UA đó giảm xuống và lưu lượng truy cập khác tăng lên. Có vẻ như bot / trình thu thập thông tin hiện đang sử dụng UA phổ biến hơn và do đó khó chặn hơn. Tôi thấy một người khác nói rằng trong câu trả lời cho câu hỏi này nhưng nó đã bị xóa khi serverfault quyết định sắp xếp lại câu hỏi này.

Câu trả lời OLD làm tài liệu tham khảo


Cập nhật từ Dee

Tôi điều hành trang web bị buôn bán khá cao của riêng mình và tôi đang thấy chính xác điều tương tự trong nhật ký apache của chúng tôi trong tháng trước hoặc lâu hơn (tôi chưa có cơ hội kiểm tra lại). 40% của tất cả các yêu cầu là tỷ lệ phần trăm tôi thấy, rõ ràng là hạt dẻ.

Và tôi cũng nhận thấy các yêu cầu dường như luôn luôn nói rằng trình duyệt yêu cầu không hỗ trợ nén gzip - dẫn đến tất cả các yêu cầu trang web được gửi không bị nén và việc sử dụng băng thông của chúng tôi tăng vọt qua mái nhà!

Nhưng cho đến nay tôi đã không thể xác định được điều gì đang thực sự xảy ra - tất cả những gì tôi nghi ngờ cho đến nay là nó có thể là một loại máy chủ proxy hoặc một thiết bị di động nào đó đang gửi một chuỗi người dùng giả mạo.

EDITED TO ADD: Chỉ cần thực hiện thêm một số nghiên cứu và có vẻ như đó có thể là phần mềm chống vi-rút: http://www.webmasterworld.com/search_engine_spiders/4428772.htm


Cập nhật từ jamur21

Có, chúng tôi đã nhận thấy lưu lượng truy cập tương tự trên nhiều trang web.

Chúng tôi vẫn đang tìm kiếm nguyên nhân gốc rễ, nhưng một số phát hiện của chúng tôi bao gồm:

  • Nếu đó là một con nhện, nó đang làm một công việc khá kém. Dường như chỉ đập một hoặc hai URL cho mỗi tên miền trong một thời gian (có thể là vài giờ), cho đến khi nó chuyển sang một URL khác. Tuy nhiên, nội dung luôn tương đối "hiện tại", điều này cho thấy sự tin cậy đối với Google News là một yếu tố, như được nêu trong liên kết mà Dee đăng trong câu trả lời của anh ấy / cô ấy (tất cả các trang web của chúng tôi đều là trang tin tức).

  • Mặc dù các IP được trải rộng về mặt địa lý, nhưng đối với chúng tôi, hầu hết chúng dường như nằm gần trang web gốc (hầu hết các trang web của chúng tôi là các cửa hàng tin tức địa phương, vì vậy chúng không nhận được nhiều lưu lượng truy cập quốc gia). Hầu như không có yêu cầu nào đến từ bên ngoài Hoa Kỳ. Một lần nữa, điều này cho thấy sự tin cậy đối với các URL bị đánh cắp từ Google News (Tôi đoán những người đã bản địa hóa Google News bằng mã zip sẽ thấy nội dung của chúng tôi).

  • Hầu hết thời gian, các yêu cầu có thể được ghi là tiếng ồn nền (mặc dù rất ồn ào), nhưng một vài lần một ngày chúng ta sẽ tăng đột biến và chỉ riêng UA này sẽ chiếm ~ 100mbps lưu lượng trong khoảng 15-30 phút.

  • Thật không may, mặc dù Google News có vẻ như là một vectơ khả dĩ cho các URL này được phát hiện, nhưng mọi thứ chúng ta thấy là tình huống và chúng ta vẫn không có bất kỳ khẩu súng hút thuốc nào để biết chính xác hoặc tại sao các URL này bị cấm.


Cập nhật từ vịnh Bannow

Chúng tôi có trang web tin tức lớn - những câu chuyện của chúng tôi được Google News chọn nhiều lần một tuần. Chúng tôi đã nhận được lưu lượng truy cập từ nguồn này từ cuối tháng 11 - và nó đang tăng lên từng tuần - có thể là 30 triệu imps vào tháng Hai.

Sự xuất hiện trên trang nhất của Google News US là một tác nhân cho lưu lượng truy cập này - khoảng 75 phần trăm doanh thu từ các IP của Hoa Kỳ. Nhưng bất cứ điều gì nó đang làm cho những nỗ lực tuyệt vời để che khuất chính nó. Và điều đó không thân thiện.

Chúng tôi cũng không tìm thấy súng hút thuốc - nhưng một nhà cung cấp bảo mật lớn đã đồng ý điều tra thêm thay mặt chúng tôi.


Cập nhật từ Artem Russakovskii

Lần đầu tiên điều tương tự xảy ra với một trang web tin tức (AndroidPolice.com). Khoảng 10 phút của các yêu cầu ngẫu nhiên này đã tăng QPS trên 5000% mức trung bình của chúng tôi (5000qps, đó là giới hạn NodeBalancer của Linode). CPU bắt đầu chạy không tải khi các yêu cầu đã ăn hết I / O và mạng - đó là một DDOS thực sự.

Tôi thực sự muốn đi đến tận cùng của điều này, nhưng tại thời điểm này nó có vẻ hoàn toàn khó hiểu.


Cập nhật từ Mark

Chỉ cần thêm +1. Chúng tôi đang thấy hành vi tương tự trên trang web của chúng tôi. Không phải một tấn thông tin mới để thêm vào đây, nhưng đây là hình dạng chung của lưu lượng truy cập của chúng tôi:

  1. Giao thông được phân phối cao. Lưu lượng truy cập đến từ hơn ~ 60k IP duy nhất.
  2. Phần lớn lưu lượng truy cập đang truy cập một URL duy nhất, điển hình là một URL gần đây được liệt kê trên Google News (mặc dù Google News không phải lúc nào cũng xuất hiện là vectơ)
  3. Tất cả lưu lượng truy cập này đến từ cùng một tác nhân người dùng Firefox / 3.0.10 như đã lưu ý trong chuỗi này, mặc dù chúng tôi đã thấy một số tác nhân di động kỳ quặc ở đây và đó.
  4. Tất cả lưu lượng truy cập đến từ đại lý này không chứa dữ liệu tham chiếu.
  5. Burst xảy ra một hoặc hai lần một tuần trong 30-60 phút và sau đó biến mất.

Cập nhật từ Don Ireland

Bài đăng cuối cùng là ngày 13 tháng 4 nhưng lưu lượng truy cập chắc chắn chưa kết thúc. Phần kỳ lạ nhất của điều này có thể là thực tế là bất kỳ tác giả phần mềm độc hại nào đáng muối của anh ta chắc chắn có thể (chắc chắn) sẽ sử dụng chuỗi tác nhân người dùng từ một trình duyệt hiện đại, làm cho việc bảo vệ tác nhân chặn người dùng trở nên vô dụng. Thực tế này làm cho có vẻ như một công cụ tổng hợp tin tức 'vô hại' hoặc một số ứng dụng khác là nguồn. Tuy nhiên, cho đến nay, tôi cũng không thể đi đến bất kỳ kết luận thực sự nào và hy vọng bất cứ ai có thông tin sẽ đăng nó ở đây.

Chúng ta đang thấy mô hình tương tự, với một câu chuyện được chọn bởi tin tức google và theo sau là lưu lượng truy cập rất cao yêu cầu câu chuyện (nhưng không phải các tệp phụ kiện như hình ảnh). Lưu lượng phản hồi ra bên ngoài gây ra các đột biến có thể bão hòa mạng (hoặc đã làm, cho đến khi chúng tôi bắt đầu phản hồi chỉ với một lỗi 503). Các cuộc tấn công này (chúng ta có thể gọi chúng là gì khác?) Trung bình kéo dài khoảng 30 phút, nhưng những câu chuyện rất phổ biến có thể có lưu lượng truy cập cao trong một giờ trở lên (tôi đang nói về lưu lượng truy cập firefox 3.0.10, tất nhiên lưu lượng truy cập bình thường cũng vẫn cao trong một thời gian).

Trong khoảng thời gian một giờ (đối với một máy chủ trong nhóm cân bằng tải), chúng tôi đã thấy 200.000 yêu cầu trong đó 97.000 là yêu cầu firefox 3.0.10, gần 50% tất cả các yêu cầu. Và khi bạn xem xét rằng thông thường một trang tạo ra 10 yêu cầu trở lên cho tệp chính và tệp phụ kiện thì 97.000 khung dệt lớn hơn nhiều. Tôi lưu ý rằng trong số 97.000 có 51.000 địa chỉ IP duy nhất. Và tôi đang nói về một giờ duy nhất (thực ra là gần 45 phút). Bất cứ điều gì đang gây ra điều này là khá phổ biến.


Cập nhật từ người dùng119708

Chúng tôi có cùng một vấn đề trên một trang web tin tức công nghệ cao khổng lồ của Pháp.

Bất cứ khi nào một tin tức được xuất bản và có thể xem trên tin tức google, lưu lượng truy cập tăng lên rất nhiều trên tin tức với khoảng 50 đến 100 lượt truy cập của IP và tác nhân người dùng "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Tắc kè / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".

Tất cả các địa chỉ IP dường như được đặt tại Pháp hoặc ở các nước Pháp và không có người giới thiệu. Nó có vẻ là một bot nhưng tại sao một địa chỉ từ xa phải quay lại 50 hoặc 100 lần trên cùng một tin tức trong vài phút? Nó có thể bị nhiễm máy tính? Tại sao hiện tượng xuất hiện khi tin tức được hiển thị trên google news? Google có chịu trách nhiệm về lưu lượng lạ này không?

Nếu ai đó trong chủ đề này đã tìm thấy sự khám phá, tôi nghĩ rằng nó sẽ giúp nhiều trang web vừa hoặc lớn kiểm soát lưu lượng truy cập của họ!

EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Nếu đó thực sự là máy tính bị nhiễm, điều đó rất đáng lo ngại với số lượng địa chỉ liên quan. Chúng tôi sẽ triển khai tập lệnh này để Apache chặn tất cả lưu lượng:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Cập nhật từ Ernesto

Trang web tin tức tổng hợp trung bình của Tây Ban Nha, nhận thấy lưu lượng truy cập cao trong một số tin tức không liên quan kể từ một vài ngày.

Dù đó là gì, nó sẽ tải HTML hoàn chỉnh, vì chúng tôi nhận thấy nó do số lượng "lượt xem trang" mà chúng tôi tăng lên thông qua các cập nhật cơ sở dữ liệu sau khi trang được tải.

Chúng tôi chỉ nhận thấy một hoặc hai URL được nhắm mục tiêu mỗi ngày.

Rất nhiều yêu cầu (7000-12000) trên cùng một URL trong vài giây, được phân phối trong ngày từ các IP khác nhau. Ngày tiếp theo các URL khác được nhắm mục tiêu.

Không có người giới thiệu.

Các bài viết được nhắm mục tiêu xuất hiện trên Google News, nhưng chúng tôi không thể đảm bảo nó có liên quan.

Google Analytics không công nhận đó là lưu lượng hợp pháp. Chúng tôi có các bài viết với hơn 8000 lượt truy cập và GA chỉ báo cáo 25 hoặc hơn (tôi cho rằng javascript không được giải thích).


Cập nhật từ Old Pro

Thêm một vài điểm dữ liệu cho bạn.

Bots vs. Trình duyệt không coi UA này là bot (chưa).

Trên trang web bị buôn bán nhiều nhất mà tôi có nhật ký, việc sử dụng cho đến tháng 5 năm 2012 cho thấy UA này có ít hơn 1% lưu lượng truy cập. Một phần đáng kể của các yêu cầu UA có vẻ hợp pháp (ví dụ, tải tất cả các tài nguyên dự kiến). Điều này về cơ bản giống như cho tháng 2 năm 2012.

Trang chủ của trang này hiếm khi được cập nhật và tất cả nội dung động bị chặn bởi tệp robots.txt.


Đây có thể là từ Genieo. Họ đã cập nhật ứng dụng của mình để sử dụng một tác nhân người dùng mới: Mozilla / 5.0 + (tương thích; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Nó truy cập với cùng một mẫu với tác nhân người dùng ban đầu nhưng bây giờ họ dường như tự nhận dạng. Nếu bạn nhìn vào URL trong tác nhân người dùng của họ, họ thậm chí thừa nhận rằng họ có thể đã hoặc vẫn có thể tạo ra quá nhiều lưu lượng truy cập cho các trang web nhất định. - dflaw


Cập nhật từ Mike Fagan

Chúng tôi đã chiến đấu với những gì chúng tôi giả định là các cuộc tấn công DDOS trong nhiều tuần nay. Chúng tôi mới bắt đầu thấy Genieo là người sử dụng cho các cuộc tấn công này. Trước đây chúng tôi đã thấy "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" và hàng tấn yêu cầu từ " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Tắc kè / 20100101 Firefox / 11.0 ". 10k + IP khác nhau, Lên tới 1 triệu yêu cầu mỗi ngày cho chỉ 3 hoặc 4 trang trong đó cùng một IP đã yêu cầu các trang hơn 100 lần và không kéo thêm bất kỳ tài sản hoặc quảng cáo nào. Phát hiện của tôi là không có IP nào trong số này thực sự đi đến bất kỳ trang nào khác trên trang web của chúng tôi.

Tôi đã liên lạc với Genieo và đây là phản hồi của họ:

"Cám ơn bạn đã liên lạc với chúng tôi.

Phiên bản cũ của Genieo có thể đã gây ra lưu lượng truy cập mà bạn mô tả. Chúng tôi xin lỗi vì bất kỳ sự bất tiện này có thể đã gây ra. Chúng tôi đã phát hành và cập nhật vào ngày hôm qua giải quyết vấn đề này, tải dữ liệu từ ứng dụng của chúng tôi sẽ biến mất trong 24 giờ tới. Chúng tôi tin rằng chúng tôi đã làm một dịch vụ tốt cho trang web của bạn bằng cách giới thiệu nó cho người dùng mới. Chúng tôi đã không đánh giá đúng rằng khi cơ sở cài đặt của chúng tôi đang phát triển, nó có thể gây ra quá tải cho một số khách hàng.

Genieo là một tờ báo cá nhân hoặc một trình đọc RSS thông minh. Đó là trình đọc RSS phía máy khách với bộ lọc cá nhân hóa ngữ nghĩa thông minh. Ứng dụng Genieo theo dõi dữ liệu RSS từ các trang web yêu thích của người dùng, đọc các bài báo bằng cách thực hiện phân tích ngữ nghĩa và lọc chúng theo các lĩnh vực mà người dùng quan tâm. Nếu bài viết phù hợp với sở thích của người dùng, ứng dụng sẽ hiển thị tiêu đề và đoạn trích của bài viết trong trang chủ của người dùng. Nhấp vào tiêu đề sẽ dẫn đến trang web của bài viết - trang web của bạn. Đại lý Genieo tự chủ (vì lý do riêng tư); nó chạy trên máy người dùng cuối, đây là lý do tại sao bạn thấy tác nhân truy cập trang web của bạn từ nhiều IP khác nhau.

Hầu hết dữ liệu của Genieo đến từ nguồn cấp RSS thông thường của người dùng, nhưng Genieo cũng thêm một số nội dung từ các trang tin tức mới chưa được người dùng đăng ký trước đó (vì sự ngẫu nhiên và đa dạng). Các thuật toán của Genieo tìm kiếm các bài viết nóng hổi, ​​các lượt truy cập hàng đầu trên Twitter, được xem nhiều nhất trên YouTube và các tin tức nổi bật của Google và kiểm tra xem chúng có phù hợp với sở thích của người dùng không

Chúng tôi đã không biết rằng điều này đã gây ra sự cố tải cho một số trang web. Khi điều này được chúng tôi chú ý, chúng tôi cập nhật cho người dùng hiện tại một phiên bản mới để ngăn chặn tải đột biến.

Trân trọng,

-Dan

PS: Trước đây, chúng tôi đã sử dụng "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" (do lỗi kỹ thuật) nhưng tất cả người dùng Genieo hiện tại nên sử dụng các tác nhân người dùng Genieo (cho vài tuần qua) "


Bạn có thể thêm vào câu hỏi một số địa chỉ IP xuất hiện trong nhật ký không?
ricmarques

Tôi không chắc đó có phải là phần mềm chống vi-rút AVG không - vì AVG đã khắc phục sự cố. Ngoài ra, tôi vẫn nghĩ rằng rất có thể một số ứng dụng di động đang gây ra lưu lượng truy cập đó - một số ứng dụng tổng hợp tin tức (một cái gì đó như skygrid.com - nhưng đó không phải là skygrid vì họ sử dụng UA thích hợp).
dùng114293

Ở đây một số ví dụ IP: 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148
user114293 18/03/12

Có, chúng tôi đã nhận thấy lưu lượng truy cập tương tự trên nhiều trang web. Chúng tôi vẫn đang tìm kiếm nguyên nhân gốc rễ, nhưng một số phát hiện của chúng tôi bao gồm: - Nếu đó là một con nhện, nó đang làm một công việc khá kém. Dường như chỉ đập một hoặc hai URL cho mỗi tên miền trong một thời gian (có thể là vài giờ), cho đến khi nó chuyển sang một URL khác. Tuy nhiên, nội dung luôn tương đối "hiện tại", điều này cho thấy sự tin cậy đối với Google News là một yếu tố, như được nêu trong liên kết mà Dee đăng trong câu trả lời của anh ấy / cô ấy (tất cả các trang web của chúng tôi đều là trang tin tức). - Mặc dù các IP được trải đều về mặt địa lý, nhưng đối với chúng tôi, hầu hết chúng dường như nằm gần địa điểm gốc (hầu hết
jamur2

Chúng tôi có trang web tin tức lớn - những câu chuyện của chúng tôi được Google News chọn nhiều lần một tuần. Chúng tôi đã nhận được lưu lượng truy cập từ nguồn này từ cuối tháng 11 - và nó đang tăng lên từng tuần - có thể là 30 triệu imps vào tháng Hai. Sự xuất hiện trên trang nhất của Google News US là một tác nhân cho lưu lượng truy cập này - khoảng 75 phần trăm doanh thu từ các IP của Hoa Kỳ. Nhưng bất cứ điều gì nó đang làm cho những nỗ lực lớn để che khuất chính nó. Và điều đó không thân thiện. Chúng tôi cũng không tìm thấy súng hút thuốc - nhưng một nhà cung cấp bảo mật lớn đã đồng ý điều tra thêm thay mặt chúng tôi.
Vịnh Bannow

Câu trả lời:


1

Tôi nghĩ rằng người dùng dflaw đã tìm thấy nó. Đó là phần mềm từ Genieo. Chúng tôi đã làm một số thử nghiệm và liên lạc với họ. Tất cả các kết quả được công bố ở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.