Trình thu thập dữ liệu Facebook không có tác nhân người dùng spam trang web của chúng tôi trong cuộc tấn công DoS có thể


8

Các trình thu thập thông tin đã đăng ký vào Facebook (ipv6 kết thúc bằng: face: b00c :: 1) đã đánh sập trang web của chúng tôi, chứng kiến ​​10 nghìn lượt truy cập chỉ trong 20 phút. Chúng tôi nhận thấy họ không có tác nhân người dùng trong tiêu đề và thực hiện quy tắc trên đám mây để bảo vệ chính mình.

Có vẻ như họ đã vá trình thu thập thông tin và thêm một tác nhân người dùng 'Internalhit / 1.1', một trình thu thập thông tin được công nhận. Bây giờ họ đang phá vỡ quy tắc, tôi sẽ thấy 11.000 lượt truy cập trong 15 phút. Thường nhiều lần vào cùng một trang! Điều này làm tê liệt cơ sở dữ liệu của chúng tôi. Nó ngăn khách hàng sử dụng trang này một cách hợp pháp.

Chúng tôi đã triển khai một khối rộng trên tất cả các IP của Facebook để thử và khắc phục điều này nhưng có khả năng chúng tôi đã mất việc vì nó.

Câu hỏi của tôi là: Có ai nhìn thấy điều này trước đây? Bất cứ ý tưởng những gì gây ra nó? Có một kênh để nhận được phản hồi từ Facebook hoặc có một con đường hợp pháp chúng ta nên đi?

Liên kết với tweet của chúng tôi: https://twitter.com/TicketSource/status/969148062290599937 Nhóm nhà phát triển FB đã thử và đại diện Facebook và được chuyển đến Hỗ trợ. Nộp một vé, không có phản hồi.

Nhật ký mẫu:

2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5394 2a03:2880:30:7fcf:face:b00c:0:8000
2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5362 2a03:2880:30:afd1:face:b00c:0:8000
2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5378 2a03:2880:30:7fcf:face:b00c:0:8000
2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5425 2a03:2880:30:2fea:face:b00c:0:8000
2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5394 2a03:2880:30:2fea:face:b00c:0:8000
2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5659 2a03:2880:30:2fd8:face:b00c:0:8000
2018-03-01 09:00:33 10.0.1.175 GET /dylanthomas - 443 - facebookexternalhit/1.1 - 200 0 0 5659 2a03:2880:11:dff3:face:b00c:0:8000
2018-03-01 09:00:36 10.0.1.175 GET /whitedreamspremiere - 443 - facebookexternalhit/1.1 - 200 0 0 5048 2a03:2880:2020:bffb:face:b00c:0:8000
2018-03-01 09:00:36 10.0.1.175 GET /helioscollective - 443 - facebookexternalhit/1.1 - 200 0 0 4633 2a03:2880:3020:1ffd:face:b00c:0:8000
2018-03-01 09:00:36 10.0.1.175 GET /helioscollective - 443 - facebookexternalhit/1.1 - 200 0 0 4727 2a03:2880:3011:afc5:face:b00c:0:8000
2018-03-01 09:00:36 10.0.1.175 GET /helioscollective - 443 - facebookexternalhit/1.1 - 200 0 0 4977 2a03:2880:3020:1ffd:face:b00c:0:8000
2018-03-01 09:00:36 10.0.1.175 GET /event/FDMEJD - 443 - facebookexternalhit/1.1 - 200 0 0 4868 2a03:2880:2111:1ff9:face:b00c:0:8000

Edit2: Những IP này đang thu thập thông tin khi chúng tôi tìm thấy URL từ quy trình thanh toán của chúng tôi. Vì vậy, họ đã theo một liên kết và kết thúc bằng một URL chỉ phiên.

Edit3: Facebook dường như đã xác nhận lỗi và đang tìm cách khắc phục .


Chỉ muốn cập nhật rằng điều này đang diễn ra và một cuộc tấn công DDOS tàn khốc có hiệu lực. Chúng tôi đang nhận được hơn 1000 lượt truy cập mỗi giây cho các URL duy nhất không thể lưu vào bộ nhớ cache. Ngay cả khi chúng tôi đánh giá giới hạn chúng (499 mã phản hồi), chúng vẫn tiếp tục cản trở chúng tôi. Một URL báo cáo khác: developers.facebook.com/support/bugs/1259828030848113
jerclarke

Đáng chú ý: Tôi không còn thấy các lượt truy cập không có UA, bây giờ những cái tôi nhận được luôn luôn facebookexternalhitít nhất, từ một loạt các IP theo dõi trở lại FB.
jerclarke

Câu trả lời:


8

Các nguồn tin nói rằng Facebook / Externalhit không tôn trọng độ trễ thu thập dữ liệu trong tệp robots.txt vì Facebook không sử dụng trình thu thập thông tin, nó sử dụng một trình quét.

Bất cứ khi nào một trong các trang của bạn được chia sẻ trên Facebook, nó sẽ loại bỏ trang web của bạn cho tiêu đề, mô tả và hình ảnh meta của bạn.

Tôi đoán là nếu Facebook quét trang web của bạn 11.000 lần trong 15 phút thì tôi nghĩ kịch bản rất có thể là ai đó đã tìm ra cách lạm dụng công cụ quét Facebook để DDOS trang web của bạn.

Có lẽ họ đang chạy một bot đang nhấp vào liên kết chia sẻ của bạn nhiều lần và Facebook đang cào trang của bạn mỗi khi nó hoạt động.

Ngoài đỉnh đầu, điều đầu tiên tôi muốn làm là lưu trữ các trang mà Facebook đang cào. Bạn có thể làm điều này trong htaccess. Điều này hy vọng sẽ bảo Facebook không tải trang của bạn với mỗi lần chia sẻ cho đến khi hết bộ nhớ cache.

Vì vấn đề của bạn, tôi sẽ đặt thời hạn sử dụng html dài hơn bình thường

Trong .htaccess:

<IfModule mod_expires.c> 
  ExpiresActive On
  ExpiresDefault "access plus 60 seconds"
  ExpiresByType text/html "access plus 900 seconds"

</IfModule>

Đặt html hết hạn sau 900 giây hy vọng sẽ ngăn Facebook thu thập dữ liệu bất kỳ trang cá nhân nào nhiều hơn một lần trong 15 phút.


Chỉnh sửa: Tôi đã chạy một tìm kiếm nhanh và tìm thấy một trang được viết cách đây vài năm, thảo luận về chính vấn đề bạn gặp phải bây giờ. Người này phát hiện ra rằng các trang web có thể bị tràn ngập bởi trình quét Facebook thông qua tính năng chia sẻ của nó. Anh ấy đã báo cáo nó lên Facebook nhưng họ đã chọn không làm gì về nó. Có lẽ bài viết sẽ cho bạn biết rõ hơn những gì đang xảy ra với bạn và có thể nó có thể đưa bạn đi đúng hướng như cách bạn muốn giải quyết tình huống:

http://chr13.com/2014/04/20/USE-facebook-notes-to-ddos-any-website/


Cách tiếp cận tốt cho vấn đề
Emirodgar

Tôi cũng nhận ra rằng nếu bạn không làm gì về vấn đề này và Facebook tiếp tục làm ngập máy chủ của bạn, thì đây có thể được coi là một cuộc tấn công DDOS tại tòa án của pháp luật và bạn và công ty của bạn có thể được bồi thường về mặt kinh doanh cho việc phá hủy doanh nghiệp của bạn Máy chủ Facebook.
Michael d

Chúng tôi đang sử dụng Cloudflare nhưng nhiều trang trong số này không thể phản hồi bộ đệm. Họ đang mua vé và cần được cập nhật 100%. 'Cái cạp' cũng đang đi vào quy trình thanh toán của chúng tôi - điều đáng báo động. Đó là một điều không rõ ràng trong robot.txt của chúng tôi. Nó cũng có nghĩa là nó tạo phiên trên máy chủ của chúng tôi !!!
L Martin

Tôi sẽ đọc qua URL tôi có trong tin nhắn của mình, tìm từ khóa trong đó và sau đó tìm kiếm trên web để xem có ai đưa ra giải pháp cho vấn đề này ngoài việc chặn hoàn toàn IP của Facebook không.
Michael d

Tôi không nghĩ nó liên quan đến bài viết tin tức về lỗ hổng trong FB Notes. Đó là cụ thể về việc bao gồm các tệp phương tiện, dường như không phải là vấn đề ở đây. Vấn đề là FB làm hỏng toàn bộ tên miền mà không tôn trọng robot.txt HOẶC rel = nofollow. Máy chủ của chúng tôi đang tràn ngập các yêu cầu, nhiều URL cũ vô dụng không ai có thể chia sẻ.
jerclarke

2

https://developers.facebook.com/bugs/1894024420610804

Theo câu trả lời từ Facebook, bất kỳ trang nào được chia sẻ trên Facebook nên mong đợi rằng nếu nội dung của họ được chia sẻ, trình thu thập thông tin của Facebook sẽ tăng lưu lượng truy cập gấp 10-20 lần số lượng chia sẻ đó.

Điều này nghe có vẻ như Facebook đang cào nội dung mỗi lần truy cập, với rất ít hoặc không có bộ nhớ đệm tại chỗ.

Trong trường hợp của chúng tôi, trong khi Facebook có thể tốt cho quảng cáo nói chung, đây là một sự căng thẳng lớn khi bạn chạy một trang chuyên sâu về cơ sở dữ liệu được chia sẻ. Chúng tôi sẽ phải xếp hạng giới hạn lưu lượng truy cập vào cuối của chúng tôi để ngăn chặn cuộc tấn công từ chối dịch vụ. Một câu trả lời chuyên sâu về tài nguyên cho bot hoạt động của Facebook.


Thánh moly gì mà lộn xộn! Sự từ chối phi lý như vậy từ Facebook về vấn đề này, làm sao họ không chấp nhận điều này là cực kỳ tồi tệ?!
jerclarke
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.