Có một công ty đã ngụ ý để thu thập dữ liệu trang web của tôi?


30

Tôi đã phát hiện ra rằng McAfee SiteIDIA đã báo cáo trang web của tôi là "có thể có vấn đề về bảo mật" .

Tôi quan tâm rất ít về bất cứ điều gì McAfee nghĩ về trang web của tôi (tôi có thể tự bảo mật nó và nếu không, McAfee chắc chắn không phải là công ty tôi sẽ yêu cầu giúp đỡ, cảm ơn rất nhiều). Tuy nhiên, điều làm phiền tôi là họ dường như đã thu thập dữ liệu trang web của tôi mà không có sự cho phép của tôi.

Để làm rõ: Hầu như không có nội dung nào trên trang web của tôi, chỉ có một số trình giữ chỗ và một số tệp cho mục đích sử dụng cá nhân của tôi. Không có ToS.

Câu hỏi của tôi là: McAffee có quyền tải xuống nội dung từ / thu thập dữ liệu trang web của tôi không? Tôi có thể cấm họ làm như vậy không? Tôi có cảm giác nên có một loại nguyên tắc "Lâu đài của tôi, quy tắc của tôi", tuy nhiên về cơ bản tôi không biết gì về tất cả những thứ hợp pháp.

Cập nhật: Có lẽ tôi nên đề cập đến nhà cung cấp máy chủ của mình gửi email cho tôi về những phát hiện của SiteIDIA một cách thường xuyên - đó là cách tôi phát hiện ra 'xếp hạng' của họ và đó là lý do khiến tôi khó chịu.


78
Bạn có nói rằng con người có quyền xem trang web của bạn? Nếu có, tại sao lại phân biệt đối xử với người hầu robot của con người? Nếu không, tại sao nó là một trang web ở nơi đầu tiên?
jwodder

47
Làm thế nào bạn phát hiện ra rằng SiteIDIA đã gắn cờ trang web của bạn? Bạn đã không xem trang web của họ phải không? Nếu vậy, những gì đã cho bạn quyền?
Joe Snerman

17
Ngẫu nhiên, tôi sẽ không loại bỏ báo cáo SiteIDIA một cách nhẹ nhàng, nói chung khi tôi thấy các báo cáo tương tự chúng là hợp pháp. Trường hợp phổ biến nhất là có một phiên bản cũ hơn / chưa được vá của CMS phổ biến (WordPress, Joomla, Drupal, ...) được khai thác bởi một số tập lệnh tự động để đặt nội dung độc hại (các trang "trampoline" được sử dụng để spam / lừa đảo, lưu trữ vi-rút được liên kết trong email lừa đảo, khai thác trình duyệt, bạn đặt tên cho nó); bạn có thể lưu trữ những thứ xấu mà không hề biết. Ngoài ra, vì nhiều người dùng dựa vào các công cụ như vậy, bạn thường muốn có một bản ghi rõ ràng, vì các cảnh báo như vậy có thể khiến người dùng sợ hãi.
Matteo Italia

35
Nếu bạn muốn một cái gì đó bị khóa, khóa nó lại. Bạn đặt trang web lên và cấu hình máy chủ để đáp ứng các yêu cầu GET. Bạn đã mời mọi người trong - theo nghĩa đen, mọi người. Đây không phải là "ngụ ý", đó là cách máy chủ web hoạt động. Chặn, như đã lưu ý, robot.txt hoặc hạn chế IP hoặc nội dung bị hạn chế đối với người dùng đã đăng nhập.
mfinni

20
@RolazaroAzeveires: Các quy trình tự động ổn không phải vì cho phép khách truy cập của con người ngụ ý nó, nhưng vì, chặn các cuộc tấn công, họ hỏi độc đáo: "tôi có thể có các tệp này không?" và bạn đã cấu hình máy chủ web của mình để trả lời: "Tất nhiên rồi! Bạn đi đây. Cần gì nữa không?" Đó không phải là thu thập thông tin mà không có sự cho phép của bạn, đó là thu thập thông tin với sự cho phép của bạn.
Marcks Thomas

Câu trả lời:


49

Có tiền lệ pháp lý cho việc này. Trường v. Google Inc., 412 F. Supp. 2d 1106, (Hoa Kỳ, CT. Nevada 2006). Google đã giành được phán quyết tóm tắt dựa trên một số yếu tố, đáng chú ý nhất là tác giả đã không sử dụng tệp robot.txt trong thẻ meta trên trang web của mình, điều này sẽ khiến Google không thể thu thập dữ liệu và lưu vào các trang mà chủ sở hữu trang web không muốn lập chỉ mục.

Phán quyết pdf

KHÔNG có luật pháp Hoa Kỳ nào xử lý cụ thể các tệp robot.txt; tuy nhiên, một vụ kiện khác tại tòa án đã đặt ra một số tiền lệ cuối cùng có thể dẫn đến các tệp robot.txt được coi là phá vỡ các biện pháp điện tử có chủ ý được thực hiện để bảo vệ nội dung. Trong NHỮNG ƯU ĐÃI SỨC KHỎE, INC Vs HARDING, EARLEY, FOLLmer & FRAILEY, et. al, Health Advocates lập luận rằng Harding et al về cơ bản đã hack các khả năng của Wayback Machine để có quyền truy cập vào các tệp được lưu trong bộ nhớ cache của các trang có phiên bản mới hơn với tệp robot.txt. Trong khi những người ủng hộ chăm sóc sức khỏe bị mất vụ kiện này, Tòa án quận lưu ý rằng vấn đề không phải là Harding et al "đã chọn khóa", mà là họ đã có quyền truy cập vào các tệp do sự cố tải máy chủ với Wayback Machine đã cấp quyền truy cập vào tập tin lưu trữ khi nó không nên

Phán quyết của Tòa án pdf

IMHO chỉ là vấn đề thời gian cho đến khi ai đó đưa ra phán quyết này và đứng về phía mình: Tòa án chỉ ra rằng robot.txt một khóa để ngăn chặn việc thu thập thông tin và phá vỡ nó đang chọn khóa.

Thật không may, rất nhiều trong số các vụ kiện này không đơn giản như "Tôi đã cố nói với trình thu thập thông tin của bạn rằng điều đó không được phép và trình thu thập thông tin của bạn đã bỏ qua các cài đặt / lệnh đó." Có một loạt các vấn đề khác trong tất cả các trường hợp này cuối cùng ảnh hưởng đến kết quả nhiều hơn vấn đề cốt lõi đó là liệu tệp robot.txt có nên được coi là phương pháp bảo vệ điện tử theo luật DCMA của Hoa Kỳ hay không.

Điều đó đã được nói, đây là luật của Hoa Kỳ và ai đó từ Trung Quốc có thể làm những gì họ muốn - không phải vì vấn đề pháp lý, mà vì Trung Quốc sẽ không thực thi bảo hộ thương hiệu và bản quyền của Hoa Kỳ, vì vậy may mắn sẽ đến sau họ.

Không phải là một câu trả lời ngắn, nhưng thực sự không có câu trả lời ngắn gọn, đơn giản cho câu hỏi của bạn!


1
Đây là một câu trả lời tuyệt vời, cảm ơn. Điều tôi không thích ở robot.txt là nó không phải là một tiêu chuẩn thực sự (không bao giờ là tiêu chuẩn theo luật định). Những công ty có thể chỉ đơn giản là bỏ qua nó. Tôi không thích ở vị trí mà họ nói với tôi "Bạn nên đưa lên tệp robots.txt và có thể chúng tôi sẽ không thu thập dữ liệu trang web của bạn, nhưng có lẽ chúng tôi sẽ, chúng tôi sẽ làm những gì chúng tôi thích." Sẽ thật tuyệt nếu có một tiêu chuẩn để chỉ định ToS của trang web trong siêu dữ liệu của trang web.
kralyk

5
@jcanker Hai trường hợp đó là về khiếu nại vi phạm bản quyền. Trong hành vi của các trình thu thập dữ liệu lưu trữ nội dung, như các nội dung được điều hành bởi Google và archive.org, điều đó có ý nghĩa hoàn hảo rằng các vấn đề bản quyền xuất hiện. Nhưng McAfee SiteIDIA không thực sự sao chép và lưu trữ nội dung (ít cung cấp công khai hơn) từ các trang web mà nó truy cập, phải không? Mặc dù tôi không phải là luật sư, tôi nghĩ rằng sự khác biệt này khiến chúng tôi có lý do để nghi ngờ rất mạnh rằng bất kỳ trường hợp nào cũng có thể áp dụng cho hành vi của một hệ thống như SiteIDIA, bất kể nó có tôn trọng robot.txt hay không.
Eliah Kagan

12
@kralyk - re "Những công ty này có thể chỉ cần bỏ qua nó." Vâng, vâng. Đó là cách internet hoạt động. Và ngay cả khi nó bằng cách nào đó cơ bản hơn, nó sẽ là tầm thường, hoàn toàn tầm thường, đối với một trình thu thập thông tin để giả vờ rằng đó là một con người truy cập các trang web của bạn. Bạn đang yêu cầu kỹ thuật không thể . Thật vậy, nếu bạn nghĩ thông qua những gì bạn đang hỏi, những gì bạn tìm kiếm là không hợp lý, nó không có ý nghĩa. Ngoại trừ trong một sự phân biệt pháp lý. Các biện pháp bảo vệ khả thi duy nhất của bạn là (1) ẩn nội dung quan trọng đằng sau xác thực đăng nhập của người dùng và (2) bảo vệ pháp lý, như được thảo luận trong câu trả lời này.
ToolmakerSteve

@ToolmakerSteve Tôi biết rằng về mặt kỹ thuật không thể cấm robot hoàn toàn. Tuy nhiên, đây là một tình huống khác - tôi không tìm kiếm giải pháp kỹ thuật, tôi đang hỏi liệu nó có hợp pháp không, cũng lưu ý rằng McAffee đã thông báo cho tôi rằng họ thu thập dữ liệu trang web của tôi, tôi không cần phải phát hiện ra.
kralyk

Ngoài ra còn có tiền lệ pháp lý theo cách khác: cạnh của nhà thầu ebay v
John

91

Có, họ có quyền làm như vậy - bạn đã tạo một trang web công cộng, điều gì khiến bạn nghĩ họ không làm?

Bạn cũng vậy, tất nhiên, có quyền ngăn chặn chúng. Bạn có thể yêu cầu họ không thu thập dữ liệu trang web của bạn bằng robot.txt hoặc chủ động ngăn họ truy cập trang web đó bằng một cái gì đó như fail2ban .

Ngoài ra, đừng lo lắng về nó và tiếp tục với cuộc sống của bạn. Nó không làm tổn thương bất cứ điều gì và chắc chắn là về mặt lành tính của việc thăm dò Internet.


4
> "Có, họ có quyền làm như vậy - bạn đã tạo một trang web công cộng, điều gì khiến bạn nghĩ họ không làm?" Chà, nếu một cái gì đó có thể về mặt kỹ thuật thì nó không nhất thiết có nghĩa là nó hợp pháp. Chẳng hạn, ToS của YouTube nghiêm cấm tải xuống video, vì vậy, mặc dù về mặt kỹ thuật rất dễ dàng, nó vẫn không được phép. Tôi sẽ không lo lắng về SiteIDIA nếu nhà cung cấp của tôi đã gửi email cho tôi về trang web của tôi "có thể có vấn đề" ...
kralyk

16
@kralyk - nếu bạn không muốn công chúng (bao gồm McAfee) nhìn vào nó, đừng đưa nó lên web. Nó đơn giản mà. BẠN KIỂM SOÁT TRANG WEB CỦA BẠN. Không ai bắt bạn phải đưa nó ra khỏi đó, và nếu bạn không muốn mọi người nhìn vào nó, thì đừng đưa nó ra ngoài đó. Nếu bạn định đưa nó ra khỏi đó, thì đừng ngạc nhiên khi mọi người (bao gồm cả những người muốn bán đồ cho bạn) đang nhìn vào nó. Ngừng cố gắng biến mong muốn của bạn thành vấn đề của người khác.
Michael Kohne

9
@kralyk: nghiêm túc chứ? Bạn thực sự nghĩ rằng vấn đề ở đây là một tiêu chuẩn kép? Không ai ở McAfee cũng không biết và không quan tâm đến trang web của bạn. Họ cũng không nên. Sẽ là vô lý khi mong đợi bất cứ ai thu thập thông tin trên web để đọc ToS của mọi người. Đó là lý do tại sao robot.txt được phát minh.
ToolmakerSteve

3
@kralyk Truy cập vào các tài nguyên được đề cập phải được kiểm soát để ToS ở bất cứ nơi nào gần có ý nghĩa. Robot thu thập dữ liệu các trang không được bảo vệ của bạn hoàn toàn khác với người đăng ký tài khoản, thừa nhận ToS và sau đó cung cấp thông tin đăng nhập cho robot.
Andrew B

4
@kralyk - Bạn có loại ĐKDV nào trên trang web của bạn mà bạn cảm thấy McAfee đang vi phạm (không tôn trọng)?
Kevin Fegan

11

Cho dù hành vi này là đạo đức hay không hoàn toàn không rõ ràng.

Bản thân hành động thu thập dữ liệu của một trang web công cộng không phải là phi đạo đức (trừ khi bạn cấm nó sử dụng robot.txt hoặc các biện pháp công nghệ khác một cách rõ ràng và họ đang phá vỡ chúng).

Những gì họ đang làm là tương đương với việc gọi điện cho bạn, trong khi thông báo với thế giới rằng bạn có thể không an toàn. Nếu điều đó làm tổn hại đến danh tiếng của bạn và không chính đáng, thì đó là phi đạo đức; nếu nó làm điều đó và giải pháp duy nhất cho nó liên quan đến việc bạn trả tiền cho họ, thì đó là đấu giá. Nhưng, tôi không nghĩ đây là những gì đang diễn ra.

Lần khác, điều này trở nên phi đạo đức là khi ai đó thu thập dữ liệu trang web của bạn để phù hợp với nội dung hoặc dữ liệu của bạn và sau đó thể hiện nó là của riêng họ. Nhưng, đó cũng không phải là những gì đang xảy ra.

Vì vậy, tôi đề nghị rằng hành vi của họ trong trường hợp này là đạo đức, và rất có thể bạn cũng có thể bỏ qua nó.

Hành vi liên quan đến spam của bạn là phi đạo đức nếu bạn không có mối quan hệ với họ và không yêu cầu email, nhưng tôi nghi ngờ họ có một hủy đăng ký làm việc.


1
Tôi không chắc chắn tôi đã gọi một lệnh Disallowtrong tệp robot.txt là "cấm biện pháp công nghệ". robot.txt hoạt động như một yêu cầu lịch sự và trong khi các bot hoạt động tốt sẽ tuân thủ nó, không có nghĩa vụ và không có bảo mật thực sự liên quan. Trên thực tế, các bot hoạt động kém cũng có thể lấy một mục trong tệp robots.txt như một lời mời để thu thập dữ liệu đường dẫn cụ thể đó ...
một CVn

2
@ MichaelKjorling, Chỉ một nửa đồng ý. Không có bảo mật thực sự nhưng có nghĩa vụ. Đó là một dấu hiệu tránh xa và nghĩa vụ của bạn là phải tránh xa vì bạn không được phép vào.
Ben

Đó là một dấu hiệu "tránh xa", không có khóa. Hãy thử điều đó tại nhà của bạn và xem bạn nhận được bao nhiêu sự đồng cảm sau khi những tên trộm đến gọi! (Trên thực tế, đó là một dấu hiệu "tránh xa" liệt kê rõ ràng các cửa ra vào và cửa sổ đã mở khóa mà bạn muốn mọi người tránh xa.)
Randy Orrison

2

Phương pháp kỹ thuật để chặn một số người hoặc công ty truy cập trang web của bạn:

Bạn có thể chặn các địa chỉ IP cụ thể hoặc phạm vi địa chỉ truy cập vào các trang trên trang web của bạn. Đây là trong tệp .htaccess (nếu trang web của bạn đang chạy trên Máy chủ Web Apache).

http://www.htaccess-guide.com/deny-visitor-by-ip-address/

Yêu cầu máy chủ web của bạn ghi lại các địa chỉ IP mà nó được truy cập từ đó và tìm kiếm các địa chỉ IP đó, để tìm các địa chỉ được liên kết với McAfee. Có thể dễ dàng để nói bây giờ, nếu bạn không có bất kỳ khách truy cập thường xuyên.

Tất nhiên, họ có thể thay đổi địa chỉ IP trong tương lai. Tuy nhiên, nếu bạn tìm kiếm các địa chỉ IP bạn tìm thấy, để xem ai sở hữu chúng, bạn có thể tìm hiểu về toàn bộ khối địa chỉ do McAfee sở hữu và chặn tất cả chúng.


Đối với một cơ sở pháp lý để làm như vậy:

"Chủ sở hữu trang web có thể chặn một cách hợp pháp một số người dùng, các quy tắc của tòa án"

http://www.computerworld.com/s/article/9241730/Website_ownftimecan_legally_block_some_users_court_rules

(Nếu trang web của bạn là trang cá nhân, sẽ không ai tranh chấp quyền chặn một số người dùng của bạn. Nhưng nếu đó là trang web dành cho doanh nghiệp, sẽ có những tranh luận về mặt pháp lý và đạo đức ở cả hai phía của cuộc thảo luận đó. nó phải được bảo vệ về mặt pháp lý - và càng ít người khác quan tâm đủ để phàn nàn.)


Bạn cũng có thể quan tâm đến "Từ chối khách truy cập bằng cách giới thiệu".

"Nếu bạn đã từng xem nhật ký của mình và nhận thấy lưu lượng truy cập tăng đáng ngạc nhiên, nhưng không tăng yêu cầu tệp thực tế thì có lẽ ai đó đang chèn ép nội dung (như tệp CSS) hoặc ai đó đang cố gắng hack trang web của bạn (điều này có thể đơn giản là cố gắng để tìm nội dung không công khai). "

http://www.htaccess-guide.com/deny-visitor-by-referrer/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.