Từ chối truy cập vào Archive.is


8

Tôi muốn từ chối archive.istruy cập vào trang web của tôi. (Tôi không muốn trang web này lưu trữ bộ nhớ cache của tôi mà không có sự đồng ý của tôi).

Bạn có biết nếu nó có thể?

Câu trả lời:


6

Được chứ. Đây là một cái mới (ít nhất là với tôi) và khá thú vị cho đến nay. Tôi sẽ không nhận được cỏ dại về điều này.

Khi tôi viết bài này, tôi đang làm việc rất ít hoặc không ngủ. Tôi đã bỏ lỡ một vài điều mà @unor đã vui lòng chỉ ra và vì vậy tôi phải tiết chế câu trả lời của mình và cung cấp tín dụng khi tín dụng đáo hạn. Cảm ơn bạn @unor!

Archive.is được đăng ký với Denis Petrov, người đang sử dụng tài khoản Google webhost trên địa chỉ IP 104.196.7.222 [AS15169 GOOGLE - Google Inc.] theo Domain Tools mặc dù tôi có nó trên 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]. Có khả năng công ty chủ quản gần đây đã thay đổi.

Archive.today cũng thuộc sở hữu của Denis Petrov và tương tự như Archive.is nếu không giống hệt. Với mục đích của câu trả lời này, tôi sẽ giải quyết Archive.is và bạn có thể giả sử rằng nó áp dụng cho Archive.today. Archive.today không tồn tại trên một địa chỉ IP khác 78.108.190.21 [AS62160 GM-AS Yes Networks Unlimited Ltd]. Xin hãy hiểu rằng Denis Petrov sở hữu 70 tên miền. Nếu không đào sâu hơn, có thể có nhiều trang web cần quan tâm hơn. Tôi sẽ cung cấp mã chặn cho cả ba địa chỉ IP.

Archive.is là hướng dẫn sử dụng. Giả định rằng bạn đang lưu trữ trang của riêng bạn. Khác với kịch bản này, Archive.is có thể được coi là một trang web spam nội dung.

Archive.is đang đi một đường nguy hiểm. Nó đang sử dụng nội dung trang web khác thông qua việc quét trang đơn. Cuối cùng, tiềm năng tìm kiếm của nội dung ban đầu ít nhất bị pha loãng và có khả năng chiếm đoạt hoàn toàn. Tệ hơn nữa, trang web gốc không được trích dẫn là người khởi tạo nội dung. Archive.is sử dụng thẻ chính tắc, nhưng đó là trang web / trang riêng của nó.

Thí dụ: <link rel="canonical" href="http://archive.is/Eo267"/>

Điều này cùng với việc thiếu kiểm soát ai đang gửi trang web và liệu họ có quyền truy cập trang web hay không, thiếu thông tin gỡ xuống rõ ràng và cơ chế liên hệ hơi mờ và có khả năng yếu, Archive.is có tiềm năng thực sự rắc rối.

Bạn có thể tìm hiểu thêm thông tin địa chỉ IP tại đây: https://www.robtex.com/#!dns=archive.is

Cách chặn theo địa chỉ IP 78.108.190.21.

Sử dụng Tường lửa của Cisco.

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

** Lưu ý: Bạn có thể thay thế [tên acl được cung cấp] bằng tên ACL bạn chọn.

Sử dụng Nginx.

Chỉnh sửa nginx.conf và chèn bao gồm blockips.conf; nếu nó không tồn tại Chỉnh sửa blockips.conf và thêm vào như sau:

deny 78.108.190.21/32;

Sử dụng tường lửa IPTables Linux. ** Lưu ý: Sử dụng thận trọng.

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

Sử dụng máy chủ web Microsoft IIS

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Sử dụng Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

Cách chặn theo địa chỉ IP 46.17.100.191.

Sử dụng Tường lửa của Cisco.

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

** Lưu ý: Bạn có thể thay thế [tên acl được cung cấp] bằng tên ACL bạn chọn.

Sử dụng Nginx.

Chỉnh sửa nginx.conf và chèn bao gồm blockips.conf; nếu nó không tồn tại Chỉnh sửa blockips.conf và thêm vào như sau:

deny 46.17.100.191/32;

Sử dụng tường lửa IPTables Linux. ** Lưu ý: Sử dụng thận trọng.

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

Sử dụng máy chủ web Microsoft IIS

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Sử dụng Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

Cách chặn theo địa chỉ IP 104.196.7.222.

Sử dụng Tường lửa của Cisco.

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

** Lưu ý: Bạn có thể thay thế [tên acl được cung cấp] bằng tên ACL bạn chọn.

Sử dụng Nginx.

Chỉnh sửa nginx.conf và chèn bao gồm blockips.conf; nếu nó không tồn tại Chỉnh sửa blockips.conf và thêm vào như sau:

deny 104.196.7.222/32;

Sử dụng tường lửa IPTables Linux. ** Lưu ý: Sử dụng thận trọng.

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

Sử dụng máy chủ web Microsoft IIS

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Sử dụng Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

Bạn có thể cần chặn nhiều hơn một địa chỉ IP từ bất kỳ bộ mã nào. Điều đó không rõ ràng.


Rất nhiều thông tin! Tôi đồng ý 100% với bạn, nhưng tôi sợ trang web này sử dụng nhiều địa chỉ IP hơn. Bạn nhận thấy điều này khi bạn lưu trữ một trang cung cấp IP của khách truy cập (như wtfismyip.com/). Cho đến nay tôi đã tìm thấy: 2a01: 4f8: 190: 5388 :: 2: 2, 2a01: 4f8: 190: 6388 :: 2: 2, 2a01: 4f8: 190: 638c :: 2: 2, 46.17.100.191, 78.46 .174.144, 78.108.190,21, 104.196.7.222
someone2332

Một số khác: 2a01: 4f8: 190: 6394 :: 2: 2. Tôi muốn chặn tất cả các địa chỉ IPv6 bắt đầu bằng "2a01: 4f8: 190:". Bạn có biết làm thế nào tôi có thể làm điều đó? Cảm ơn bạn!
ai đó3232

Khi tôi gặp phải vấn đề này một năm trước, tôi đã gửi email cho Denis một thông báo gỡ bản quyền cho quản trị trang web-at-archive-dot-is và rất ngạc nhiên khi thấy tất cả nội dung vi phạm bị xóa vào ngày hôm sau. Chỉ là sẽ đăng bài này như một câu trả lời khác, nhưng tôi đã kiểm tra trang web của anh ấy và thấy nội dung của tôi đã được sao lưu! Bây giờ tôi có bằng chứng chắc chắn về việc biết, cố ý vi phạm bản quyền. À, IPTables rồi. Anh ấy đã ở với OVH năm ngoái và họ đã rất hữu ích với các vấn đề trong quá khứ, không chắc bây giờ anh ấy đã lưu trữ ở đâu.
Tom Brossman

Ngoài ra, hãy xem Câu hỏi và trả lời liên quan này từ Superuser vào tháng 1 năm ngoái: superuser.com/a/868368 (lưu ý các IP khác nhau được sử dụng sau đó, vì vậy điều này sẽ yêu cầu liên tục theo dõi và cập nhật danh sách chặn của bạn để duy trì hiệu quả ...).
Tom Brossman

1
"Archive.org, một trang web tương tự, đã bị kiện nhiều lần và bị mất" Bạn tham khảo trường hợp nào? Google archive.org loses copyright lawsuitdường như không đưa ra các bài viết liên quan về các phán quyết.
Damian Yerrick

3

robots.txt

Archive.is không sử dụng bot tự động thu thập dữ liệu các trang (ví dụ: bằng cách theo các siêu liên kết), vì vậy robots.txtkhông áp dụng, vì đó luôn là người dùng đưa ra lệnh để lưu trữ một trang nhất định.

Vì lý do tương tự, các dịch vụ như Feedfetcher của Google ( Tại sao Feedfetcher không tuân theo tệp robot.txt của tôi? ) Và Trình xác thực ( chi tiết ) của W3C không tuân theo robots.txt.

Xem kho lưu trữ. Câu hỏi thường gặp: Tại sao archive.is không tuân theo robot.txt?

meta- robots/X-Robots-Tag

Tôi không chắc là archive.is (lý tưởng) nên tôn trọng noindexhoặc noarchivegiá trị trong meta- robots/ X-Robots-Taghoặc nếu các công nghệ này cũng chỉ áp dụng cho các bot tự trị. Nhưng như archive.is không tài liệu này, họ dường như không hỗ trợ nó hiện tại.

(FWIW, mỗi trang lưu trữ dường như có được một <meta name="robots" content="index,noarchive"/>.)

User-Agent

archive.is không tài liệu rằng một số nhất định User-Agentđược sử dụng (có thể họ không nhận dạng chính họ, để có được các trang như thể được xem bởi một trình duyệt thông thường), vì vậy bạn không thể sử dụng nó để chặn truy cập của họ ở cấp độ máy chủ .

Chặn địa chỉ IP của họ

Vì vậy, khi không phải robots.txtvà cũng không meta- robots/ X-Robots-Taglàm việc ở đây, và bạn không thể chặn chúng thông qua họ User-Agent, bạn sẽ phải chặn truy cập từ archive.is IP. Xem câu trả lời của Closnoc về việc chặn IP , nhưng lưu ý rằng điều này có thể chặn nhiều hơn dự định và bạn có thể không bao giờ bắt được tất cả IP của họ (và / hoặc cập nhật).

Lưu ý bên: Chức năng báo cáo

Mỗi phiên bản lưu trữ liên kết đến một biểu mẫu nơi bạn có thể báo cáo lạm dụng có thể xảy ra (chắp thêm /abuse), ví dụ: với lý do "Vấn đề SEO" hoặc "Bản quyền". Nhưng tôi không biết nếu họ xử lý những trường hợp này.


Tôi đang làm việc không ngủ hoặc ngủ ít và hoàn toàn bỏ lỡ một vài điều mà bạn chỉ ra một cách đúng đắn. Kết quả là, tôi đã tiết chế câu trả lời của mình. Tât nhiên! Tôi đã có một chút mang đi như đôi khi tôi có thể làm. ;-) Ooopppsss !! Nó vẫn còn một chút trên đầu trang. Tôi đánh giá cao câu trả lời của bạn ở đây. Tôi ước tôi có thể bỏ phiếu để đưa ra câu trả lời hàng đầu này. Tôi khuyên mọi người bỏ phiếu cho câu trả lời này bằng chuột nếu họ đồng ý với tình cảm của tôi.
closetnoc

1

Để chặn các hành vi ăn cắp kinh tởm của archive.is (bỏ qua robot.txt, ghi đè liên kết chính tắc, tác nhân người dùng giả mạo, không có cách nào để thực hiện xóa toàn bộ trang web), tôi muốn thêm các giải pháp sau vào các giải pháp ở trên.

Tìm địa chỉ IP của họ

Để tìm địa chỉ IP của họ, hãy gửi url cho họ dưới sự kiểm soát của bạn để bạn có thể theo dõi nhật ký máy chủ web của mình để xem ai đã truy cập url đó. Url thậm chí không tồn tại, miễn là máy chủ web nhận được yêu cầu. (Vì vậy, tốt hơn là sử dụng một trang / url trống không tồn tại.) Ví dụ: sử dụng một url như: http://example.com/fuck-you-archive.is

Sau đó kiểm tra nhật ký của bạn để xem ai đã truy cập url. Bạn có thể sử dụng grep để kiểm tra nó:

grep "fuck-you-archive.is" web-server-log.txt

Khi bạn có địa chỉ IP, bạn có thể chặn nó bằng các giải pháp từ các câu trả lời khác. Và sau đó lặp lại quy trình một lần nữa để tìm địa chỉ IP khác mà họ sử dụng. Bạn cần chỉ định một url khác, để khiến họ thực hiện lại yêu cầu HTTP, ví dụ, chỉ cần thay đổi http://example.com/fuck-you-archive.is thành http://example.com/fuck-you- archive.is?2, v.v.

Trong trường hợp bạn hoàn toàn không muốn tiết lộ trang web của mình khi cố gắng tìm địa chỉ IP của họ, bạn có thể muốn sử dụng trang web yêu cầu HTTP tiện dụng này: https://requestb.in Các bước để thực hiện là: tạo RequestBin> gửi "BinURL" cho Archive.is với "? someRandomNumber" được gắn vào BinURL> sử dụng "? Kiểm tra" của RequestBin để theo dõi yêu cầu đến từ Archive.is và xem địa chỉ IP của họ trong "Cf-Connection-Ip "Tiêu đề HTTP. (Đảm bảo rằng bạn không gửi url "? Kiểm tra" cho Archive.is.) Lặp lại để tìm địa chỉ IP khác bằng cách thay đổi "? Một sốRandomNumber" sang một số khác.

Chặn địa chỉ IP của họ

Lưu ý rằng với các bảng IP, bạn có thể chặn bằng cách sử dụng

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

nhưng thường thì chuỗi 'INPUT' được đặt thành chính sách 'DROP' với sự chấp nhận lưu lượng HTTP. Trong trường hợp đó, bạn có thể cần phải sử dụng thao tác trả trước (chèn) thay vì thao tác nối thêm, nếu không nó hoàn toàn không bị chặn:

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

Tuy nhiên, họ có rất nhiều địa chỉ IP, do đó có thể dễ dàng hơn để chặn các dải IP hoàn chỉnh. Bạn có thể thực hiện việc này một cách thuận tiện với IPTables (không cần chỉ định mạng con) bằng cách sử dụng:

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

Phạm vi này (46.166.139.110-46.166.139.180) dành cho một phần lớn thuộc sở hữu của họ, vì tôi đã thấy nhiều địa chỉ trong khoảng từ 46.166.139.110 đến 46.166.139.173.

Gửi khiếu nại lạm dụng đến máy chủ web của họ

Họ hiện đang sử dụng NFOrce làm máy chủ web. Xem https://www.nforce.com/abuse để biết cách khiếu nại về Archive.is. Đề cập: 1) url trang web của bạn mà archive.is đã bị đánh cắp, 2) đề cập đến url tại archive.is có chứa nội dung bị đánh cắp và 3) đề cập đến các địa chỉ IP mà họ đã sử dụng.

Ngoài ra, bạn có thể muốn khiếu nại tại Cloudflare, CDN của họ, lưu trữ các trang và hình ảnh bị đánh cắp của họ vì lý do hiệu suất. https://www.cloudflare.com/abuse/


1

Như chúng ta có thể thấy, archive.is đang sử dụng DNS anycasting.

Nếu bạn sử dụng các máy chủ tên khác nhau (ví dụ: từ https://www.lifewire.com/free-and-public-dns-servers-2626062 ), bạn hiện tại (2018-09-10) nhận các địa chỉ IP khác nhau cho "archive.is" ( đào @NAMESERVER archive.is A)

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

Tôi đã sử dụng lạm dụng-contacts.abusix.org ( https://www.abusix.com/contactdb ) để nhận các liên hệ lạm dụng cho các địa chỉ IP này:

abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru

Như Cloudflare đã báo cáo, archive.is đang lạm dụng "dịch vụ" của họ bằng cách sử dụng bản ghi DNS A không có chức năng!


0

Đồng thời xem xét Liên hệ với các nhà đăng ký tại www.isnic.is, Cơ quan đăng ký tên miền của Iceland. isnic tại dấu chấm isnic là

Iceland có luật bản quyền và Cơ quan đăng ký công nhận nó. Cơ quan đăng ký đã tồn tại từ cuối những năm 1980 và không thuộc ICANN.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.