Ai đó đã nhân bản blog WordPress của tôi, làm cách nào để ngăn chặn nó làm tổn thương SEO?

Blog WordPress của tôi hoàn toàn được nhân bản. Trang web nhân bản đó đang cập nhật theo thời gian thực với blog của tôi. Tôi ngạc nhiên rằng ai đó thực sự có thể làm điều đó.

Tôi nên làm gì để ngăn chặn tác động có hại trong xếp hạng công cụ tìm kiếm của mình? Có cách nào để bảo Google không lập chỉ mục trang web đó không?

wordpress scraper-sites

— Tanvir Hasan
nguồn

Tôi thấy điều này bây giờ dường như đã được "sửa" - trang web nhân bản không còn "nhân bản". Làm thế nào bạn đạt được điều này cuối cùng?

— MrWhite

@ w3d Sau hai tuần và một vài cuộc trò chuyện với Amazon Hosting, họ đã quyết định đóng cửa trang web nhân bản đó. Cảm ơn mọi người.

— Tanvir Hasan

lưu ý rằng dmca.com và google.com/webmasters/tools/dmca-dashboard khác nhau khi tìm cách tuyên bố vi phạm.

— Trưng bày hình ảnh

Câu trả lời:

Họ chỉ đơn giản là tải trang web của bạn thông qua một tập lệnh phía máy chủ. Tất cả những gì bạn cần làm là chặn địa chỉ IP của máy chủ của họ thông qua .htaccess. Chỉ cần mở nhật ký truy cập máy chủ của bạn, mở trang nhân bản trên trang web của họ, sau đó xem nhật ký của bạn cho mục nhập mới và bạn sẽ có địa chỉ IP của họ.

Bạn cũng không nên gửi yêu cầu DMCA cho Google nhưng điều này thực sự không cần thiết vì nội dung đó sẽ biến mất ngay lập tức khi bạn chặn địa chỉ IP của họ.

— John Conde
nguồn

Tôi sẽ nhân đôi gợi ý để thực hiện yêu cầu DMCA cho Google. Chúng tôi đang thấy nhiều hình thức khác nhau trong thời gian gần đây và tôi chỉ không chắc chắn về mức chi trả sẽ là bao nhiêu. Tuy nhiên, tôi sẽ đề nghị không chặn chúng trong một khoảng thời gian trong khi Google thực hiện điều đó - sau đó tôi sẽ chặn chúng - nhưng bạn có thể không phải liệt kê khi Google hủy danh sách chúng. Tôi chỉ đề nghị rằng nếu bạn gửi khiếu nại DMCA với Google, hãy cho họ một khoảng thời gian để điều tra trước khi chặn. Nếu không, chỉ cần chặn chúng ngay lập tức.

— Closnoc

Xin chào John Conde, tôi đã cố gắng chặn chặn địa chỉ IP của họ thông qua tệp .htaccess bằng mã này "" Lệnh Lệnh từ chối, Cho phép từ chối từ [địa chỉ IP đó] "Nhưng trang web nhân bản đó vẫn đang cập nhật theo thời gian thực với tôi. Mã đúng để chặn ip đó?

— Tanvir Hasan

@TanvirHasan Đó là ý tưởng đúng, cung cấp cho bạn địa chỉ IP chính xác. Được địa chỉ IP vẫn xuất hiện trong nhật ký truy cập của bạn khi bạn truy cập vào "trang web nhân bản"?

— MrWhite

Nhà cung cấp dịch vụ lưu trữ của tôi đưa các comand đó vào tệp .htaccess và họ là người lấy địa chỉ IP đó từ nhật ký. Nhưng nó không hoạt động.

— Tanvir Hasan

Điều này đã bao giờ được giải quyết ??

— closetnoc

(Ngoài câu trả lời của @ John.)

Có cách nào để bảo Google không lập chỉ mục trang web đó không?

Khá tò mò rằng trong khi chúng dường như đã nhân bản mọi thứ (bao gồm cả sơ đồ trang web XML của bạn ^{* 1} ), chúng không nhân bản tệp robot.txt của bạn. Trên thực tế, robot.txt trên trang web đó chủ động chặn thu thập dữ liệu mọi thứ! Vì vậy, dường như không có gì để làm trong khía cạnh này. Thực hiện tìm kiếm trang web trên tên miền đó chỉ trả về tên miền trần và một thông báo cho biết rằng nó bị chặn bởi tệp robots.txt.

(Khá tò mò ý định của họ sẽ là gì khi làm điều này? Có lẽ bạn có thể cho rằng họ đã phạm sai lầm với robot.txt - và có lẽ là như vậy - nhưng điều này có vẻ giống như một ngoại lệ có chủ ý với tôi?)

Ngoài ra, trong khi sơ đồ trang XML của bạn được sao chép, chúng không cập nhật URL trong đó (như chúng đang làm trên các trang của trang chính), vì vậy chúng vẫn đang quay lại trang web của bạn.

^{* 1} Về (các) sơ đồ trang web XML. Trên trang web của bạn "sitemap.xml" thực sự là một chuyển hướng đến "sitemap_index.xml" và trang web nhân bản đã thực sự nhân bản chuyển hướng ... điều này chuyển hướng trở lại trang web của bạn! (Chắc chắn là một lỗi về phía họ.) "Sitemap_index.xml" chỉ là một chỉ mục, liên kết với 4 sơ đồ trang web khác. Nếu bất kỳ sơ đồ trang web thực tế nào được yêu cầu trực tiếp trên trang web nhân bản thì chúng được sao chép chính xác và các URL được cập nhật. Tuy nhiên, tôi đã có thể nói rằng những sơ đồ trang web này khó có thể được tìm thấy trên trang web nhân bản vì chuyển hướng ban đầu của "sitemap.xml". (?) Mặc dù nếu họ đã gửi "sitemap_index.xml" trực tiếp thì điều đó rõ ràng sẽ xoay quanh chuyển hướng.

— Ông WHITE
nguồn

Tôi đã thực hiện một yêu cầu đến sơ đồ trang web chỉ một vài phút trước đây và có một chuyển hướng 301 từ trang web spam đến trang web gốc.

— closetnoc

@closetnoc À đúng rồi! Tôi đã bỏ lỡ điều đó trước đây. "sitemap.xml" thực sự là một chuyển hướng trên trang web gốc ... nó cũng chuyển hướng đến "sitemap_index.xml". Trang web spam dường như đang nhân bản chuyển hướng này để đưa người dùng trở lại trang web ban đầu! Tuy nhiên, nếu bạn yêu cầu bất kỳ 4 sơ đồ trang web nào được liệt kê trong "sitemap_index.xml" trên trang web spam thì trang web spam sẽ sao chép chính xác chúng, tuy nhiên, do chuyển hướng ban đầu tôi sẽ đoán rằng chúng sẽ khó tìm thấy, trừ khi chúng biết gửi "sitemap_index.xml" thay vì "sitemap.xml". Tôi đã cập nhật câu trả lời. Cảm ơn.

— MrWhite

Nếu trang web tạo ra các liên kết ngược cho bạn, điều quan trọng là sử dụng công cụ Google Disavow nếu không thuật toán sẽ hoạt động chống lại bạn, bất kể.

https://www.google.com/webmasters/tools/disavow-links-main

tạo một tệp .txt và thêm:

domain:thedamnsitethatcloned.com

sau đó tải nó lên Google thông qua Công cụ quản trị trang web.

Dưới đây là chính xác các bước mà tôi sẽ thực hiện để giải quyết vấn đề này. Tôi biết rằng rất nhiều quản trị web phải đối mặt với vấn đề này. Tôi đã gặp vấn đề này trước đây và dường như không có câu trả lời thẳng thắn nào trên Google (trớ trêu thay) (đó là lý do tại sao tôi muốn giúp đỡ). Matt Cutts là anh chàng đáng lẽ phải lắng nghe về những vấn đề này, nhưng lắng nghe anh ta giống như cố gắng giành chiến thắng trong trò chơi cờ vua với siêu máy tính trong một ngôi nhà đang cháy (không tìm thấy sự giúp đỡ nào).

Các Cutts ngắn:

Đăng ký với DMCA và đặt huy hiệu trên trang web của bạn.
Thu thập tất cả nội dung được sao chép bằng cách dán 60 từ đầu tiên từ trang web của bạn vào Google và gửi VIA https://www.google.com/webmasters/tools/dmca-dashboard Các yêu cầu DMCA sẽ chỉ chấp nhận permalinks.
Từ chối MỌI trang web đã sao chép nội dung liên kết lại với bạn. Làm điều này trên mỗi trang của trang web của bạn.

Câu trả lời đầu tiên của tôi là từ chối tên miền, nhưng tôi quên đề cập rằng bạn cần phải từ chối:

www. VÀ
không www.

(Google tính chúng là hai miền riêng biệt).

— John
nguồn