Trang web đã bị hack, cần xóa tất cả các URL bắt đầu bằng + từ Google, sử dụng robot.txt?


15

Bạn có thể vui lòng cho tôi biết cách chặn các URL như vậy robots.txtđể Googlebots ngừng lập chỉ mục không?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Trang web của tôi đã bị hack hiện đã được khôi phục nhưng hacker đã lập chỉ mục 5000 URL trong Google và bây giờ tôi gặp lỗi 404 trên các liên kết được tạo ngẫu nhiên như trên tất cả bắt đầu bằng /+liên kết như trên.

Tôi đã tự hỏi liệu có cách nào nhanh chóng ngoài việc xóa các URL này khỏi Công cụ quản trị trang web của Google không?

Chúng tôi có thể chặn điều này với robots.txtcác URL bắt đầu bằng +dấu hiệu không?


2
Không có gì đặc biệt về +(cộng) trong đường dẫn URL, nó chỉ là một ký tự như bất kỳ ký tự nào khác.
MrWhite

Bạn có thể chuyển hướng Apache (trong .htaccess) sang một tệp hoặc thư mục mà robot.txt cấm truy cập robot
Mawg nói rằng khôi phục lại Monica

@Mawg Quan điểm của việc đó là gì?
MrWhite

Để giữ cho robot hoạt động tốt?
Mawg nói rằng phục hồi Monica

2
Không phụ thuộc vào vấn đề với các URL, bạn có thể muốn đọc Làm cách nào để xử lý một máy chủ bị xâm nhập?
Jonas Schäfer

Câu trả lời:


30

Trang web của tôi đã bị hack hiện đang được khôi phục nhưng hacker đã lập chỉ mục 5000 URL trong Google và bây giờ tôi gặp lỗi 404

404 có thể tốt hơn để chặn robots.txtnếu bạn muốn các URL này bị loại bỏ khỏi các công cụ tìm kiếm (ví dụ: Google). Nếu bạn chặn thu thập thông tin thì URL vẫn có thể được lập chỉ mục. (Lưu ý rằng robots.txtchủ yếu chặn thu thập thông tin , không lập chỉ mục .)

Nếu bạn muốn "tăng tốc" việc lập chỉ mục lại các URL này thì có lẽ bạn có thể phục vụ "410 Gone" thay vì "404 Không tìm thấy" thông thường. Bạn có thể làm một cái gì đó như sau với mod_rewrite (Apache) trong .htaccesstệp gốc của bạn :

RewriteEngine On
RewriteRule ^\+ - [G]

14

Tôi sẽ trả lời câu hỏi thứ 2.

Tôi đã tự hỏi liệu có cách nào nhanh hơn ngoài việc xóa các URL này khỏi các công cụ quản trị trang web của google không?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google tuyên bố rõ ràng rằng việc xóa thông qua Google Search Console (tên mới của công cụ quản trị trang web) là nhanh nhất.

Nếu tin tặc tạo ra các URL hoàn toàn mới, người dùng có thể nhìn thấy, bạn có thể xóa các trang này khỏi kết quả tìm kiếm của Google nhanh hơn bằng cách sử dụng tính năng Xóa URL trong Search Console. Đây là một bước hoàn toàn tùy chọn. Nếu bạn chỉ cần xóa các trang và sau đó định cấu hình máy chủ của mình để trả về mã trạng thái 404, các trang sẽ tự nhiên thoát khỏi chỉ mục của Google theo thời gian.

Nhưng họ cũng hiểu rằng điều này không khả thi đối với một số trường hợp:

Quyết định sử dụng Xóa URL có thể sẽ phụ thuộc vào số lượng trang mới, không mong muốn được tạo (quá nhiều trang có thể khó sử dụng trong Xóa URL), cũng như thiệt hại tiềm tàng mà các trang này có thể gây ra cho người dùng. Để giữ cho các trang được gửi qua Xóa URL không bao giờ xuất hiện trong kết quả tìm kiếm, hãy đảm bảo các trang cũng được định cấu hình để trả về phản hồi Tệp không tìm thấy tệp 404 cho các URL không mong muốn / bị xóa.

Vì vậy, trong khi bạn có thể chặn các trang này trong tệp robots.txt - bạn không thực hiện một trong các bước khắc phục như được giải thích bởi google.


4
User-Agent: *  
Disallow: /+

nên làm những gì bạn muốn Nó sẽ báo cho robot không yêu cầu tất cả các URL bắt đầu bằng a +.


2

Nếu bạn thực sự muốn sử dụng robot.txt, đây sẽ là một câu trả lời đơn giản cho câu hỏi của bạn. Ngoài ra tôi đã bao gồm một liên kết đến nơi bạn có thể đọc các thông số kỹ thuật trên robot.txt.

User-agent: *
Disallow: /+

Đọc về thông số kỹ thuật robot.txt

Nhưng một cách khác có thể là sử dụng .htaccess để tạo quy tắc viết lại (nếu bạn sử dụng Apache, v.v.) để bắt chúng và có thể nói với Google một mã HTTP trả về tốt hơn hoặc chỉ đơn giản là chuyển hướng lưu lượng truy cập đến một trang khác.


2
Không cần *(dấu hoa thị) ở cuối đường dẫn URL. Nó nên được loại bỏ để tương thích với nhện lớn nhất. robots.txtđã phù hợp với tiền tố, /+*tương tự như /+đối với các bot hỗ trợ ký tự đại diện và đối với các bot không hỗ trợ ký tự đại diện thì /+*hoàn toàn không khớp.
MrWhite

Bạn nói đúng, tôi chỉ viết điều đó dựa trên câu hỏi của anh ấy về Googlebot. Tôi đã chỉnh sửa nó để phản ánh khả năng tương thích tốt hơn với nhiều bot.
davidbl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.