Xóa trang web đầy đủ khỏi chỉ mục của Google


7

Tôi muốn xóa nội dung khỏi chỉ mục của Google. Google index bao gồm các trang web của tôi số lượng lớn các trang được lập chỉ mục trong Google chỉ khoảng 5.000.000 trang trước đó nhưng hiện tại các trang còn lại là 3.025.000.

Tôi đã thực hiện những điều sau đây nhưng việc loại bỏ các trang rất chậm.

robot.txt:

User-agent: *
Disallow: /

.htaccess:

rewriteengine on
rewritecond %{HTTP_USER_AGENT} ^.*Googlebot/2.1.*$
rewriterule .* - [F,L]

Nội dung được trả về cho Googlebot khi nó cố gắng thu thập nội dung:

HTTP/1.1 410 Gone
Date: Sat, 05 Jan 2013 12:39:23 GMT
Server: Apache/2.2.23 (Unix) mod_ssl/2.2.23 OpenSSL/0.9.8e-fips-rhel5
        mod_fastcgi/2.4.6 mod_jk/1.2.37 mod_auth_passthrough/2.1 mod_bwlimited/
        1.4 FrontPage/5.0.2.2635 PHP/5.3.19
Content-Length: 661
Connection: close
Content-Type: text/html; charset=iso-8859-1

Tôi cũng đã sử dụng thẻ meta HTML noindex, không theo dõi nhưng không có tác dụng như:

<meta name="googlebot" content="noindex,nofollow">

Tôi cũng đã gửi để xóa trang web nhưng tốc độ xóa nội dung rất chậm. Trong 35 ngày qua, chỉ có một vài trang bị xóa. Trang web của tôi cũng bị xóa khỏi chỉ mục tìm kiếm của Google nhưng Công cụ quản trị trang web của Google - Sức khỏe -> Trạng thái chỉ mục vẫn hiển thị 3.025.000 trang và nếu tôi gửi lại trang web, chúng sẽ hiển thị các trang đã được lập chỉ mục. Làm cách nào để tăng tốc độ xóa trang?


Thật không may, tôi không chắc bạn có thể tăng tốc độ dễ dàng để xóa các trang web. Kiểm tra liên kết này .
Zistoloen

@Zistoloen Người ta nói rằng chúng là các thuật toán để lập chỉ mục nhưng không có gì về việc dọn sạch chỉ mục web
Vineet1982

Thật. Tôi nghĩ rằng Google thích cho doanh nghiệp của mình trình bày các trang web mới hơn là xóa các trang web cũ.
Zistoloen

Tôi gặp vấn đề tương tự: webmasters.stackexchange.com/questions/15510/ . Vô cùng bực bội khi Google không cho phép mức độ kiểm soát này.
JCL1178

Tôi đã sử dụng một trong các tên miền trùng lặp của trang web <meta name = "robot" content = "noindex, nofollow"> Nhưng khi tôi tìm kiếm trang web trùng lặp, nó không xóa hoàn toàn tất cả nội dung khỏi trang web. Sau đó, tôi đã sử dụng chuyển tiếp tên miền để chuyển hướng vĩnh viễn tên miền thứ hai sang tên miền chính.
Joe Salim

Câu trả lời:


4

.htaccess


  • Tôi vừa dành phút cuối nhấp vào trang web của bạn với User-AgentGooglebot 2.1 và tôi đã không đạt được một 410. Tôi không phải là chuyên gia về .htaccess, nhưng bạn có chắc rằng quy tắc .htaccess của bạn đang hoạt động chính xác trang web- rộng?

  • F sẽ tạo ra 403 (Bị cấm), không phải là 410 Tìm nạp của bạn như Googlebot được sản xuất.

  • Tại sao chỉ nói với Google rằng trang bị cấm, biến mất hoặc bất cứ điều gì? Meta của bạn noindexsẽ đề nghị bạn muốn hướng dẫn các công cụ tìm kiếm khác ngoài Google.

Meta Noindex


Bạn dường như đang hướng dẫn các robot cụ thể noindex, và sau đó hủy bỏ nó bằng cách nói với tất cả các robot index:

<meta name="googlebot" content="noindex,nofollow">
<meta name="searchbot" content="noindex,nofollow">
<meta name="baidu" content="noindex,nofollow">
<meta name="geo.country" content="IN">
<meta name="robots" content="Index, Follow">


Robots.txt


Trên thực tế, tệp robots.txt của bạn không chứa

User-Agent: *

Disallow: / 

như bạn nói Nó chứa

User-agent: *
Disallow: /judgment_view
Disallow: /payment
Disallow: /include
Disallow: /search.php*
Disallow: /admin

Mặc dù điều đó không quan trọng vì nó chỉ ngăn chặn việc thu thập thông tin và sẽ không xóa nội dung khỏi chỉ mục.

Giải pháp


Bạn chưa nói chính xác mục tiêu của bạn là gì, cũng không rõ ràng từ các bước bạn đã thực hiện trên trang web của mình, nhưng ở trên sẽ đóng vai trò là điểm khởi đầu.


cảm ơn vì đã dành thời gian và xem trang web nhưng hôm qua tôi đã xóa mã trong .htaccess và nhấn 410 hiển thị các lỗi thu thập dữ liệu và nó sẽ tiếp tục kiểm tra trang 90 ngày để xóa khỏi chỉ mục.
Vineet1982

nếu bạn muốn thấy hoạt động của .htaccess, hãy cho tôi biết để bật lại mã vì nó hoạt động hoàn hảo như đã cung cấp các kết quả trên từ Fetch dưới dạng công cụ Google Bot được cung cấp bởi Google
Vineet1982

3

Google không bỏ trang nhanh chóng một phần vì các trang được xếp hạng và nếu họ bỏ chúng nhanh chóng, mọi người sẽ than vãn về việc họ mất thứ hạng trang của họ với một lỗi không thể kiểm chứng. Vì vậy, nó giống như một thời gian ân sủng để rút ngắn mọi thứ.

Vấn đề với các chuyển hướng .htaccess là Google có thể cho rằng đó là một lỗi trong HTACCESS nên theo định kỳ, nó sẽ quay lại và kiểm tra lại và nếu bạn có nhiều trang thì đây là một quá trình tốn thời gian.

Ngoài ra, bạn nên thực hiện trên mỗi trang, vì robot.txt không phải lúc nào cũng được kiểm tra khi thu thập thông tin, cá nhân tôi hoàn toàn không sử dụng .htaccess vì họ sẽ tiếp tục quay lại và cho rằng đó là lỗi. NOINDEX nhanh hơn robot và htaccess nhưng hãy thử công cụ loại bỏ mà tôi đã liên kết ở trên.

<meta name="robots" content="noindex,nofollow">

Ngoài ra, một yếu tố khác là cách Google đối xử với trang web của bạn về thứ hạng và những gì nó xem xét về tốc độ của nó. Vì vậy, nếu trên VPS của bạn tăng tốc độ của nó, nó sẽ tăng số lượng trang mà Google sẽ thu thập thông tin do thực tế Google bot sẽ thu thập dữ liệu trong một khoảng thời gian X được phân bổ và sau đó rời đi, và bạn muốn có nhiều nước như khả thi.

Phương pháp tốt nhất, Hit hoặc Miss

Bây giờ cách tốt nhất để xóa URLS kịp thời là thông qua các công cụ quản trị trang web của họ, tuy nhiên bạn có 3 triệu trang trở nên bất hợp lý, tuy nhiên có một công cụ xóa trang web mà nhiều người không biết và đủ để url giống nhau.

KIỂM TRA

http://www.google.com/webmasters/tools/removals

http://www.google.com/webmasters/tools/url-removal?hl=vi&siteUrl= (Công cụ này là Công cụ quản trị trang web - một trong những công cụ trên bạn có thể yêu cầu xóa trang web)


2

Việc thêm: <meta name="robots" content="noindex,nofollow">vào phần đầu của trang của bạn có giúp tăng tốc mọi thứ không?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.