Google vẫn đang thu thập dữ liệu và lập chỉ mục các trang thử nghiệm cũ, giả của tôi hiện không tìm thấy 404


19

Tôi đã thiết lập trang web của mình với các trang và dữ liệu mẫu (lorem ipsum, v.v.) và Google đã thu thập các trang này. Tôi đã xóa tất cả các trang này và thực sự đã thêm nội dung thực nhưng trong các công cụ quản trị trang web, tôi vẫn gặp rất nhiều lỗi 404 khi Google cố gắng thu thập dữ liệu các trang này. Tôi đã đặt chúng thành "đánh dấu là đã giải quyết" nhưng một số trang vẫn quay lại là 404.

Hơn nữa, tôi có rất nhiều trang mẫu này vẫn được liệt kê khi tôi thực hiện tìm kiếm trang web của mình trên Google. Làm thế nào để loại bỏ chúng. Tôi nghĩ rằng những trang không liên quan này đang làm tổn thương đánh giá của tôi.

Tôi thực sự muốn xóa tất cả các trang này và bắt đầu để trang web của tôi được lập chỉ mục là một trang mới nhưng tôi đọc nó là không thể? (Tôi đã gửi sơ đồ trang web và sử dụng "Tìm nạp như Google.")

Câu trả lời:


17

Đuợc. Điều đầu tiên đầu tiên. Không đánh dấu 404 của bạn là cố định . Bạn đang thực sự kéo dài vấn đề. Google sẽ thử và tìm nạp một trang trả về 404 nhiều lần trước khi bỏ cuộc. Điều này là do lỗi 404 chỉ ra tình huống tạm thời trong đó lỗi 410 cho biết trang đã biến mất . Vì vậy, mỗi khi bạn đánh dấu 404 là đã được sửa , bạn sẽ có hiệu lực yêu cầu Google thử lại, do đó bắt đầu lại quá trình loại bỏ.

Chỉ cần để các trang 404 này một lúc và Google sẽ ngừng tìm kiếm chúng và sẽ loại bỏ các trang khỏi chỉ mục. Sẽ mất thời gian, nhưng thiếu một lỗi 410, đây là cách dễ nhất. Một lỗi 410 sẽ làm cho quá trình nhanh hơn, nhưng khó xuất hiện lỗi 410 hơn và 404 là mặc định làm cho nó trở thành giải pháp tự nhiên và dễ dàng hơn.

Các trang bị xóa của bạn sẽ biến mất trong khoảng 30-60 ngày nếu bạn có thể chờ đợi. Nó phụ thuộc vào tần suất Google truy cập các trang của bạn. Việc này có thể mất nhiều thời gian hơn, nhưng một khi đã tìm thấy 404, Google thích kiểm tra vị trí đầu tiên, sau đó tùy thuộc vào số lượng 404, có thể khiến trang web của bạn mạnh hơn.

Sử dụng sơ đồ trang web thực sự không khắc phục được bất kỳ vấn đề nào với chỉ mục. Nó chỉ làm cho cuộc sống đơn giản hơn cho các công cụ tìm kiếm. Nó không bao giờ được coi là danh sách tất cả các trang mà bất kỳ trang web nào cũng có. Nếu công cụ tìm kiếm đọc sơ đồ trang web và vẫn tìm thấy các trang không được liệt kê trong sơ đồ trang web, nó sẽ tiếp tục lập chỉ mục các trang đó.

Một tùy chọn nếu nó hợp lý để làm, là liệt kê các trang này trong tệp robot.txt của bạn. Nếu không có quá nhiều (có nghĩa là một cái gì đó bạn có thể làm và tệp robot.txt của bạn sẽ không quá dài), đó sẽ là một giải pháp nhanh hơn. Nếu không, tôi sẽ chỉ chờ và để lỗi 404 hết hạn.

Một từ cuối cùng. Bạn sẽ ổn thôi. Có thật không. Tất cả sẽ tốt cho bạn nếu bạn kiên nhẫn.


1
Thêm 404 trang vào robot.txt nghe có vẻ như thực hành xấu. Nó sẽ chỉ gây nhầm lẫn cho trình thu thập thông tin và mất rất nhiều công việc vệ sinh hoàn toàn không cần thiết.
Dorus

@ Điệp khúc Không hề. Một không có gì để làm với các khác. Thêm bất kỳ trang nào vào tệp robot.txt sẽ nhanh chóng xóa trang khỏi chỉ mục. Đồng thời, công cụ tìm kiếm sẽ không thử và truy cập tệp và do đó không có 404.
Closnoc

1
Như bạn nói, nếu bạn thêm nó vào robot.txt, công cụ tìm kiếm sẽ không cố truy cập vào trang, nhưng trang vẫn sẽ tồn tại. Vì vậy, nếu một ngày nào đó bạn loại bỏ nó khỏi robot, việc lập chỉ mục sẽ trở lại. Đó là một thực tiễn tốt hơn để cho 404 hoặc 410 làm việc.

@closetnoc Ý bạn là it is harder to present a 410 errorgì?
Evgeniy

@Evgeniy Lỗi 404 là lỗi được đưa ra theo mặc định (ít nhất là Apache và IIS cũ hơn). Một lỗi 410 sẽ phải có chủ ý và đòi hỏi một số công việc để thực hiện. Về mặt kỹ thuật, nó không phải là một nhiệm vụ khó khăn, tuy nhiên, nó đòi hỏi một số chuyên môn mặc dù không nhiều. Chúc mừng !!
Closnoc

8

Khi bạn xuất bản một trang, Google sẽ không bao giờ quên nó. Tôi có các trang web mà tôi đã xóa các trang 15 năm trước. Googlebot vẫn quay lại và thỉnh thoảng kiểm tra các trang đó.

Để ngăn các trang hiển thị trong công cụ tìm kiếm, các lỗi 404 của bạn sẽ thực hiện công việc. Google có thể mất một ngày để xóa trang khỏi chỉ mục sau khi Googlebot thu thập thông tin tiếp theo. Nếu bạn muốn xóa nó nhanh hơn, hãy trả lại trạng thái "410 Gone". Google xóa 410 trang ngay sau khi thu thập chúng thay vì chờ đợi một ngày. Google không xóa các trang 404 ngay lập tức để ngăn các chủ web tự bắn vào chân mình như được mô tả bởi Matt Cutts :

Vì vậy, với 404, cùng với tôi nghĩ là 401 và có thể 403, nếu chúng ta thấy một trang và chúng ta nhận được 404, chúng ta sẽ bảo vệ trang đó trong 24 giờ trong hệ thống thu thập thông tin, vì vậy chúng ta chờ đợi và chúng ta nói có lẽ đó là một 404 thoáng qua, có lẽ nó thực sự không có ý định trở thành một trang không tìm thấy.

Một phương pháp khác bạn có thể xem xét là chuyển hướng. 301 chuyển hướng một trang cũ sang một thay thế sẽ ngăn nó hiển thị là một lỗi trong Công cụ quản trị trang web của Google. Điều này chỉ có thể nếu có một số trang mới cho mỗi trang cũ. Chuyển hướng tất cả các trang kiểm tra đến trang chủ của bạn sẽ không có ích, bởi vì Google coi việc chuyển hướng đến trang chủ là lỗi "404 mềm" vẫn sẽ hiển thị trong báo cáo đó.

Có lỗi 404 trong Công cụ quản trị trang web sẽ không làm hại bạn. Có một số lỗi 404 trên trang web của bạn thậm chí có thể giúp bạn vì nó cho Googlebot biết rằng trang web của bạn được cấu hình đúng. Dưới đây là những gì John Mueller của Google (người làm việc trên Công cụ quản trị trang web và Sơ đồ trang web) nói về lỗi 404 xuất hiện trong công cụ Quản trị trang web :

CỨU GIÚP! TRANG WEB CỦA TÔI ĐÃ CÓ 939 CRAWL ERRORS !! 1

Tôi thấy loại câu hỏi này vài lần một tuần; bạn không đơn độc - nhiều trang web có lỗi thu thập dữ liệu.

  1. Lỗi 404 trên các URL không hợp lệ không gây hại cho việc lập chỉ mục hoặc xếp hạng trang web của bạn dưới bất kỳ hình thức nào. Không có vấn đề gì nếu có 100 hoặc 10 triệu, chúng sẽ không gây hại cho thứ hạng trang web của bạn. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. Trong một số trường hợp, lỗi thu thập dữ liệu có thể đến từ một vấn đề cấu trúc hợp pháp trong trang web hoặc CMS của bạn. Làm thế nào bạn nói? Kiểm tra kỹ nguồn gốc của lỗi thu thập dữ liệu. Nếu có một liên kết bị hỏng trên trang web của bạn, trong HTML tĩnh của trang của bạn, thì đó luôn là giá trị sửa chữa. (cảm ơn + Martino Mosna )
  3. Điều gì về các URL thú vị đang bị phá vỡ rõ ràng? Nếu chúng tôi thử những URL URL đó và tìm thấy 404, điều đó thật tuyệt vời và được mong đợi. Chúng tôi chỉ không muốn bỏ lỡ bất cứ điều gì quan trọng (chèn meme Googlebot được đính kèm quá mức ở đây). http://support.google.com/webmasters/ Phần mềm 1154698
  4. Bạn không cần sửa lỗi thu thập dữ liệu trong Công cụ quản trị trang web. Dấu hiệu của tính năng là một tính năng cố định trên mạng chỉ để giúp bạn, nếu bạn muốn theo dõi tiến trình của mình ở đó; nó không thay đổi bất cứ điều gì trong đường dẫn tìm kiếm trên web của chúng tôi, vì vậy hãy bỏ qua nếu bạn không cần nó. http://support.google.com/webmasters/ Phần mềm2467403
  5. Chúng tôi liệt kê các lỗi thu thập dữ liệu trong Công cụ quản trị trang web theo mức độ ưu tiên, dựa trên một số yếu tố. Nếu trang đầu tiên của lỗi thu thập thông tin rõ ràng không liên quan, có lẽ bạn sẽ không tìm thấy lỗi thu thập dữ liệu quan trọng trên các trang tiếp theo. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Không cần phải sửa lỗi thu thập dữ liệu trên trang web của bạn. Việc tìm kiếm 404 là bình thường và được mong đợi về một trang web được cấu hình tốt. Nếu bạn có một URL mới tương đương, thì chuyển hướng đến đó là một cách tốt. Mặt khác, bạn không nên tạo nội dung giả mạo, bạn không nên chuyển hướng đến trang chủ của mình, bạn không nên robot.txt không cho phép các URL đó - tất cả những điều này khiến chúng tôi khó nhận ra cấu trúc trang web của bạn và xử lý đúng cách. Chúng tôi gọi những lỗi 404 mềm 404 này. http://support.google.com/webmasters/ Phần mềm181708
  7. Rõ ràng - nếu các lỗi thu thập dữ liệu này hiển thị cho các URL mà bạn quan tâm, có lẽ các URL trong tệp Sơ đồ trang web của bạn, thì đó là điều bạn nên hành động ngay lập tức. Nếu Googlebot không thể thu thập dữ liệu các URL quan trọng của bạn, thì chúng có thể bị loại khỏi kết quả tìm kiếm của chúng tôi và người dùng cũng không thể truy cập chúng.

1
Đó không phải là kinh nghiệm của tôi cả. Google muốn có một chỉ mục mới và xóa các trang khá nhanh. Những gì tôi thấy có vẻ giống với những gì bạn mô tả, là nơi các trang web khác sử dụng Google API trước đây, không làm mới dữ liệu của họ và sẽ trích dẫn công việc cũ của bạn. Đây thường là các trang web spam / rác và những trích dẫn này có thể xuất hiện / vẫn / biến mất / xuất hiện lại. Lý do chính tôi thấy cho điều này là do Google API trước đây khá bừa bãi và không còn do đó dữ liệu spam cũ hơn nhiều vì dữ liệu mới hơn rất khó xuất hiện, đặc biệt là nếu bạn đã spam trước đây.
Closnoc

1
Googlebot có chế độ thu thập dữ liệu mà tôi gọi là "chúng tôi đã tìm thấy một hộp URL ở tầng hầm". Trong chế độ thu thập dữ liệu này, nó có thể thu thập một nghìn URL từ trang web của bạn liên tiếp, không có URL nào bạn đã sử dụng trong nhiều năm. Các URL thường không có liên kết trong, thậm chí từ các trang web cạp. Chúng được thu thập theo thứ tự độ dài, URL ngắn hơn được thu thập trước.
Stephen Ostermiller

Điều đó có thể đúng. Google rõ ràng là dữ liệu lớn. Bất kỳ cơ sở dữ liệu lớn có tiếng ồn trong đó. Đó là điều không thể tránh khỏi. Đó có thể là những gì bạn đang trải nghiệm. Có thể là các cơ sở dữ liệu khác nhau đang được đối chiếu. Điều đó có ý nghĩa. Nhưng tôi cũng cảnh báo bạn rằng các trang web rác chỉ có thể xuất hiện trong 2 giờ với các liên kết cũ và trích dẫn cũ. Tôi thấy điều này hàng ngày. Họ đang ở Nga và Ba Lan là chủ yếu. Các trang web này được sử dụng để chơi các công cụ tìm kiếm địa phương, nhưng ảnh hưởng đến lưu lượng truy cập đến bất kỳ trang web nào và có thể được Google chọn. Tôi nhận được khoảng 12 trong số này trong cơ sở dữ liệu của tôi mỗi ngày. Nói chung, chỉ có 1 trong số 12 trang web còn lại cho bất kỳ khoảng thời gian nào.
Closnoc

Lỗi 939 là gì?
Greg Nickoloff

939 là số lỗi, nó không phải là một loại lỗi.
Stephen Ostermiller

5

Google có thể sẽ tiếp tục cố gắng thu thập dữ liệu các trang này trong một thời gian dài. Các quản trị web mắc lỗi hoặc các trang web trở nên không khả dụng vì bất kỳ lý do gì, vì vậy Google sẽ không xóa nội dung ở dấu hiệu đầu tiên của 404.

Thay vào đó, bạn có thể phục vụ 410 Gone thay thế. Đây là một tín hiệu mạnh hơn (nghĩa là có chủ ý) rằng trang đã "biến mất" theo nghĩa đen và không quay trở lại. Điều này có thể nhắc Google xóa trang khỏi SERPs sớm hơn.

Tôi đã đặt chúng thành "đánh dấu là đã giải quyết" nhưng một số trang vẫn quay lại là 404.

Họ chỉ "giải quyết" nếu bạn đã đặt lại trang. Nếu bạn đánh dấu nó là đã được giải quyết và trang không tồn tại thì lỗi thu thập dữ liệu sẽ đơn giản tái diễn. Nếu trang không tồn tại thì cứ để nguyên như vậy.

404 chính hãng không làm hại thứ hạng tìm kiếm của bạn. Báo cáo 404 trong GWT chủ yếu là vì lợi ích của bạn để bạn có thể thấy khi có sự cố xảy ra ... khi không thể tìm thấy các trang cần tìm!

Các trang không liên quan này trong SERPs có lẽ là một sự phiền toái nhỏ đối với người dùng của bạn, tuy nhiên, họ đang tìm kiếm gì để tìm ipsum lorem của bạn ?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.