Tại sao Công cụ quản trị trang web của Google thu thập URLS không hợp lệ và hiển thị 500 lỗi?

11

Các công cụ Google Webmaster đang báo cáo 12k + 500 lỗi. Eeek!

Không có URL nào là hợp lệ - tất cả chúng đều chứa www.youtube.com. Đầu tiên, tại sao Google thu thập các URL này nếu chúng không tồn tại? Tôi đã cung cấp một sơ đồ trang web, và tất nhiên chúng không có trong sơ đồ trang web.

Tôi không có robot.txt chặn bất cứ thứ gì. Tôi đã kiểm tra các chuyển hướng không hợp lệ - không có gì và đã kiểm tra các thẻ không được tiết lộ hoặc một cái gì đó sẽ vô tình ném www.youtube.com vào URL - không có gì.

Trong mọi 'được liên kết từ', URL giới thiệu cũng là một URL xấu, có www.youtube.com trong đó. Công cụ Google báo cáo không có phần mềm độc hại và tôi không thể kiểm tra nhật ký máy chủ vì máy chủ sẽ không cấp cho tôi quyền truy cập.

Thực sự bị mắc kẹt !! Bất kỳ ý tưởng đánh giá cao!

google-search-console http-code-500

— Amos Kane
nguồn

Bạn có thể gửi một số ví dụ xin vui lòng?

— ionFish

Trang web của bạn là một nền tảng Wordpress hoặc Blog khác?

— Ubique

3

Nếu bạn thấy lỗi HTTP 500 (lỗi máy chủ) cho các URL không hợp lệ, có thể bạn đã gặp sự cố trong thiết lập của mình - URL không hợp lệ sẽ trả về 404 hoặc 410.

— John Mueller

8

Có (ít nhất) hai lý do phổ biến tại sao các URL lạ và sai lệch có thể hiển thị là lỗi thu thập dữ liệu trong Công cụ quản trị trang web.

Khả năng đầu tiên là ai đó đã sao chép các trang của bạn (hoặc một số trang khác liên kết đến trang của bạn) và xử lý các liên kết trong quy trình. Điều này xảy ra thường xuyên hơn bạn nghĩ; xem ví dụ câu hỏi thứ sáu trong bài đăng trên blog của Google Webmaster này .

Khả năng khác là chính Googlebot đang cố gắng làm theo những gì họ nghĩ là các liên kết JavaScript và làm cho nó trở nên lộn xộn . Bạn thường có thể phân biệt hai trường hợp này bằng cách truy cập trang giới thiệu ( cần tồn tại và có thể truy cập được, nếu Google quản lý để thu thập thông tin để bắt đầu) và tìm kiếm tên của trang đích trong nguồn.

Dù bằng cách nào, về cơ bản, có hai điều bạn có thể làm: chỉ cần bỏ qua các liên kết hoặc đưa ra một số quy tắc viết lại để thử và ánh xạ các URL bị hỏng thành các hoạt động. Nếu bạn có thể thấy một mẫu rõ ràng trong các URL và quen thuộc với biểu thức chính quy, tôi khuyên bạn nên sử dụng cách tiếp cận sau - nó sẽ xóa danh sách lỗi thu thập dữ liệu của bạn và thậm chí có thể cung cấp cho bạn một mức tăng nhỏ, nhưng thực tế, nhưng PageRank .

Tùy chọn thứ ba, nếu bạn thấy rằng ai đó đang sao chép nội dung của bạn mà không được phép, là thử và xóa chúng . Bạn thậm chí có thể gửi khiếu nại (và / hoặc yêu cầu gỡ xuống chính thức) cho nhà cung cấp dịch vụ lưu trữ của họ, nếu bạn tin rằng nó hợp lý. Tất nhiên, do họ rõ ràng đang liên kết trở lại trang web của bạn, bạn có thể không nhất thiết phải thấy điều đó đáng để nỗ lực.

— Ilmari Karonen
nguồn

0

Google đang lập chỉ mục trang web không phải ngay lập tức tất cả các trang cùng một lúc.

Google lập chỉ mục các trang cấp cao nhất. Sau vài ngày, Google cố gắng lập chỉ mục sâu hơn - cấp trang thứ hai (các trang, trên đó Google tìm thấy các liên kết ở cấp trang đầu tiên), v.v. Theo cách này, Google cố gắng lập chỉ mục từng trang trên trang web. Vì vậy, Google tạo cây liên kết phân cấp và Google biết trang nào được liên kết với mỗi trang.

Sau đó, Google đến từng trang được lập chỉ mục sau một thời gian và kiểm tra xem nội dung trên trang có bị thay đổi hay không. Khoảng thời gian lập chỉ mục cho từng trang và từng trang dựa trên nhiều yếu tố.

Vì vậy, nếu bạn xóa một số trang và cập nhật tất cả các liên kết đến trang này trên tất cả các trang khác - Google không biết ngay lập tức và nó cố gắng lập chỉ mục trang bị xóa vì nó được lên kế hoạch lập chỉ mục trang này trong lịch trình của nó.

— webvitaly
nguồn