HTTP 418 được Google và những người khác xử lý như thế nào vì đây không phải là lỗi thực sự của Vương quốc Anh?


7

Tôi đã tự hỏi nếu bạn biết Google và các công cụ tìm kiếm khác đối xử với một trang web bằng mã trạng thái HTTP như thế nào 418 I'm a teapot.

Theo bài viết Wikipedia này , nó có thể được sử dụng làm mã lỗi máy khách (4xx). Tôi muốn sử dụng mã lỗi này cho một trang web trứng Phục sinh, tuy nhiên, sẽ được tìm thấy bởi các công cụ tìm kiếm.

Theo bài đăng trên blog 4 năm tuổi này , trạng thái 418 sẽ bị Google bỏ qua. Bạn có bất kỳ thông tin gần đây về chủ đề này? Làm thế nào để các công cụ tìm kiếm khác phản ứng trên trạng thái 418 (chủ yếu vì đó là mã 4xx).

Câu trả lời:


8

Nếu bạn sử dụng công cụ "Tìm nạp như Google" trong Google Search Console trên trang trả về trạng thái "418 Tôi là một ấm trà" thì nó chỉ cần báo cáo "Lỗi" và không thể yêu cầu lập chỉ mục cho trang này.

Trong ảnh chụp màn hình bên dưới, các "Lỗi" được khoanh tròn là kết quả của việc yêu cầu một trang trả về trạng thái 418. Không có thêm thông tin có sẵn trong giai đoạn này.

Ảnh chụp màn hình của Fetch như công cụ Google hiển thị lỗi cho 418 trang

Theo nhật ký truy cập của tôi, cả Googlebot và Search Console đều đã truy cập trang này, nhưng nó chưa xuất hiện trong chỉ mục.

Chỉ cần làm rõ, đây là một trang mới, không được lập chỉ mục trước đây. Nó được liên kết từ một trang được lập chỉ mục, cũng đã được gửi lại (cùng với "các trang được liên kết") để lập chỉ mục - nhìn thấy trong ảnh chụp màn hình ở trên. Tôi cũng đã gửi một sơ đồ trang web XML có chứa trang này (mặc dù số lượng "Được lập chỉ mục" chưa được báo cáo - XEM CẬP NHẬT DƯỚI ĐÂY ). Thành thật mà nói, tôi không có nhiều hy vọng - tôi sẽ ngạc nhiên nếu nó được lập chỉ mục. Không chỉ bởi vì đó là mã 4xx, mà bởi vì đó không phải là mã thành công 2xx.

Thông thường, bạn có thể thực hiện kiểm tra "Tìm nạp như Google" và sau đó yêu cầu trang được lập chỉ mục. Điều này thường rất nhanh ("tức thì") cho một trang - nhưng tùy chọn này không có sẵn ở trang trên.

Theo bài đăng trên blog 4 năm tuổi này, trạng thái 418 sẽ bị Google bỏ qua.

Bằng cách "bỏ qua", họ có nghĩa là nó được coi là trạng thái 200 OK. (Điều này thực sự không giống như bị "bỏ qua" trong cuốn sách của tôi, trừ khi nó bị bỏ qua theo nghĩa đen và Google đã "không làm gì"?) "Vấn đề" với bài đăng trên blog đó, là họ đang thử nghiệm một trang đã được lập chỉ mục. Việc trả lại trạng thái 4xx sẽ không nhất thiết làm cho trang bị rớt khỏi chỉ mục, ít nhất là không trong một thời gian đáng kể (tùy thuộc vào tốc độ thu thập dữ liệu), mặc dù họ đã chờ đợi "một vài tuần". Họ cũng không đề cập đến các lỗi thu thập dữ liệu được báo cáo trong Công cụ quản trị trang web của Google (kể từ khi đổi thành Google Search Console).

đó không phải là lỗi "thực"

Hoặc là nó? Nó có thể đã được thực hiện như một "trò đùa" lúc ban đầu, tuy nhiên, nó được cho là "trạng thái lỗi". Tôi nghĩ rằng sẽ có nhiều mâu thuẫn hơn khi mã 4xx không được coi là "trạng thái lỗi". Và nó vẫn còn "hiện tại". RFC 2324 ban đầu từ năm 1998 đã xác định mã trạng thái này thậm chí đã được cập nhật vào năm 2014 với RFC 7168 .

Hầu hết các công cụ sẽ thấy trạng thái 418 là một lỗi. Hoặc chỉ xem 200 là thành công. "Trình xem nhật ký Apache" và "Screaming Frog SEO Spider" chắc chắn xem mã 418 là một lỗi.

Một số máy chủ web thực hiện mã trạng thái 418:

Stack Exchange thậm chí sử dụng mã trạng thái HTTP này khi phát hiện vi phạm CSRF:

CẬP NHẬT 2017-03-31 (hơn 2 tuần sau): Trang trả về mã trạng thái 418 HTTP không được Google lập chỉ mục. Báo cáo sơ đồ trang web XML trong GSC hiện cho thấy chỉ một trong hai URL được gửi trong sơ đồ trang web được lập chỉ mục (một URL trả về 200 và được lập chỉ mục, cái còn lại trả về 418 và không được lập chỉ mục).

Ngẫu nhiên, GSC đã mất gần 2 tuần để báo cáo về trạng thái chỉ mục của các URL trong sơ đồ trang web, nhưng điều này không liên quan đến thời điểm trang thực sự được lập chỉ mục. Ví dụ: một trang đã được lập chỉ mục tại thời điểm sơ đồ trang web được gửi, tuy nhiên, chỉ nhìn vào báo cáo sơ đồ trang web, có vẻ như trang đó chỉ được lập chỉ mục 13 ngày sau khi sơ đồ trang web được gửi.

URL trả về 418 hiện được báo cáo là "Lỗi thu thập dữ liệu" trong Thu thập thông tin> Lỗi thu thập dữ liệu và 418 được nêu là mã phản hồi. Theo báo cáo, điều này đã được "phát hiện" vào ngày 2017-03-16 (ngày hôm sau sau khi gửi yêu cầu chỉ mục ở trên), tuy nhiên, đã có lúc trước khi điều này được báo cáo trong GSC.


1
Ai có thể cải thiện điều này? Không một ai. Chúc mừng !!
Closnoc

3
Ngoài 200 trạng thái, Google còn biết cách xử lý mã chuyển hướng (301, 302, 303, 307, 308). Khác với các mã cụ thể đó, tôi sẽ tưởng tượng Google coi hầu hết mọi thứ khác là "lỗi".
Stephen Ostermiller

1
Cập nhật: Trang trả về số 418 không được lập chỉ mục và Google hiện báo cáo rõ ràng đây là lỗi thu thập dữ liệu. Tôi đã cập nhật câu trả lời của mình.
MrWhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.