Tại sao Google dừng lập chỉ mục các trang từ sitemap.xml của chúng tôi?


18

Chúng tôi đang thấy một số trang tồn tại trong chúng tôi sitemap.xmlnhưng bị thiếu một cách không thể giải thích được từ chỉ mục tìm kiếm công khai của Google.

Bạn không thể tải xuống /superuser//sitemap.xml - chúng tôi bảo vệ tệp này vì trước đây đã có vấn đề với nó - nhưng googlebot thì có thể. Chúng tôi đã xác minh thông qua Google Webmaster Tools rằng sitemap.xmltệp đã được kéo xuống hôm nay và được đánh giá là OK không có lỗi (dấu kiểm màu xanh lá cây).

văn bản thay thế

sitemap.xmlchứa một danh sách 50.000 câu hỏi cuối cùng trên trang web của chúng tôi đã được hỏi. Ví dụ, câu hỏi này ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... tồn tại trong sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Tìm kiếm "Làm thế nào để thấy sự kết thúc của một chuỗi dài các liên kết tượng trưng" chỉ cung cấp một kết quả cho Questiolahoma.com đang làm mất dữ liệu của chúng tôi (một vấn đề hoàn toàn khác).

Bạn có thể tăng số lượng câu hỏi và thực hiện tìm kiếm chính xác cho tiêu đề câu hỏi và bạn sẽ thấy mẫu này vẫn tồn tại.

Các url này có trong sitemap.xml nhưng chúng không hiển thị trong chỉ mục của Google - và chúng vẫn hiển thị trên các trang web cạo dữ liệu chung của chúng tôi. Tại sao lại như vậy?


5
Bạn luôn có thể hỏi trong diễn đàn trung tâm quản trị trang web google. google.com/support/forum/p/Webmasters?hl=vi
Alex Black

Một cái gì đó chắc chắn là sai. Câu hỏi NÀY đã được lập chỉ mục trong Google, tuy nhiên câu hỏi được liên kết trên superuser VẪN không hiển thị trong chỉ mục.
Michael Pryor

Jeff có thể nghĩ về việc chỉ hỏi Matt Cutts. Tôi đã thấy họ nói chuyện với nhau một vài lần trên Twitter. Anh ấy thường khá sẵn lòng giúp đỡ.
Truyền thông Virtuosi

3
FWIW Chúng tôi hiện đang thấy một số vấn đề với việc lập chỉ mục nội dung mới trên một số trang web. Có một chủ đề trong Diễn đàn trợ giúp của chúng tôi tại google.com/support/forum/p/Webmasters/ trên về điều này. URL mà bạn đề cập dường như bị ảnh hưởng. Tôi tưởng tượng điều này sẽ được giải quyết trong thời gian ngắn, nhưng không có khung thời gian sửa lỗi khả dụng. Cảm ơn sự kiên nhẫn của bạn.
John Mueller

1
Có vẻ như điều này được giải quyết ngay bây giờ :-). Tôi đã thử một vài câu hỏi mới từ trang web và tất cả chúng đều được lập chỉ mục. Khốn nạn!
John Mueller

Câu trả lời:


10

Có vẻ như Google đã gặp một số vấn đề về thu thập thông tin kỹ thuật trong tuần này, nghe có vẻ đáng chú ý như những gì chúng tôi đã trải qua:

http://searchengineland.com/is-google-broken-sites-big-small-ecting-indexing-probols-53701

Không ai có vẻ miễn nhiễm với vấn đề lập chỉ mục của Google khiến nhiều chủ sở hữu trang web gặp khó khăn. Blog và trang web, lớn và nhỏ, không được lập chỉ mục nhanh như bình thường - nếu chúng hoàn toàn được lập chỉ mục.

...

John từ Google đã trả lời chủ đề trong diễn đàn Quản trị trang web cho biết:

Rõ ràng, các vấn đề từ chủ đề này, mà tôi đã xem xét chi tiết, không phải do những thay đổi trong chính sách hoặc thay đổi trong thuật toán của chúng tôi; chúng là do một vấn đề kỹ thuật về phía chúng tôi sẽ được giải quyết rõ ràng càng sớm càng tốt (có thể mất đến vài ngày để hiển thị cho tất cả các trang web)


7

Google không đưa ra bất kỳ đề nghị hay đảm bảo nào rằng các trang trong sơ đồ trang web sẽ được lập chỉ mục.

Kinh nghiệm của tôi là một trang phải được liên kết đến (từ một trang của một số cơ quan) để hiển thị. Là trang / câu hỏi đó được liên kết trực tiếp / gián tiếp từ một trang với một số cơ quan có thẩm quyền?

Ví dụ: nếu trang chủ superuser.com (có lẽ có nhiều liên kết) được liên kết trực tiếp đến câu hỏi này hoặc liên kết với nó một cách gián tiếp thông qua một số trang khác, thì bạn có thể mong đợi nó được lập chỉ mục.

Từ Google:

Google không đảm bảo rằng chúng tôi sẽ thu thập dữ liệu hoặc lập chỉ mục tất cả các URL của bạn. Tuy nhiên, chúng tôi sử dụng dữ liệu trong Sơ đồ trang web của bạn để tìm hiểu về cấu trúc trang web của bạn, điều này sẽ cho phép chúng tôi cải thiện lịch trình trình thu thập thông tin của mình và thực hiện công việc thu thập dữ liệu trang web của bạn tốt hơn trong tương lai. Trong hầu hết các trường hợp, quản trị web sẽ được hưởng lợi từ việc gửi Sơ đồ trang web và trong mọi trường hợp, bạn sẽ không bị phạt vì điều đó.

http://www.google.com/support/webmasters/ thông tin về các thành viên khác


4
Superuser nên có đủ các liên kết và PR để có được các trang được lập chỉ mục có hoặc không có sơ đồ trang web. Và các trang nhỏ được liệt kê tất cả các thời gian. Trong thực tế, chúng chiếm phần lớn của chỉ số. Tôi nghi ngờ một cái gì đó khác là thủ phạm.
John Conde

Đồng ý, trang web có rất nhiều PR và liên kết. Nhưng, có khả năng trang đang được đề cập không có liên kết không? Nếu superuser.com (tình cờ) không liên kết đến trang, thì điều đó nói gì với google? Nó nói rằng trang không quan trọng.
Alex Black

2
Trang này chắc chắn được liên kết từ trang trước và tiếp tục được liên kết bởi một số trang khác. Các trang web SE rất liên kết chéo nặng.
Kevin Montrose

1
tại một thời điểm ngày hôm qua, một trong những lượt truy cập của tôi cho một câu hỏi kiểm tra là trang chủ superuser.com - với URL mục tiêu hiển thị trên đó, ngay cả trong bộ đệm của Google! Nhưng câu hỏi đã không được lập chỉ mục. Rất kỳ quặc.
Jeff Atwood

2
hoàn toàn - nhấp vào tab NÓNG trên trang chủ hoặc tab HÀNG TUẦN hoặc HÀNG THÁNG. Ngay tại đó ..
Jeff Atwood

3

Tôi nghĩ rằng google có thể gặp khó khăn khi lập chỉ mục các trang web của bạn, 50.000 là rất nhiều. Vì vậy, đề xuất của tôi sẽ chia nhỏ sơ đồ trang web của bạn thành nhiều phần như vậy

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Nếu bạn gặp sự cố, bạn sẽ có may mắn hơn khi có 50.000 url được lập chỉ mục.

Sitemaps.org giải thích về vấn đề này

Bạn có thể cung cấp nhiều tệp Sơ đồ trang web, nhưng mỗi tệp Sơ đồ trang web mà bạn cung cấp phải có không quá 50.000 URL và không được lớn hơn 10MB (10,485,760 byte). Nếu bạn muốn, bạn có thể nén các tệp Sơ đồ trang web của mình bằng gzip để giảm yêu cầu băng thông; tuy nhiên, tệp sơ đồ trang web một khi không được nén phải không lớn hơn 10MB. Nếu bạn muốn liệt kê hơn 50.000 URL, bạn phải tạo nhiều tệp Sơ đồ trang web.

Nếu bạn cung cấp nhiều Sơ đồ trang web, thì bạn nên liệt kê từng tệp Sơ đồ trang web trong tệp chỉ mục Sơ đồ trang web. Các tệp chỉ mục sơ đồ trang web có thể không liệt kê hơn 50.000 Sơ đồ trang web và không được lớn hơn 10MB (10,485,760 byte) và có thể được nén. Bạn có thể có nhiều tệp chỉ mục Sơ đồ trang web. Định dạng XML của tệp chỉ mục Sơ đồ trang web rất giống với định dạng XML của tệp Sơ đồ trang web.

http://sitemaps.org/protatio.php


2
Sơ đồ trang web với 50.000 trang là rất phổ biến. Trên thực tế, gần đây ai đó đã đăng một ảnh chụp màn hình từ tài khoản quản trị trang web của họ cho thấy Google đã lập chỉ mục gần như tất cả 50.000 trang đó. Và tôi nghi ngờ superuser phổ biến hơn (ví dụ: có mức độ phổ biến liên kết tốt hơn) so với trang web khác.
John Conde

1
"Bạn có hơn 50.000 URL để liệt kê. Đó là mức tối đa mà một Sơ đồ trang web có thể bao gồm." sitemaps.blogspot.com/2005/08/USE-sitemap-index-files.html
Jeff Atwood

1
Nếu bạn có một sơ đồ trang web cho mỗi ngày, những thứ đó không bao giờ thay đổi sau khi hết ngày, để sơ đồ trang web đó không phải bị truy cập lại, họ có thể thu thập dữ liệu các liên kết mà họ đã lập chỉ mục để thay đổi, vì vậy google không cần phải tìm kiếm 50.000 url mỗi ngày để xem cái nào cũ và cái nào mới.
Sevki

@sevki câu hỏi 50.001 cũ nhất của NGÀY HOẠT ĐỘNG (câu trả lời mới, chỉnh sửa, v.v. ngày này) sẽ không có trong sơ đồ trang web. Hãy nhớ rằng superuser chỉ có 55k câu hỏi trong tổng số.
Jeff Atwood

@Jeff nhưng SO.com có ​​1.014,782 và 964,782 không có trong sơ đồ trang web nên google hoặc bing không biết khi nào chúng được sửa đổi lần cuối .. không làm tăng thu thập dữ liệu của bạn. Dù sao tôi không muốn làm phiền chỉ vì cố gắng giúp đỡ, tôi đã gửi cho bạn một email với một số chi tiết.
Sevki

2

Có vẻ như Google đang tuyên bố rằng 46.514 liên kết được gửi nằm trong chỉ mục. Nó có thể là một vấn đề với (tôi ghét phải nói nó) nhưng xếp hạng trang? Các trang web nạo có thể đang thực hiện một công việc tốt hơn liên kết chéo vv và được xếp hạng cao hơn. Chỉ là một ý nghĩ.

Trang tìm kiếm này: superuser.com Cách xem phần cuối của một chuỗi dài các liên kết tượng trưng cũng có vẻ như đang tìm nạp chính xác sơ đồ trang web của bạn, mặc dù không trả về kết quả mong đợi.


Trang web nạo đó cung cấp thuộc tính cho superuser.com với tư cách là tác giả ban đầu (mặc dù họ có thể rõ ràng hơn về điều đó) vì vậy Google nên biết họ là tác giả gốc của nội dung và ưu tiên họ hơn các trang web nạo.
John Conde

@john đúng, chúng tôi yêu cầu ghi công theo dõi, như được ghi lại trên blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood

rằng sơ đồ trang web được lưu trong bộ nhớ cache là "như đã xuất hiện vào ngày 17 tháng 10 năm 2010 05:40:35 GMT", 4 ngày trước khi tôi viết bài này, vì vậy nó không có nhiều. Tôi đã kiểm tra một vài URL trong sitemap.xml được lưu trong bộ nhớ cache đó và chúng cũng tồn tại dưới dạng các trang câu hỏi trong google.
Jeff Atwood

@john bạn có thể đưa ra một ví dụ về cách họ đưa ra sự ghi nhận. Thx
Greg B

@Greg, Chỉ cần tìm logo siêu người dùng
John Conde

2

Với loại điều này có rất nhiều câu trả lời tiềm năng.

Tôi sẽ bắt đầu bằng cách hỏi bạn thực sự có bao nhiêu trang. (bạn đã gửi 50.000 URL một trang web nhanh: superuser.com hiển thị 125.000 URL được lập chỉ mục % đang được lập chỉ mục) nhận được bức tranh lớn giúp chỉ dẫn nơi tìm kiếm các vấn đề.

Nếu không có gì sai với bước một, tôi sẽ chuyển sang nội dung, có vẻ như QH có nhiều nội dung hơn trên trang của họ và liên kết nhiều "tài nguyên" khác mặc dù thực tế là tất cả nội dung của họ đều bị loại bỏ, Google có thể xem xét trang hữu ích hơn vì chúng cung cấp nhiều tài nguyên / thông tin hơn cho người dùng. Nếu họ được coi là người có thẩm quyền và tất cả nội dung của bạn giống như của họ thì có thể Google sẽ không lập chỉ mục cho bạn mặc dù bạn là người gốc.

Nếu bạn tin rằng đó không phải là vấn đề xây dựng một số liên kết chất lượng cao với nó, hãy viết câu hỏi này trên một số blog nhân viên nổi tiếng hoặc nhờ một số bạn bè viết blog về nó, có lẽ nếu bạn có những người bạn SEO chạy blog phổ biến họ sẽ viết nghiên cứu trường hợp về nó, vv

Nếu bạn nhận được rất nhiều liên kết mạnh và nó vẫn không được lập chỉ mục, hãy tìm lý do có thể bị phạt (trong hầu hết các trường hợp, đây không phải là vấn đề nhưng sẽ không bao giờ bị tổn thương khi kiểm tra).

Nếu không có cái nào trong số này hoạt động thì 9 lần trong số 10 đó là một vấn đề kỹ thuật đơn giản đã bị bỏ qua (loại trừ robot hoặc một cái gì đó tương tự).

Nếu bạn vẫn chưa có câu trả lời sau khi trải qua điều này, hãy hỏi Google và hy vọng họ sẽ giúp bạn có câu trả lời.


0

Câu hỏi vừa được hỏi ngày hôm qua - hãy cho googlebot một cơ hội, bạn không phải là trang web duy nhất trên Internet mà anh ấy phải thu thập thông tin mà bạn biết :)

Nếu các câu hỏi thường được lập chỉ mục trong vòng một ngày hoặc lâu hơn, và một tuần trôi qua và câu hỏi đó vẫn chưa được lập chỉ mục, thì tôi có thể lo ngại. Nhưng chắc chắn không phải sau 1 ngày.


1
Chúng thường xuất hiện trong vòng một giờ. Vì vậy, tôi đồng ý, tôi nên cho nó thời gian, nhưng liên quan đến tần suất thông thường của nó ... tôi có.
Michael Pryor

@michael đảm bảo rằng bạn đang so sánh táo với táo - Google dường như lập chỉ mục stackoverflow.com với tốc độ cao hơn NHIỀU so với các trang web khác của chúng tôi.
Jeff Atwood
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.