Nghịch lý Sơ đồ trang web


249

Chúng tôi sử dụng sơ đồ trang web trên Stack Overflow, nhưng tôi có cảm xúc lẫn lộn về nó.

Trình thu thập dữ liệu web thường khám phá các trang từ các liên kết trong trang web và từ các trang web khác. Sơ đồ trang web bổ sung dữ liệu này để cho phép các trình thu thập thông tin hỗ trợ Sơ đồ trang web chọn tất cả các URL trong Sơ đồ trang web và tìm hiểu về các URL đó bằng siêu dữ liệu được liên kết. Sử dụng giao thức Sơ đồ trang web không đảm bảo rằng các trang web được bao gồm trong các công cụ tìm kiếm, nhưng cung cấp gợi ý cho các trình thu thập dữ liệu web để thực hiện công việc thu thập dữ liệu trang web của bạn tốt hơn.

Dựa trên kinh nghiệm hai năm của chúng tôi với sơ đồ trang web, có một điều cơ bản nghịch lý về sơ đồ trang web :

  1. Sơ đồ trang web dành cho các trang web khó thu thập thông tin chính xác.
  2. Nếu Google không thể thu thập dữ liệu trang web của bạn thành công để tìm liên kết, nhưng có thể tìm thấy nó trong sơ đồ trang web, nó sẽ không liên kết sơ đồ trang web và sẽ không lập chỉ mục cho nó!

Đó là nghịch lý sơ đồ trang web - nếu trang web của bạn không được thu thập thông tin chính xác (vì bất kỳ lý do gì), sử dụng sơ đồ trang web sẽ không giúp bạn!

Google cố gắng không đảm bảo sơ đồ trang web :

"Chúng tôi không thể đưa ra bất kỳ dự đoán hoặc đảm bảo về khi nào hoặc nếu URL của bạn sẽ được thu thập thông hoặc thêm vào chỉ mục của chúng tôi" trích dẫn

"Chúng tôi không đảm bảo rằng chúng tôi sẽ thu thập dữ liệu hoặc lập chỉ mục tất cả các URL của bạn. Ví dụ: chúng tôi sẽ không thu thập dữ liệu hoặc lập chỉ mục các URL hình ảnh có trong Sơ đồ trang web của bạn." trích dẫn

"gửi một Sơ đồ trang web không đảm bảo rằng tất cả các trang của trang web của bạn sẽ được thu thập thông hoặc bao gồm trong các kết quả tìm kiếm của chúng tôi" trích dẫn

Cho rằng các liên kết được tìm thấy trong sơ đồ trang web chỉ là các đề xuất , trong khi các liên kết được tìm thấy trên trang web của riêng bạn được coi là hợp quy ... có vẻ như điều hợp lý duy nhất cần làm là tránh có sơ đồ trang web và đảm bảo rằng Google và bất kỳ công cụ tìm kiếm nào khác có thể đúng nhện trang web của bạn bằng cách sử dụng các trang web tiêu chuẩn cũ đơn giản mà mọi người khác nhìn thấy.

Vào thời điểm bạn đã làm điều đó , và được phát hiện tốt và kỹ lưỡng để Google có thể thấy rằng trang web của riêng bạn liên kết đến các trang này và sẽ sẵn sàng thu thập các liên kết - uh, tại sao chúng ta lại cần một sơ đồ trang web? Sơ đồ trang web có thể gây hại tích cực, bởi vì nó làm bạn mất tập trung để đảm bảo rằng các công cụ tìm kiếm có thể thu thập dữ liệu thành công toàn bộ trang web của bạn. "Ồ, không có vấn đề gì nếu trình thu thập thông tin có thể nhìn thấy, chúng ta sẽ tát các liên kết đó trong sơ đồ trang web!" Thực tế hoàn toàn ngược lại trong kinh nghiệm của chúng tôi.

Điều đó có vẻ nhiều hơn một chút mỉa mai khi xem xét sơ đồ trang web dành cho các trang web có bộ sưu tập liên kết rất sâu hoặc giao diện người dùng phức tạp có thể khó bị nhện. Theo kinh nghiệm của chúng tôi, sơ đồ trang web không giúp ích gì, vì nếu Google không thể tìm thấy liên kết trên trang web của bạn một cách phù hợp, thì dù sao nó cũng sẽ không lập chỉ mục từ sơ đồ trang web. Chúng tôi đã thấy điều này được chứng minh hết lần này đến lần khác với các câu hỏi Stack Overflow.

Tôi có lầm không? Các sơ đồ trang web có ý nghĩa không, và bằng cách nào đó chúng ta chỉ sử dụng chúng không đúng cách?


Tôi nghĩ rằng sơ đồ trang web là một công cụ đơn giản hơn cho thời đại đơn giản hơn ... Tôi nghĩ rằng lý do duy nhất để cung cấp một sơ đồ trang web hiện nay là để hỗ trợ con người trong việc điều hướng trang web, mặc dù con người có khuynh hướng kỹ thuật. Tôi không thấy vấn đề với "nếu trang web của bạn không được thu thập thông tin chính xác (vì bất kỳ lý do gì), sử dụng sơ đồ trang web sẽ không giúp bạn!" nhưng nó có thể chỉ là tôi
jcolebrand

3
Trong khi tôi biết rằng Google tạo ra phần lớn lưu lượng truy cập của bạn. Tôi nghĩ điều quan trọng là phải hiểu làm thế nào các con nhện khác dường như sử dụng sơ đồ trang web.
MikeJ

22
@mikej google không phải là "số lượng lớn" lưu lượng truy cập của chúng tôi, nó chiếm 99,6% tổng lưu lượng tìm kiếm và 87% tổng lưu lượng truy cập
Jeff Atwood

2
Jeff, luôn yêu bài viết của bạn ... Tôi chỉ sử dụng sơ đồ trang web XML cho các trang mà google có thể không tìm thấy. Nhưng thực sự tôi đã thất vọng với họ và các công cụ quản trị trang web google. Tôi thành thật nghĩ rằng google thực hiện một công việc đủ tốt để lập chỉ mục nội dung có sẵn trên một trang web. Không có điểm cho một sơ đồ trang web. Bây giờ một sơ đồ trang web để điều hướng người dùng là một ý tưởng thông minh. Tôi thích Bản đồ trang web chân trang Web.2.0 và cố gắng kết hợp chúng trong hầu hết mọi thiết kế mà chúng phù hợp cho ...
Frank

1
@Jeff Atwood: John Mueller đã nói "chúng tôi chọn và lập chỉ mục các URL không được liên kết" - điều này có giải quyết được nghịch lý không?
Rob Olmos

Câu trả lời:


192

Tuyên bố miễn trừ trách nhiệm: Tôi làm việc cùng với nhóm Sơ đồ trang web tại Google, vì vậy tôi hơi thiên vị :-).

Ngoài việc sử dụng rộng rãi Sơ đồ trang web cho nội dung "không phải chỉ mục web" (hình ảnh, video, Tin tức, v.v.), chúng tôi sử dụng thông tin từ các URL có trong tệp Sơ đồ trang web cho các mục đích chính này:

  • Khám phá nội dung mới và cập nhật (tôi đoán đây là nội dung rõ ràng và vâng, chúng tôi cũng chọn và lập chỉ mục các URL không được liên kết từ đó)
  • Nhận biết các URL ưa thích để chuẩn hóa (cũng có nhiều cách khác để xử lý chuẩn hóa )
  • Cung cấp số lượng URL được lập chỉ mục hữu ích trong Công cụ quản trị trang web của Google (các xấp xỉ từ trang web: -queries không thể sử dụng như một số liệu)
  • Cung cấp cơ sở cho các lỗi thu thập thông tin hữu ích (nếu URL có trong tệp Sơ đồ trang web có lỗi thu thập thông tin, đó thường là vấn đề lớn hơn & được hiển thị riêng trong Công cụ quản trị trang web)

Về phía quản trị trang web, tôi cũng thấy các tệp Sơ đồ trang web cực kỳ hữu ích:

  • Nếu bạn sử dụng trình thu thập thông tin để tạo tệp Sơ đồ trang web, thì bạn có thể dễ dàng kiểm tra xem trang web của mình có thể thu thập dữ liệu hay không và xem tận mắt loại URL nào được tìm thấy. Trình thu thập thông tin tìm thấy các URL ưa thích của bạn hoặc có cấu hình không chính xác? Trình thu thập thông tin có bị kẹt trong không gian vô hạn (ví dụ: tập lệnh lịch vô tận) ở đâu đó không? Là máy chủ của bạn có thể xử lý tải?
  • Trang web của bạn thực sự có bao nhiêu trang? Nếu tệp Sơ đồ trang web của bạn "sạch" (không trùng lặp, v.v.), thì điều đó thật dễ kiểm tra.
  • Là trang web của bạn thực sự có thể thu thập dữ liệu mà không cần chạy vào nội dung trùng lặp? So sánh nhật ký máy chủ mà Googlebot để lại với tệp Sơ đồ trang web của bạn - nếu Googlebot đang thu thập các URL không có trong tệp Sơ đồ trang web của bạn, bạn có thể muốn kiểm tra lại liên kết nội bộ của mình.
  • Là máy chủ của bạn đang gặp vấn đề với các URL ưa thích của bạn? Kiểm tra chéo nhật ký lỗi máy chủ của bạn với URL Sơ đồ trang web có thể khá hữu ích.
  • Có bao nhiêu trang của bạn thực sự được lập chỉ mục? Như đã đề cập ở trên, số này được hiển thị trong Công cụ quản trị trang web.

Được cấp, đối với các trang web thực sự nhỏ, tĩnh, dễ thu thập dữ liệu, sử dụng Sơ đồ trang web có thể không cần thiết theo quan điểm của Google một khi trang web đã được thu thập và lập chỉ mục. Đối với bất cứ điều gì khác, tôi thực sự khuyên bạn nên sử dụng chúng.

FWIW Có một số quan niệm sai lầm mà tôi cũng muốn đề cập đến:

  • Tệp Sơ đồ trang web không có nghĩa là "khắc phục" các sự cố thu thập dữ liệu. Nếu trang web của bạn không thể được thu thập thông tin, hãy sửa nó trước .
  • Chúng tôi không sử dụng tệp Sơ đồ trang web để xếp hạng.
  • Sử dụng tệp Sơ đồ trang web sẽ không làm giảm việc thu thập thông tin trang web bình thường của chúng tôi. Đó là thông tin bổ sung, không phải là sự thay thế cho việc thu thập thông tin. Tương tự, không có URL trong tệp Sơ đồ trang web không có nghĩa là nó sẽ không được lập chỉ mục.
  • Đừng bận tâm đến siêu dữ liệu. Nếu bạn không thể cung cấp các giá trị hữu ích (ví dụ: ưu tiên), hãy loại bỏ chúng & đừng lo lắng về điều đó.

Bạn có sử dụng Sơ đồ trang web cho "tự xếp hạng", phải không? Tôi có nghĩa là trong việc xếp hạng nội dung trên một trang web. Nếu không thì tại sao priority?
DisgruntledGoat

7
Phần tử "ưu tiên" là một tín hiệu khá nhỏ đối với chúng tôi, chúng tôi có thể sử dụng nếu chúng tôi rất hạn chế thu thập dữ liệu trên trang web của bạn (chúng tôi không sử dụng nó cho mục đích xếp hạng). Đối với hầu hết các trang web, điều đó sẽ không thành vấn đề, vì vậy thật tốt nếu bạn có thể dễ dàng cung cấp các giá trị hữu ích, nhưng không phải là thứ để mất ngủ nếu bạn không thể. Nếu bạn không thể cung cấp các giá trị hữu ích cho phần tử này và các phần tử dữ liệu meta khác, thì hãy bỏ hoàn toàn các phần tử (không sử dụng các giá trị "mặc định").
John Mueller

Cảm ơn câu trả lời rất nhiều thông tin này. Tôi sẽ ngừng cập nhật sơ đồ trang web của mình và chỉ sử dụng nguồn cấp RSS làm sơ đồ trang web kể từ bây giờ.
Stephan Muller

1
Có thông tin sâu 100 cấp là một "vấn đề về khả năng thu thập dữ liệu" không? Ví dụ: nếu tôi có một cửa hàng trực tuyến và có một danh sách dài các sản phẩm trong một danh mục (giả sử 3000 sản phẩm). Danh sách được phân trang và có 200 trang. Đương nhiên, tôi sẽ không hiển thị tất cả các liên kết. Giống hơn 1 2 3 ... 22 **23** 24 ... 198 199 200. Vì vậy, để tìm một sản phẩm trên trang 100, bạn cần phải đi qua khoảng 100 liên kết. Hoặc sử dụng thanh tìm kiếm. Googlebot sẽ thu thập dữ liệu đó, hoặc nó sẽ bỏ cuộc sau một số cấp độ 20 hoặc hơn? Một sơ đồ trang web sẽ là giải pháp thích hợp ở đây?
Vilx-

1
@Martijn - OK, nhưng nếu bạn cần nhấp vào "Tiếp theo" 200 lần để xem tất cả thì sao? Con nhện sẽ siêng năng nhấp đi, hay nó sẽ bỏ cuộc sau khoảng 30 và nói "chết tiệt đi, tôi không theo chuỗi liên kết đó lâu"?
Vilx-

40

Nếu bạn biết bạn có kiến ​​trúc trang web tốt và Google sẽ tự nhiên tìm thấy các trang của bạn, lợi ích duy nhất tôi biết là lập chỉ mục nhanh hơn, nếu trang web của bạn được lập chỉ mục đủ nhanh cho bạn thì không cần.

Đây là bài viết từ năm 2009, nơi một quý ông đã kiểm tra Google đã thu thập dữ liệu trang web của mình nhanh như thế nào với sơ đồ trang web và không có. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers

Nguyên tắc nhỏ của tôi là nếu bạn khởi chạy một thứ gì đó mới và chưa được kiểm tra, bạn muốn xem cách Google thu thập dữ liệu trang web của bạn để đảm bảo không có gì cần phải sửa, vì vậy, đừng gửi, tuy nhiên, nếu bạn đang thực hiện thay đổi và muốn Google để xem chúng nhanh hơn sau đó gửi hoặc nếu bạn có thông tin nhạy cảm về thời gian khác như tin tức mới sau đó gửi vì bạn muốn làm bất cứ điều gì có thể để đảm bảo bạn là người đầu tiên Google nhìn thấy, nếu không đó là vấn đề ưu tiên.


Sẽ không một nguồn cấp dữ liệu RSS hoàn thành điều tương tự?
Truyền thông Virtuosi

Chắc chắn có rất nhiều điều bạn có thể làm với nguồn cấp RSS để cải thiện việc lập chỉ mục, tuy nhiên, dữ liệu trong bài viết tôi liên kết ở trên sẽ gợi ý rằng sơ đồ trang web hiệu quả hơn sau đó chỉ là nguồn cấp RSS.
Joshak

15

Tôi nghi ngờ: đối với Google, sơ đồ trang web là cần thiết để theo dõi các bản cập nhật một cách nhanh nhất có thể. Ví dụ: giả sử bạn đã thêm một nội dung mới vào một số vị trí sâu của trang web của bạn, phải mất hơn 10-20 lần nhấp để truy cập từ trang chủ của bạn. Để Google tiếp cận trang mới này sẽ ít có khả năng trong một thời gian ngắn - vì vậy, thay vào đó, cho đến khi một đường dẫn đến trang này được xác định hoàn toàn, sự tồn tại của nó được công bố. Rốt cuộc, PageRank không được tính toán ngay lập tức, nó cần có thời gian để đánh giá hành vi của người dùng và như vậy - vì vậy, cho đến lúc đó, tại sao động cơ không nên thu thập dữ liệu và lập chỉ mục một trang có nội dung mới?


4
Các trang web như stackoverflow được thu thập thông tin thường xuyên Tôi sẵn sàng đặt cược nó nhanh hơn sau đó sử dụng sơ đồ trang web.
John Conde

3
@john vẫn vậy, đây là lời giải thích hợp lý duy nhất tôi có thể nghĩ về những gì một sơ đồ trang web thực sự có thể làm cho bạn. "Nó không thể làm tổn thương" là một sự kiềm chế phổ biến nhưng sự tồn tại của sơ đồ trang web là có hại (độ phức tạp bổ sung, v.v.) vì vậy nếu nó không giúp ích, thì nó vẫn là một tiêu cực ròng và nó phải đi.
Jeff Atwood

@Jeff Tôi không đồng ý. Tôi chỉ nói rằng SO không phù hợp với khuôn đó.
John Conde

2
đây là loại xác nhận thông qua liên kết Joshak cung cấp: seomoz.org/blog/do-sitemaps-effect-crawlers
Jeff Atwood

@Jeff Atwood "@John still, ..." đó là điểm mà tôi đang cố gắng thực hiện. Ban đầu nó có lợi, nhưng bây giờ bạn không cần nó. Vậy tại sao bạn kiên trì cố gắng để có nó?
jcolebrand

9

Sơ đồ trang web là vô cùng có giá trị nếu bạn sử dụng chúng một cách chính xác.

Trước hết, thực tế là Google nói rằng họ chỉ là gợi ý cho a) đảm bảo rằng các quản trị web không có ấn tượng sai lầm rằng sitemap = indexation và b) cung cấp cho Google khả năng bỏ qua các sơ đồ trang web nhất định nếu họ cho rằng chúng không đáng tin cậy ( aka Lastmod là ngày hiện tại cho tất cả các URL mỗi ngày chúng được truy cập.)

Tuy nhiên, Google thường thích và sử dụng sơ đồ trang web (thực tế đôi khi họ sẽ tự tìm và thêm chúng vào Công cụ quản trị trang web của Google). Tại sao? Nó làm tăng hiệu quả mà chúng có thể bò.

Thay vì bắt đầu tại một trang web hạt giống và thu thập dữ liệu trên web, họ có thể phân bổ một lượng ngân sách thu thập dữ liệu thích hợp của mình cho một trang web dựa trên sơ đồ trang web đã gửi. Họ cũng có thể xây dựng một lịch sử lớn của trang web của bạn với dữ liệu lỗi liên quan (500, 404, v.v.)

Từ Google:

"Googlebot thu thập dữ liệu web bằng cách theo các liên kết từ trang này sang trang khác, vì vậy nếu trang web của bạn không được liên kết tốt, chúng tôi có thể khó phát hiện ra nó."

Điều họ không nói là việc thu thập dữ liệu trên web rất tốn thời gian và họ thích có một bảng cheat (hay còn gọi là sơ đồ trang web).

Chắc chắn, trang web của bạn có thể chỉ tốt từ góc độ thu thập thông tin, nhưng nếu bạn muốn giới thiệu nội dung mới, bỏ nội dung đó vào sơ đồ trang web với mức độ ưu tiên cao là cách nhanh hơn để được thu thập và lập chỉ mục.

Và điều này cũng hiệu quả với Google, vì họ muốn tìm, thu thập dữ liệu và lập chỉ mục nội dung mới - nhanh chóng. Bây giờ, ngay cả khi bạn không nghĩ rằng Google thích con đường bị đánh bại hơn con dao trên phương pháp đi rừng, vẫn có một lý do khác khiến sơ đồ trang web có giá trị - theo dõi.

Cụ thể, bằng cách sử dụng chỉ mục sơ đồ trang web (http://sitemaps.org/protatio.php#index), bạn có thể chia trang web của mình thành các phần - sơ đồ trang web theo sơ đồ trang web. Bằng cách làm như vậy, sau đó bạn có thể xem tỷ lệ lập chỉ mục của phần trang web của bạn theo từng phần.

Một phần hoặc loại nội dung có thể có tỷ lệ lập chỉ mục 87% trong khi phần khác có thể có tỷ lệ lập chỉ mục 46%. Đó là công việc của bạn để tìm hiểu tại sao.

Để tận dụng hết các sơ đồ trang web, bạn sẽ muốn theo dõi Googlebot (và Bingbot) thu thập dữ liệu trên trang web của bạn (thông qua nhật ký web), khớp chúng với sơ đồ trang web của bạn và sau đó theo dõi tất cả thông qua lưu lượng truy cập.

Đừng đi ngủ trên sơ đồ trang web - đầu tư vào chúng.


2
Tôi không đồng ý, sơ đồ trang web đã từng có một mục đích và bây giờ chúng đã lỗi thời trong quan điểm trung thực của tôi. Nếu trang web của bạn có khả năng thu thập dữ liệu, nó sẽ tìm thấy các liên kết đó, sử dụng RSS, Social Media là những cách tuyệt vời để Google tìm và lập chỉ mục các trang nhanh hơn.
Simon Hayter

8

Theo cách nói của Google: "Trong hầu hết các trường hợp, quản trị viên web sẽ được hưởng lợi từ việc gửi Sơ đồ trang web và trong mọi trường hợp, bạn sẽ không bị phạt vì điều đó."

Nhưng tôi đồng ý rằng điều tốt nhất bạn có thể làm nếu bạn muốn các trang web của bạn xuất hiện trong các công cụ tìm kiếm là đảm bảo chúng có thể thu thập dữ liệu từ trang web một cách thích hợp.


5
vẫn còn một chi phí tinh thần , vì nhận thấy "sự an toàn" của việc có các liên kết được đảm bảo được lập chỉ mục bất kể trạng thái thu thập dữ liệu của trang web của bạn .. điều đó không đúng trong kinh nghiệm của chúng tôi.
Jeff Atwood

7

Tôi tin rằng các công cụ tìm kiếm sử dụng sơ đồ trang web không quá nhiều để tìm các trang, nhưng để tối ưu hóa mức độ thường xuyên họ kiểm tra chúng để cập nhật. Họ nhìn <changefreq><lastmod>. Google có thể thu thập toàn bộ trang web rất thường xuyên (kiểm tra nhật ký của bạn!), Nhưng không phải tất cả các công cụ tìm kiếm đều có tài nguyên để làm điều đó (Có ai đã thử Blekko chưa?). Trong mọi trường hợp vì không có hình phạt cho việc sử dụng chúng và chúng có thể được tạo tự động và dễ dàng tôi sẽ tiếp tục làm điều đó.


4
Tôi tin rằng <priority>lĩnh vực này khá quan trọng, để cho họ biết trang nào là quan trọng nhất. Ví dụ: trên Stack Overflow, bạn có hàng trăm trang thẻ và trang người dùng đều ổn, nhưng không nơi nào quan trọng bằng chính các câu hỏi. Nếu sơ đồ trang web đặt mức độ ưu tiên của câu hỏi thành 1 và mọi thứ khác thấp hơn, các câu hỏi có nhiều khả năng được lập chỉ mục hơn các trang khác.
DisgruntledGoat

6

nếu bạn quan tâm đến chủ đề này, vui lòng đọc bài viết tuyệt vời này của Google http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (april 2009) - đọc toàn bộ bài viết, không chỉ bài viết trên blog .

từ tờ giấy

  • ok, về cơ bản google đấu tranh với cùng một câu hỏi.
  • họ không tiết lộ cách họ xác định giá trị trong sơ đồ trang web, nhưng họ đề cập đến khái niệm liên kết ảo từ trang bắt đầu đến sơ đồ trang web.
  • nhiều thứ thú vị khác

nhưng vâng, sơ đồ trang web chủ yếu được sử dụng để khám phá (quá trình google khám phá công cụ của bạn), không phải để xác định giá trị. nếu bạn vật lộn với khám phá, hãy sử dụng sơ đồ trang web. khám phá là điều kiện tiên quyết để thu thập thông tin, nhưng không chạm vào xác định giá trị.

từ kinh nghiệm của tôi

  • có rất nhiều trang web chỉ sử dụng sơ đồ trang web HTML và XML để liên kết các trang của họ
  • và trong số này, sơ đồ trang web XML được thu thập thông tin tốt hơn nhiều so với sơ đồ trang web HTML. (tôi đã có một cái nhìn thực sự tốt về một số người thực sự lớn)
  • thậm chí có những trang web rất thành công chỉ sử dụng sơ đồ trang web XML.

Khi tôi thực hiện chiến lược SEO cho một trang web có hơn nửa triệu trang tôi sẽ thực hiện

  • trang đích
  • sitemap.xml
  • trang bắt đầu

mọi thứ khác chỉ là "balast" - vâng, những thứ khác có thể có giá trị SEO tích cực, nhưng chắc chắn có giá trị âm: nó làm cho trang web khó quản lý hơn. (ps: để xác định giá trị, tôi liên kết các trang đích theo cách cảm nhận (tác động lớn), nhưng đó đã là bước thứ hai).

về câu hỏi của bạn: xin đừng nhầm lẫn giữa khám phá, thu thập dữ liệu, lập chỉ mục và xếp hạng. bạn có thể theo dõi tất cả chúng một cách riêng biệt và bạn có thể tối ưu hóa tất cả chúng một cách riêng biệt. và bạn có thể tăng cường phát hiện và thu thập thông tin theo cách chính với sơ đồ trang web tuyệt vời (ví dụ: thời gian thực).


5

Sơ đồ trang web có thể lưu ass của bạn.

Trên một trong những trang web của tôi, tôi có một số lượng lớn các liên kết mà tôi ngăn các công cụ tìm kiếm làm hỏng. Tóm lại, Google đã diễn giải sai về JS trong diễn đàn của tôi và kích hoạt rất nhiều mã phản hồi 500 và 403, mà tôi tin là đang ảnh hưởng đến vị trí của trang web. Tôi đã giải quyết vấn đề này bằng cách loại trừ các URL có vấn đề thông qua robot.txt.

Một ngày nọ, tôi đã nhắn tin và làm điều gì đó ngăn Google thu thập dữ liệu một số trang trên trang web mà tôi thực sự muốn lập chỉ mục. Do loại trừ diễn đàn, phần lỗi Công cụ quản trị trang web cho "Bị hạn chế bởi robot.txt" có hơn 4000 trang trong đó, vì vậy tôi sẽ không chọn lỗi này cho đến khi quá muộn.

May mắn thay, vì tất cả các trang "quan trọng" trên trang web của tôi đều nằm trong sơ đồ trang web, tôi đã có thể nhanh chóng phát hiện sự cố này trong danh mục lỗi đặc biệt mà Công cụ quản trị trang web gặp sự cố với các trang trong sơ đồ trang web.

Bên cạnh đó, tôi cũng nhận được rất nhiều lợi ích từ việc sử dụng Chỉ mục Sơ đồ trang web để xác định chất lượng lập chỉ mục của các phần khác nhau trên trang web của tôi, như được đề cập bởi @AJ Kohn.


4

Bản thân tôi không gặp phải vấn đề này, nhưng phần lớn các dự án của tôi là các ứng dụng hoặc trang web yêu cầu tài khoản người dùng nên việc lập chỉ mục bởi các công cụ tìm kiếm không phải là trọng tâm.

Điều đó nói rằng, tôi đã nghe nói rằng SEO về cơ bản đã khiến các sơ đồ trang web trở nên vô dụng. Nếu bạn nhìn vào giao thức, đó là một "hệ thống danh dự" để cho biết tần suất một trang thay đổi và mức độ ưu tiên tương đối của mỗi trang là bao nhiêu. Lý do là các công ty SEO đã sử dụng sai các lĩnh vực - mỗi trang là ưu tiên hàng đầu! mỗi trang thay đổi hàng giờ! - và kết xuất sơ đồ trang web có hiệu quả vô dụng.

Bài viết này từ năm 2008 về cơ bản đã nói và dường như đi đến cùng một kết luận mà bạn làm: sơ đồ trang web khá vô dụng và tốt hơn hết là bạn nên tối ưu hóa nội dung để được lập chỉ mục và bỏ sơ đồ trang web.


3

Hãy để nó bò.

Tôi làm như sau:

  1. làm cho trang web có thể thu thập dữ liệu theo cách cũ.
  2. hãy chắc chắn rằng tôi có một tệp robots.txt với chỉ dẫn sơ đồ trang web trên đó.
  3. tạo sơ đồ trang web XML, nhưng không gửi. Hãy để trình thu thập thông tin khám phá và sử dụng nó khi cần thiết, như là một phần của quá trình khám phá và lập chỉ mục của nó.

Tôi tạo một tệp XML mở rộng, làm cơ sở cho nhiều thứ:

  • Tạo sơ đồ trang web HTML
  • Giúp trang 404 (không tìm thấy)
  • Trợ giúp với các tác vụ nhỏ khác, như tạo mẩu bánh mì hoặc nhận một số siêu dữ liệu trên mẫu Mặt tiền của tôi cho một trang.

Do đó tôi có tất cả những thứ này, tại sao không phục vụ sơ đồ trang web xml và để trình thu thập thông tin làm những gì nó muốn làm, nếu nó muốn làm điều đó?


3

Jeff, tôi không biết gì về Stackoverflow bởi vì tôi chưa bao giờ có cơ hội trở thành quản trị trang web của một trang web lớn và được cập nhật thường xuyên như vậy.

Đối với các trang web nhỏ không thường xuyên thay đổi, tôi nghĩ rằng sơ đồ trang web khá hữu ích (không nói rằng sơ đồ trang web là điều quan trọng nhất, nhưng khá hữu ích có) vì hai lý do:

  1. Trang web được thu thập nhanh chóng (lý do tương tự được giải thích bởi câu trả lời của Joshak ở trên ) và theo kinh nghiệm nhỏ của tôi, tôi đã nhận thấy điều này nhiều lần với các trang web nhỏ (tối đa 30/50 trang)

  2. Sau vài tuần tôi đã gửi sơ đồ trang web, tôi tìm trong "Công cụ quản trị trang web của Google - Sơ đồ trang web" và tôi có thể thấy số lượng URL được gửi trong sơ đồ trang web so với số lượng URL trong chỉ mục web . Nếu tôi thấy rằng họ giống nhau, thì tốt. Nếu không, tôi có thể kiểm tra ngay lập tức trong trang web của mình những trang nào không được lập chỉ mục và tại sao.


3

Đây là (lần đầu tiên?) Được viết bởi Randfish tại SEOmoz vào năm cũ tốt đẹp năm 2007. Lần đầu tiên anh ta đi đến những kết luận tương tự, nhưng rồi thời gian đã xảy ra ... và đã qua.

Kể từ đó (tháng 1 năm 2009), ông đã thêm một phần tái bút vào bài báo nói rằng mọi nhược điểm có thể xảy ra chỉ đơn giản là vượt trội so với kết quả tích cực chung của việc tạo, xác minh và gửi sơ đồ trang web.

Cập nhật ngày 5 tháng 1 năm 2009 - Tôi thực sự đã thay đổi suy nghĩ về lời khuyên này. Có, sơ đồ trang web vẫn có thể gây ảnh hưởng đến các vấn đề kiến ​​trúc, nhưng với kinh nghiệm tôi đã có hơn 1,5 năm qua, tôi hiện đề xuất với tất cả các khách hàng của chúng tôi (và gần như mọi người khác hỏi) rằng sơ đồ trang web được gửi. Các mặt tích cực về thu thập thông tin, lập chỉ mục và lưu lượng truy cập chỉ đơn giản là vượt trội hơn các nhược điểm.


2

Tôi tin rằng SiteMaps chỉ phục vụ hai mục đích trong những ngày này:

  • Chúng cho phép bạn giảm tần suất spidering để giảm tải máy chủ. Điều này không thực sự là một vấn đề cho hầu hết các trang web.
  • Họ có thể giúp thực thi lại những gì công cụ tìm kiếm đã biết về bạn. Liệt kê tên trang và rõ ràng việc thêm trọng số phù hợp cho mỗi trang, giúp công cụ tìm kiếm xác thực các số liệu của chính nó để xếp hạng kiến ​​trúc trang web của bạn.

1

KHÔNG SỬ DỤNG TRANG WEB

Sơ đồ trang web chủ yếu dành cho các trang web không có dấu thời gian chỉ mục và nút .... SE làm cả hai cho nội dung cốt lõi của nó, vì vậy việc có sơ đồ trang web sẽ làm chậm trình thu thập thông tin ... Vâng, đúng vậy, nó sẽ làm chậm nó, vì sơ đồ trang web thiếu siêu dữ liệu mà các chỉ mục cốt lõi có. Trên flipside, tôi không có ý tưởng thực sự về cách google xây dựng các bot của nó, chỉ cần biết nếu tôi sẽ vào bot SE, tôi sẽ KHÔNG sử dụng sơ đồ trang web. Ngoài ra, một số trang web thậm chí không nhận thấy rằng sơ đồ trang web của họ đều là%! @ $ - và nếu bạn đã tạo một hồ sơ trên sơ đồ trang web thì tất cả đều không hoạt động và bạn phải tạo một hồ sơ mới từ trang web thực sự.

Vì vậy, bạn đã đúng - KHÔNG SỬ DỤNG SITemaPS!

MIPO: Một điều bạn nên làm là giữ cho ngữ nghĩa của các thẻ giống nhau theo thời gian càng nhiều càng tốt, nghĩa là nếu "Hỏi một giờ trước" có siêu dữ liệu được nhúng trong đó như:

title="2010-11-02 00:07:15Z" class="relativetime"

không bao giờ thay đổi tên chuỗi relativetime, trừ khi ý nghĩa của dữ liệu trong titleđã thay đổi. KHÔNG BAO GIỜ... :-)


1

Gần đây tôi đã cấu trúc lại một trang web mà tôi vẫn đang làm việc. Vì không có cách nào tốt để tôi có thể thấy để liên kết 500.000 trang để giúp người dùng, tôi đã quyết định sử dụng sơ đồ trang web XML và gửi nó cho Google và sử dụng tìm kiếm trang web thay thế. Google không gặp vấn đề gì khi lập chỉ mục trang web của tôi trước đó, tuy nhiên, kể từ khi thêm sơ đồ trang web, Google rất tích cực trong việc làm gián đoạn trang web của tôi và lập chỉ mục các trang cực kỳ nhanh. Google đã sử dụng sơ đồ trang web để tìm các trang mới (khoảng 3300 mỗi tuần) và xem lại các trang được cập nhật. Nó đã là một chiến thắng thực sự trong cuốn sách của tôi. Tôi vẫn muốn tìm ra một cách mới để liên kết các trang của mình và sử dụng AJAX để tra cứu, nhưng đó là một dự án cho một ngày khác. Càng xa càng tốt! Nó đã là một giải pháp tốt cho tôi. Tất cả và tất cả, tôi đã đạt được và không mất đi. Điều này thật thú vị vì tôi luôn cảm thấy rằng sơ đồ trang web thực sự có thể hữu ích hơn nhưng bị giới hạn bởi thiết kế của nó.


0

Tôi nghe nói rằng sơ đồ trang web đưa các trang của bạn vào chỉ mục bổ sung nhanh hơn. Nhưng tôi thậm chí không nghe thấy chỉ số bổ sung được đề cập trong các thời đại, vì vậy họ có thể không sử dụng nó nữa.

PS trong trường hợp tuyên bố của tôi không đủ rõ ràng, nằm trong chỉ số bổ sung là (hoặc là) một điều BAD ... do đó, sơ đồ trang web là (hoặc là) BAD.


0

Chúng tôi sử dụng sơ đồ trang web (không được gửi đến các công cụ tìm kiếm, nhưng được liên kết trong robots.txt) chủ yếu để đảm bảo trang chủ có mức cao nhất <priority>. Tôi không chắc liệu chúng có nhiều công dụng khác không.


0

Tôi không đồng ý rằng google sẽ không lập chỉ mục các liên kết chỉ có sơ đồ trang web. Tôi có nhiều trang web có các trang chỉ có thể truy cập thông qua sơ đồ trang web và google lập chỉ mục chúng mà không gặp sự cố. Tôi có thể đưa ra nhiều ví dụ về điều này.


những trang này cũng được liên kết bên ngoài trang web của bạn?
Jeff Atwood

0

Một trang web được xây dựng tốt không cần sơ đồ trang web mặc dù nó có thể hỗ trợ phạm vi và xếp hạng của chúng tôi và thêm một chút giá trị như ưu tiên, tần suất cập nhật, v.v. Bạn có thể nói với công cụ tìm kiếm này ... Tôi đã cập nhật trang này một nơi nào đó ở giữa trang web của tôi mà không yêu cầu thu thập dữ liệu đầy đủ. Tôi chưa bao giờ nhìn vào các mẫu thu thập thông tin nhưng người ta sẽ hy vọng nó có ích.

Phải nói rằng điểm cộng thực sự đối với tôi là các công cụ quản trị trang web và cái nhìn sâu sắc mà nó mang lại cho bạn về khả năng hiển thị trang web của bạn và người dùng của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.