Sử dụng rel = canonical với cung cấp

Tôi làm việc tại một trang web cho phép cung cấp nội dung (thông qua các kết xuất dữ liệu và API). Chúng tôi thấy rằng một số trang web xuất bản lại nội dung của chúng tôi sẽ xuất hiện cao hơn trong kết quả tìm kiếm của Google, mặc dù chúng tôi là nhà xuất bản gốc. Điều này thật khó chịu.

Chúng tôi đang xem xét thực hiện rel=canonical một phần của các yêu cầu ghi công của chúng tôi. Google cho biết việc sử dụng nó trên các tên miền và trong các tình huống cung cấp là hợp pháp.

Bạn đã làm điều này và Google có xem xét URL chuẩn trong bảng xếp hạng tìm kiếm không? Nó có giúp chúng tôi giảm "thư rác" SERP như vậy không?

— Matt Sherman
nguồn

Những gì bạn mô tả không phải là thư rác. Đó là những người đang làm những gì bạn yêu cầu họ làm - cung cấp nội dung của bạn. Thư rác là quảng cáo email và trang web không được yêu cầu được tạo ra cho mục đích duy nhất là bắn phá mọi người bằng quảng cáo thay vì tạo ra bất cứ thứ gì có giá trị. Nếu đó là các loại trang web cung cấp nội dung của bạn, thì bạn cần xem xét lại mô hình cung cấp của mình hoặc điều đó sẽ phản ánh kém trên trang web của bạn (chỉ thông qua liên kết). Nhưng chỉ đơn giản là có thứ hạng tìm kiếm tốt hơn bạn không tạo ra spam trang web.

— Lèse majesté

@ Lèse thật sao? các trang web này dường như trái trực tiếp của "ít hoặc không có nội dung nguyên bản" quy tắc được thiết lập bởi bản thân Google google.com/support/webmasters/bin/answer.py?answer=66361

— Jeff Atwood

@Jeff: Những trang web nào bạn đang đề cập cụ thể? Tôi đang nói về hành động sử dụng chính tổ chức web, đây là điều mà nhiều trang web hợp pháp làm. Trang web spam không phải sử dụng nội dung được cung cấp và chỉ cần sử dụng nội dung được cung cấp sẽ không biến trang web thành trang web spam (ngay cả khi họ đạt được thứ hạng tốt hơn bạn). Trong trường hợp, nhiều ấn phẩm tin tức lớn sử dụng nội dung được cung cấp từ AP để bổ sung nội dung của riêng họ. Có phải là nội dung trùng lặp? Vâng. Nhưng nó có phải là thư rác không? Không. Và tôi cũng không nghĩ AP đang quảng cáo spam.

— Lèse majesté

@ Lèse từ khóa ở đây được bổ sung nội dung của riêng họ . Nếu TẤT CẢ nội dung được sao chép, chính xác giá trị hoặc lợi ích đang được tạo là gì?

— Jeff Atwood

@Jeff: Không rõ câu hỏi của Matt rằng đó là những trang mà anh ấy đề cập đến. Ông chỉ đơn giản tuyên bố rằng có những trang web xuất bản lại nội dung của mình (mục đích cung cấp API cung cấp) được xếp hạng cao hơn nội dung ban đầu. Điều đó, với tôi, không ngụ ý rằng đây là những trang web spam (nhất thiết). Nhưng có lẽ cách giải thích của tôi về câu hỏi là không chính xác.

— Lèse majesté

Câu trả lời:

Jeff đúng 100% trong mọi điều anh nói.

Một vấn đề khác khi yêu cầu một trang web cung cấp sử dụng <link rel="canonical" href="http://example.com/foo">là nó cho Google biết rằng trang cung cấp sẽ không có Xếp hạng Trang và http://example.com/foothay vào đó nên lấy tất cả.

Điều đó tạo ra hai vấn đề lớn.

Trang cung cấp sẽ không hiển thị ở tất cả các tìm kiếm của Google vì nó không có thứ hạng trang. Trang web cung cấp sẽ không hài lòng nhất về điều này. Làm cho nó không chắc là họ sẽ sẵn sàng để thay đổi nếu họ thậm chí có thể.
Nó có thể không ảnh hưởng đến trang web của bạn theo cách bạn muốn bởi vì bạn thực sự không được liên kết đến từ trang web Cung cấp. Tôi sẽ tự hỏi làm thế nào Google sẽ xử lý này. Đúng là họ cho phép trang web chéo rel = "canonical" nhưng tôi tin rằng mục đích của việc đó là để di chuyển trang web và để có nhiều trang web dưới một máy chủ có cùng một nội dung để có một trang defacto so với một loạt các trang tương tự / giống nhau.

— Ben Hoffman
nguồn

Đó là một số điểm tốt. Tôi nghĩ rằng việc cung cấp là một lĩnh vực có lý do chính đáng để có nội dung trùng lặp. Trong trường hợp này, tốt hơn là để nội dung trùng lặp một mình và chấp nhận rằng đó là sự cung cấp. Tất nhiên, lý tưởng nhất là Google nên ưu tiên cho trang gốc hơn là các trang của đối tác cung cấp. Có lẽ một thẻ mới cần được tạo ra là một cái gì đó giữa rel="canonical"và <cite>thẻ HTML5 . Bằng cách đó, các công cụ tìm kiếm có thể biết trang nào là bản gốc cho nội dung trùng lặp hợp pháp.

— Lèse majesté

xác nhận, xem phản hồi của tôi từ Matt Cutts bên dưới.

— Jeff Atwood

Nghiên cứu của tôi chỉ ra rằng yêu cầu liên kết lại - và liên kết KHÔNG được theo dõi - cho đến nay là tiêu chí quan trọng nhất.

Nếu trang web "cung cấp" không thuộc tính nội dung với các liên kết trở lại bản gốc hợp lệ để các công cụ tìm kiếm theo dõi, thì các công cụ tìm kiếm có thời gian truy tìm nội dung khó hơn nhiều và phải áp dụng phức tạp "tìm nội dung văn bản trùng lặp trên toàn bộ internet "heuristic.

Tôi không chắc chắn nhiều hơn thế là cần thiết.

Video liên quan đến Matt Cutts

http://www.youtube.com/watch?v=x8XdFb6LGtM

Matt nói rằng sẽ là một ý tưởng tốt khi sử dụng rel = "canonical" để quay lại trang có bài viết bắt nguồn - giống như anh ta thường đề xuất rằng các bài báo được cung cấp bao gồm các liên kết thông thường (ví dụ: <a>thẻ nchor) trỏ lại vào bài báo gốc.

Hãy nhớ rằng kinh điển không chỉ là vỗ rel="canonical"vào một <a>thẻ; nó giống như thế này:

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

Vì vậy, nó đòi hỏi một loại công việc khác nhau, bạn phải sửa đổi từng tiêu đề trang. Tôi không chắc chắn nhiều "nhà cung cấp" này sẽ có mức độ kiểm soát đó so với một liên kết đơn giản ( sans nofollow!) Trở lại nguồn.

— Jeff Atwood
nguồn

Tôi cũng khuyên bạn nên đọc bài viết trên blog của Jeff về chủ đề này, Yêu cầu bảo vệ thuộc tính - blog.stackoverflow.com/2010/08/defending-attribution-required

— Scott Mitchell

@scott lưu ý rằng ban đầu chúng tôi không yêu cầu một liên kết được theo dõi, nhưng chúng tôi đã thay đổi điều đó bởi vì con nhện của Google bị thiếu thứ trong dữ liệu của chúng tôi, một số người sử dụng phế liệu sử dụng ... và một liên kết bị thiếu được nofollowed không giúp đưa nó trở lại trong chỉ mục của Google!

— Jeff Atwood

@Jeff: Trên một tiếp tuyến nhỏ, một điều khiến tôi bận tâm là các liên kết trong câu trả lời Stackoverflow có rel = "nofollow". Người dùng có một đại diện nhất định có nên nhận được lợi ích không có rel = "nofollow" đối với các liên kết họ đăng không?

— Scott Mitchell

@scott trường trang web trong hồ sơ của bạn, trên bất kỳ trang web Stack Exchange nào đều bị xóa nofollow tại 2k rep như một phép lịch sự.

— Jeff Atwood

@Jeff, tôi đang nói về các liên kết trong câu trả lời Stackoverflow. Ví dụ: nếu tôi thực hiện chế độ xem / nguồn trên chính trang này, tôi sẽ thấy các liên kết trong câu trả lời của bạn (chẳng hạn như liên kết đến YouTube) có rel = "nofollow". Tôi cho rằng điều này là để can thiệp những người gửi thư rác nhưng đồng thời, dường như bạn đang bỏ lỡ cơ hội cải thiện mức độ liên quan của kết quả tìm kiếm cho người khác, không đề cập đến việc không "cung cấp tín dụng" (trong mắt của Google) cho người đã viết bài viết / mục blog / vv. đang được liên kết đến.

— Scott Mitchell

Thêm một câu trả lời khác vì tôi nhận được phản hồi dứt khoát từ Matt Cutts về điều này:

rel=canonicalkhông hoạt động trên các tên miền, nhưng về cơ bản hoạt động giống như một [chuyển hướng] 301 , vì vậy các trang của trang đích sẽ đi thẳng đến trang web của bạn trong Google. Bất kỳ trang web nào sử dụng nội dung của bạn về cơ bản sẽ bị xóa khỏi các công cụ tìm kiếm.

Giống như Matt nói cách tốt nhất để nghĩ đến rel=canonicallà chuyển hướng vĩnh viễn 301 .

Do đó, yêu cầu tên miền chéo rel=canonicalnhư một tập hợp các điều khoản phân bổ sẽ giống như yêu cầu họ chuyển hướng 301 cho bạn! Ôi. : P

Biết điều này, rõ ràng rel=canonicallà chỉ dành cho sử dụng trên các trang web mà cá nhân bạn có quyền kiểm soát - như khi bạn di chuyển tên miền và bạn cần một nội dung của tên miền để thay thế tên miền khác.

— Jeff Atwood
nguồn