Ý nghĩa của các vấn đề nội dung trùng lặp với các bình luận Drupal là gì?


7

Giả sử chúng ta có một nút được gọi là nút / 123 với các bình luận được kích hoạt. Khi bình luận được tạo, các URL bổ sung được tạo / bình luận / 1, / bình luận / 2 ... và / bình luận / trả lời / 2/1, v.v. Thật không may, các URL mới này là một trang chứa bản sao đầy đủ của nội dung trong trang gốc / nút / 123 hoặc bình luận trả lời. Robot.txt của Core chỉ cóDisallow: /comment/reply/

Sẽ có bất kỳ ý nghĩa nào khi thêm phần sau vào tệp robot.txt? Điều này sẽ được đề xuất (hoặc thậm chí đăng một vấn đề cốt lõi chỉ ra vấn đề này?)

# Paths (clean URLs)
Disallow: /comment/
Disallow: /comment*/
Disallow: /comment/reply/
Disallow: /comment/reply*/
...
# Paths (no clean URLs)
Disallow: /?q=comment/
Disallow: /?q=comment*/
Disallow: /?q=comment/reply/
Disallow: /?q=comment/reply*/

2
Có một cuộc thảo luận tương tự ở đây: drupal.org/node/1680978 cũng kiểm tra mô-đun hộp cát này: Permalinks to Nodepath. drupal.org/sandbox/Ayesh/1578662
gilzero

1
Tôi thực sự sẽ mang nó đến một nơi khác, vì đây là một vấn đề SEO chung và chỉ liên quan một cách lỏng lẻo đến Drupal.
Letharion

2
Ban đầu tôi đã cân nhắc việc này ở một nơi khác, nhưng đây là một vấn đề dành riêng cho Drupal. Có lẽ nó cần một người nào đó để chơi trong đó quen thuộc với SEO và biết Drupal.
Nigel Waters

Câu trả lời:


5

Tôi là tác giả của mô-đun hộp cát đó ( Permalink to Nodepath ) được đề cập trong bình luận đầu tiên cho câu hỏi. Câu trả lời của Mario được mô tả kỹ về các URL chính tắc - nhưng thật không may, đó không phải là hàm ý duy nhất .

Các URL / * nhận xét này là từ Drupal 7. Trong Drupal 6, các bình luận không có URL riêng. URL Canonical có thể giải quyết vấn đề với nội dung trùng lặp, điều này hoàn toàn tốt cho hầu hết các trang web IMO. Nhưng các bình luận spam có thể thêm lỗi 404 và 403 vào danh sách lỗi trang web của bạn nếu muốn. Đây là kinh nghiệm cá nhân của tôi rằng dịch vụ săn spam của tôi không thể xóa một số bình luận nên tôi phải xóa chúng theo cách thủ công. Nhưng Google đã có chúng được lập chỉ mục.

ảnh chụp màn hình các lỗi thu thập dữ liệu trên blog của tôi từ Google Webmaster Central

Vấn đề thực tế là người dùng ẩn danh có thể đăng bất kỳ loại bình luận nào và nếu chúng bị xóa hoặc không được công bố, Google (và các công cụ tìm kiếm khác) ghi lại chúng dưới dạng lỗi thu thập dữ liệu khá khó chịu và có thể nó cũng sẽ ảnh hưởng đến thứ hạng trang của bạn.

Mặt khác, hầu hết các trang web chia sẻ liên kết, bao gồm cả facebook không tôn trọng URL chuẩn. Ví dụ: http://example.com/node/1có thể có 56 lượt thích (facebook) nhưng chúng không được đồng bộ hóa nếu người dùng thích http://example.com/comment/5(giả sử bình luận 5 là một bình luận được thực hiện cho nút 1). Từ lượt xem trên facebook, chúng là 2 URL khác nhau (thực tế chúng là như vậy) nên số lượng khác nhau.

Ngoài ra, các mô-đun như Boost dựa vào cài đặt URI yêu cầu thực tế từ $ _SERVER vẫn còn comment/5(mặc dù URL chính tắc là node/5). Tuy nhiên, bạn có thể thay đổi cấu hình của mô-đun Boost để khắc phục điều này.

Nó khá phổ biến để sử dụng arg(1) để lấy ID nút trong các khối, mô-đun, Chế độ xem tùy chỉnh, v.v. Chúng sẽ hoạt động , bởi vì trong chức năng gọi lại của URL bình luận /%, chức năng đó đặt $_GET['q']thành URL chính tắc. Thay đổi $ _GET này giải quyết hầu hết các vấn đề trong công cụ có thể lập trình.


5

Sau khi điều tra, tôi không nghĩ có vấn đề SEO ở đây. Chắc chắn đó là một sự phiền toái nhưng đó không phải là vấn đề và đây là lý do:

Theo khuyến nghị của Google tại đây http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html trên các URL chính tắc và nội dung trùng lặp, bạn sẽ không gặp vấn đề gì nếu chỉ có nội dung trùng lặp nếu bạn chỉ định đúng URL chuẩn. Ngoài ra, Google (và có lẽ là tất cả các công cụ tìm kiếm khác) sẽ chỉ hiển thị URL chuẩn trong kết quả tìm kiếm chứ không phải các URL khác.

Trong trường hợp của Drupal, các URL chuẩn được đặt đúng. Ví dụ, tôi đã tạo một bài viết thử nghiệm (nút / 2) và thêm nhận xét và trả lời cho nó và nhận được các trang sau:

  • / nút / 2
  • / bình luận / 2
  • / bình luận / 3

Sau khi kiểm tra mã nguồn được tạo, tất cả chúng đều có cùng <link rel="canonical" href="https://drupal.stackexchange.com/node/2" />mã nguồn được tạo đúng. Vì vậy, về cơ bản chỉ có trang bài viết chính sẽ hiển thị trong kết quả tìm kiếm.

Bây giờ, việc sửa đổi lõi để chỉ tạo một trang duy nhất hay để tệp robot.txt được vá như bạn đã chỉ định nằm ngoài tôi. Tôi chắc chắn sẽ có rất nhiều cân nhắc và các trường hợp đặc biệt cần xem xét trước khi thực hiện bất kỳ điều nào ở trên và vì thực sự không có vấn đề gì nên có lẽ tốt nhất là giữ mọi thứ như hiện tại.

Chúc mừng!

Lưu ý: Tôi đang sử dụng Drupal 7.17 (phiên bản mới nhất tính đến hôm nay).


Tôi nghĩ rằng đây chắc chắn là câu trả lời chính xác. node_page_view () thiết lập URL chuẩn ( api.drupal.org/api/drupal/modules%21node%21node.module/feft/, ) vì vậy không có gì phải lo lắng nữa. Nếu bạn không thích các cuộc gọi lại / bình luận /%, bạn chắc chắn có thể thêm chúng vào tệp robots.txt hoặc loại bỏ chúng hoàn toàn thông qua hook_menu_alter ().
Charlie Schliesser

2
Tôi cũng muốn thêm rằng bạn đã có thể truy cập một URL như example.com/node/123, / node / 123 / view / foo, / node / 123 / view / foo / bar / baz và tất cả trả về 200 - cài đặt URL chính tắc giúp trong tất cả các loại trường hợp này.
Charlie Schliesser

Tôi có cùng một vấn đề, nhưng vấn đề của tôi là url chính tắc được bật nhưng KHÔNG trỏ đến trang nút của tôi - thay vào đó, các tiêu chuẩn của tôi đang trỏ đến trang nhận xét / phát lại. Đi đâu để chỉnh sửa để họ chỉ chính xác?
blue928

Kỳ dị! Tôi không nghĩ có một trang quản trị nơi bạn có thể đến và chỉnh sửa chúng. Phiên bản Drupal nào bạn đang sử dụng và bạn đã cài đặt mô-đun nào?
Mario Awad 17/07/13
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.