Làm thế nào để bạn nói với các công cụ tìm kiếm không lập chỉ mục trang này, nhưng có thể trong tương lai?


8

Công ty tôi làm việc có một hệ thống quản lý nội dung tự động xây dựng các trang cho một số nội dung nhất định.

Ví dụ: Có một trang trong hệ thống của chúng tôi có khả năng hiển thị cho bạn thông tin về bất kỳ nhà soạn nhạc nào trong cơ sở dữ liệu của chúng tôi, tùy thuộc vào các tham số đầu vào và thông tin chúng tôi có về chúng. Tuy nhiên, thỉnh thoảng, có một nhà soạn nhạc không có bất kỳ thông tin nào, do đó trang này hiển thị một trang trống. Làm thế nào chúng ta có thể bảo Google không lập chỉ mục trang tại thời điểm đó, nhưng có thể đôi khi trong tương lai?

Vì nội dung được tạo tự động, chúng tôi không thể chặn các trang hiển thị, vì thông tin về nhà soạn nhạc đó có thể bật lên bất cứ lúc nào.

Biên tập

Xin lưu ý rằng hệ thống CMS của chúng tôi thực hiện tìm nạp rất phức tạp và sâu sắc. Phần nội dung của trang S return trả về một số loại dữ liệu, do đó, việc chạy empty($content) ? xx : yynhư đã được đề xuất không phải là một sửa chữa nhanh chóng. Nếu nhà soạn nhạc không tồn tại, hệ thống sẽ không có trang dành cho nhà soạn nhạc đó, nếu nhà soạn nhạc tồn tại, hệ thống sẽ tồn tại. Khi trang của nhà soạn nhạc đó được hiển thị, hệ thống sẽ tìm kiếm mọi loại tham chiếu đến các nhà soạn nhạc, chẳng hạn như tác phẩm, để tạo một trang động.


2
Chính xác ý bạn là gì bởi "trang trống"? Bạn có nghĩa là không có HTML được gửi? Hoặc bạn có thiết kế 'vỏ' cơ bản nhưng không có nội dung?
Không hài lòngGoat

Câu trả lời:


13

Nếu không có nội dung cho một nhà soạn nhạc cụ thể, hãy sử dụng thẻ meta:

<meta name="robots" content="noindex, follow">

Ngay sau khi nội dung được thêm vào và thẻ meta bị xóa, Google sẽ lập chỉ mục cho nó.

Thí dụ:

<?php if(empty($composerInfoArray)): ?>
    <meta name="robots" content="noindex, follow">
<?php endif; ?>

1
FWIW "theo dõi" là hành vi mặc định, bạn có thể bỏ nó nếu muốn (nó không gây ra vấn đề gì và có lẽ nó có ý nghĩa hơn đối với con người khi đọc nó, vì vậy bạn cũng có thể bỏ nó).
John Mueller

4

Nếu các trang "mất tích" thực sự không chứa thông tin thực tế, nhưng chỉ là các trình giữ chỗ cho "có thể có một trang ở đây trong tương lai", thì tôi khuyên bạn nên định cấu hình máy chủ web của mình để trả về mã trạng thái 404 Không tìm thấy cho chúng.

Các trình duyệt vẫn sẽ hiển thị các trang như vậy cho người dùng, giống như chúng hiển thị các trang lỗi 404 bình thường (ít nhất là miễn là chúng đủ dài ), nhưng các công cụ tìm kiếm sẽ chỉ đơn giản coi trang đó như thể nó không tồn tại.

Đây là phương pháp được Wikipedia sử dụng cho các trang không tồn tại như trang này . Một trong những lợi thế của nó (bên cạnh đó, được cho là chính xác về mặt ngữ nghĩa) là nó đảm bảo rằng các công cụ tìm kiếm sẽ xử lý các trang đó chính xác giống như cách chúng thường xử lý các trang bị thiếu trả về mã trạng thái 404.

Một nhược điểm tiềm năng là, nếu bạn có liên kết đến các trang trả về mã trạng thái 404, chúng sẽ hiển thị dưới dạng "lỗi 404", ví dụ như trong Công cụ quản trị trang web của Google. Tuy nhiên, điều này là hoàn toàn bình thường, và không có gì phải lo lắng .


Để tiếp tục giúp các công cụ tìm kiếm khám phá các trang mới của bạn, khi họ nhận được một số nội dung thực tế và ngừng trả lại 404, bạn cũng nên duy trì sơ đồ trang web XML được cập nhật thường xuyên liệt kê tất cả các trang trên trang web của bạn có nội dung. Điều này cho phép Google và các công cụ tìm kiếm khác khám phá các trang mới trực tiếp thông qua bản đồ trang web, thay vì phải ngẫu nhiên bắt gặp chúng trong khi thu thập lại trang web của bạn.

Thi thiên Xem thêm: Không phải trang chỉ mục không có nội dung liên quan?


Karenon, trả lại 404 tương đương với việc không làm gì cả, đó là hành vi của máy chủ web thông thường; Ví dụ của Wikipedia chỉ là một trang 404 tùy chỉnh.
Binarysurf

1
@Binarysurf: Theo OP, họ đang sử dụng tập lệnh tùy chỉnh để cung cấp nội dung động cho "trang ảo" được tạo từ thông tin được lưu trữ trong cơ sở dữ liệu (giống như Wikipedia, SE và hầu hết các trang web lớn hiện nay). Điều này không có nghĩa là "hành vi máy chủ web thông thường" không áp dụng - theo như máy chủ web (Apache, IIS, nginx, v.v.), tập lệnh tạo nội dung tồn tại và chạy, do đó, nó mặc định là " Phản hồi 200 OK ", trừ khi tập lệnh nói khác đi. Tôi chỉ đề xuất rằng OP nên làm cho kịch bản của họ gửi phản hồi 404, nếu không có nội dung thực tế để hiển thị.
Ilmari Karonen

có một tập lệnh tùy chỉnh lấy dữ liệu của nhà soạn nhạc từ cơ sở dữ liệu, nếu tên của ai đó không có trong đó thì sao? Sử dụng logic, tập lệnh sẽ không nhận được bản ghi từ cơ sở dữ liệu, phải làm gì? có thể nó sẽ gửi 404 không tìm thấy. Nếu tập lệnh tìm thấy thứ gì đó, có thể chỉ là siêu dữ liệu (tên anh ấy) và không có dữ liệu nào khác, nó sẽ gửi 200 và một trang có nội dung trống. Ngay cả khi anh ta có một tập lệnh tùy chỉnh, anh ta sẽ theo dõi hành vi của máy chủ web mặc định?, Hoặc nó sẽ đáp ứng 200 cho mỗi yêu cầu? Nó sẽ trông spam mà không có trọng tâm nội dung cụ thể.
Binarysurf

Khi bạn đang chạy tập lệnh, tập lệnh chịu trách nhiệm gửi mã trạng thái và mã chính xác để gửi khi truy vấn không có kết quả là 404.
Wossname

1

Cá nhân tôi sẽ xây dựng một thông điệp vào hệ thống để cho người dùng biết rằng trong khi yêu cầu của họ được hoàn thành, không có nhà soạn nhạc nào được tìm thấy cho các tham số đã cho. Điều này sẽ khiến người dùng không nghĩ rằng trang / liên kết bị "hỏng".


1

Nếu trang không có nội dung, hệ thống CMS của bạn sẽ không được liên kết với nó. Liên kết đến các trang trống là xấu cho cả người dùng và công cụ tìm kiếm.

Tôi thích đề xuất của Wayne Whitty về cách đặt thẻ meta trên trang của nhà soạn nhạc. Bạn nên tìm cách làm một cái gì đó tương tự ở nơi bạn liệt kê tất cả các nhà soạn nhạc và liên kết với họ:

<?php foreach ($composers as $composer) {
    if ($composer->countCount > 0)
         print "<li><a href=\"$composer->url\">$composer->name</a></li>";
    } 
} ?>

Nếu bạn làm điều này, thì các công cụ tìm kiếm sẽ không còn tìm thấy các trang trống để bắt đầu.


1
... đó là, trừ khi có một cái gì đó có ý nghĩa mà người dùng có thể làm ngay cả với một trang "trống", chẳng hạn như cung cấp thông tin cho nó. (Mặc dù sau đó, có thể tốt hơn là không liên kết trực tiếp đến trang trống, nhưng với một số URL khác cho biết sự vắng mặt (có thể) của dữ liệu. Lưu ý rằng bạn sẽ cần xử lý trường hợp cạnh mà người dùng theo dõi một liên kết như vậy sau khi trang này được tạo gần đây, ví dụ như xem Wikipedia hoạt động như thế nào .)
Ilmari Karonen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.