Do các công cụ tìm kiếm vẫn thu thập dữ liệu trang noindex

7

Các công cụ tìm kiếm có thu thập dữ liệu một trang có thuộc tính meta 'noindex' không?

Lý do tôi hỏi là vì chúng tôi có nội dung gần trùng lặp do điều hướng theo khía cạnh và các trang được lọc đã tuyên bố 'noindex' và tôi tự hỏi liệu những trang này có còn bị phát hiện là trùng lặp không?

Tôi có phải thêm thuộc tính 'nofollow' vào liên kết trong khi chúng tôi làm cho các trang này là duy nhất không?

— Sôđa nho
nguồn

Liên quan: webmasters.stackexchange.com/questions/100408/ từ

— Tim Grant

7

Như Goyllo đã nêu, các bot công cụ tìm kiếm sẽ thu thập dữ liệu các trang có noindexthẻ meta. Nếu bạn nghĩ về nó, họ cần thu thập dữ liệu trang để xem noindexthẻ meta ở vị trí đầu tiên. ( X-Robots-TagThay vào đó, bạn có thể sử dụng tiêu đề phản hồi HTTP và theo lý thuyết, bot chỉ cần thực hiện một yêu cầu CHÍNH để xem noindexthuộc tính - nhưng đó không phải là cách Google cuộn.)

Nếu một trang là noindex, nó vẫn có thể follow(theo mặc định, trừ khi bạn nói rõ ràng nofollow), vì vậy trang rõ ràng sẽ cần phải được thu thập thông tin để khám phá bất kỳ liên kết nào để theo dõi.

Tôi có phải thêm thuộc tính 'nofollow' vào liên kết trong khi chúng tôi làm cho các trang này là duy nhất không?

Điều đó chỉ đơn giản là giảm giá liên kết cụ thể từ thuật toán xếp hạng. Vì vậy, liên kết cụ thể đó sẽ không được sử dụng làm yếu tố xếp hạng cho URL mục tiêu. Tôi cho rằng rất có khả năng là có các liên kết bên trong khác đến trang đó?

... Các trang đã tuyên bố 'noindex' và tôi đã tự hỏi liệu những trang này có còn được phát hiện là trùng lặp không?

Bản sao của cái gì? Một trang chỉ có thể được coi là một bản sao (trong mắt của chỉ mục công cụ tìm kiếm) nếu nó được lập chỉ mục. Nếu nó không được lập chỉ mục thì nó không thể là một bản sao.

"Vấn đề" nội dung trùng lặp là nếu bạn có hai (hoặc nhiều) trang trùng lặp đã được thu thập và lập chỉ mục thì công cụ tìm kiếm phải quyết định trang nào sẽ trả về trong SERPs. Trừ khi bạn tự giải quyết nội dung trùng lặp này (chuyển hướng, thẻ chính tắc hoặc đơn giản là làm cho nội dung trở nên độc đáo) thì nó nằm ngoài tầm kiểm soát của bạn - công cụ tìm kiếm đưa ra quyết định cho bạn. Bạn cũng có khả năng làm loãng thứ hạng tìm kiếm của mình khi người dùng khám phá các trang khác nhau và liên kết lại với trang này hoặc trang kia.

Để ngăn một trang được thu thập thông tin (tức là thậm chí không được yêu cầu) thì bạn có thể bao gồm một mục trong robots.txttệp của mình . Tuy nhiên, điều này có nghĩa là các công cụ tìm kiếm sẽ không thể thấy noindexthẻ meta của bạn . Mặc dù điều này sẽ ngăn trang xuất hiện trong kết quả tìm kiếm thông thường , nhưng nó không nhất thiết ngăn trang xuất hiện dưới dạng kết quả chỉ liên kết trong SERPs (tức là "được lập chỉ mục") nếu được liên kết đến. Tuy nhiên, nó vẫn không thể được coi là "trùng lặp" vì nội dung của nó sẽ không được đọc và lập chỉ mục .

— Ông WHITE
nguồn

9

Có, Google vẫn thu thập dữ liệu các trang web có thẻ noindex.

Nhưng nếu bạn có cùng một nội dung trên hai trang web khác nhau và một URL chứa thẻ noindex, trong khi thứ hai thì không, vì vậy bạn không nên lo lắng về điều đó, vì trong số tất cả các nội dung trùng lặp chỉ có một trang web được Google lập chỉ mục. Phần còn lại của các trang web có thể thu thập dữ liệu nhưng không được lập chỉ mục trong kết quả tìm kiếm của Google, vì vậy điều đó là tốt.

— Goyllo
nguồn