Làm thế nào để ngăn chặn các url nhất định khỏi bị lập chỉ mục

8

Khi tôi nhập site:example.com(sử dụng tên miền rõ ràng), tôi gặp một số lỗi liên kết hiển thị trong danh sách. Thông thường, chúng có dạng:/some/fixed/path/admin/unblockUser/11

Tôi đang nghĩ đến việc thêm dòng sau vào robots.txttập tin của mình :

Disallow: /some/fixed/path/admin/*

— Simon Hayter
nguồn

18

Có 2 cách chính để ngăn công cụ tìm kiếm lập chỉ mục các trang cụ thể :

Một tệp Robots.txt cho tên miền của bạn.
Thẻ Meta Robots trên mỗi trang.

Robots.txt phải là điểm dừng đầu tiên của bạn cho các mẫu URL khớp với một số tệp. Bạn có thể xem cú pháp ở đây và chi tiết hơn ở đây . Tệp robot.txt phải được đặt trong thư mục gốc của tên miền của bạn, tức là tại http://www.yourdomain.com/robots.txt, và nó sẽ chứa một cái gì đó như:

User-agent: *
Disallow: /path/with-trailing-slash/

(Việc tô màu văn bản ở trên được thực hiện bởi phần mềm Stackexchange và nên được bỏ qua.)

Thẻ Meta Robots linh hoạt và có khả năng hơn , nhưng phải được chèn vào mọi trang bạn muốn tác động.

Một lần nữa, Google có tổng quan về cách sử dụng Meta Robots và cách xóa các trang khỏi chỉ mục của chúng thông qua Công cụ quản trị trang web. Wikipedia có tài liệu toàn diện hơn về Meta Robots , bao gồm các dẫn xuất cụ thể của công cụ tìm kiếm.

Nếu bạn muốn cấm Google, Lưu trữ web và các công cụ tìm kiếm khác giữ một bản sao của trang web của bạn, thì bạn muốn có thẻ sau (hiển thị ở định dạng HTML4):

<meta name="robots" content="noarchive">

Để ngăn chặn việc lập chỉ mục và giữ một bản sao :

<meta name="robots" content="noindex, noarchive">

Và để ngăn chặn cả hai điều trên , cũng như sử dụng các liên kết trên trang để tìm thêm các trang để lập chỉ mục:

<meta name="robots" content="noindex, nofollow, noarchive">

Lưu ý 1: Tất cả 3 thẻ meta ở trên chỉ dành cho các công cụ tìm kiếm - chúng không ảnh hưởng đến proxy hoặc trình duyệt HTTP.

Lưu ý 2: Nếu bạn đã có các trang được lập chỉ mục và lưu trữ và bạn chặn các trang thông qua robot.txt trong khi đồng thời thêm thẻ meta vào cùng một trang, thì robot.txt sẽ ngăn công cụ tìm kiếm nhìn thấy thẻ meta được cập nhật.

— Dòng Tên
nguồn

1

Bị hạ bệ? Tại sao trên trái đất này đã bị hạ cấp? Vui lòng để lại một bình luận nếu bạn bỏ phiếu xuống để câu trả lời có thể được cải thiện.

— Jesper M

@Jesper Mortensen Câu trả lời ban đầu của bạn không đề cập đến câu hỏi bộ đệm. Chỉnh sửa của bạn đã sửa lỗi này và làm cho thông tin noindex tốt hơn nhiều. +1 ngay bây giờ ;-)

— mawtex

1

Một điều cần lưu ý là lệnh robot.txt không cho phép lập chỉ mục URL cũng như không dẫn đến việc xóa URL đó khỏi chỉ mục. Các công cụ tìm kiếm có thể và sẽ lập chỉ mục các URL mà không cần thu thập chúng (nếu chúng không được phép), vì vậy, nếu việc ngăn chặn các URL không được lập chỉ mục là rất quan trọng (và không chỉ dừng việc nội dung được lập chỉ mục), thì bạn phải sử dụng thẻ meta của robot hoặc x -robots-tag HTTP tiêu đề và đảm bảo rằng các URL không được phép thu thập dữ liệu.

— John Mueller

1

Ngoài ra, mặc dù không nhất thiết không chính xác, thẻ meta robot có "noindex, noarchive" tương đương với "noindex" (khi URL không được lập chỉ mục, nó cũng không được lưu trữ / lưu trữ).

— John Mueller

1

Cuối cùng (xin lỗi vì đã thêm rất nhiều bình luận :-)), trong trường hợp cụ thể này (trang quản trị), tôi sẽ chỉ đảm bảo rằng các URL trả về 403 khi không đăng nhập. Điều đó cũng ngăn công cụ tìm kiếm lập chỉ mục và rõ ràng hơn về mặt lý thuyết hơn là có một trang trả về 200+ bằng cách sử dụng thẻ meta robot noindex. Kết quả cuối cùng giống nhau trong kết quả tìm kiếm, nhưng sử dụng mã kết quả HTTP phù hợp có thể giúp bạn nhận ra các truy cập quản trị trái phép trong nhật ký của bạn dễ dàng hơn.

— John Mueller

5

Thực sự có một cách thứ ba để ngăn Google và các công cụ tìm kiếm khác lập chỉ mục URL. Đó là X-Robots-TagTiêu đề phản hồi HTTP . Điều này tốt hơn sau đó là thẻ meta vì nó hoạt động cho tất cả các tài liệu và bạn có thể có nhiều hơn một thẻ.

Các thẻ REP META cung cấp cho bạn quyền kiểm soát hữu ích về cách mỗi trang web trên trang web của bạn được lập chỉ mục. Nhưng nó chỉ hoạt động cho các trang HTML. Làm cách nào bạn có thể kiểm soát quyền truy cập vào các loại tài liệu khác, chẳng hạn như tệp Adobe PDF, tệp video và âm thanh và các loại khác? Chà, giờ đây tính linh hoạt tương tự để chỉ định thẻ cho mỗi URL có sẵn cho tất cả các loại tệp khác.

Chúng tôi đã mở rộng sự hỗ trợ của chúng tôi cho các thẻ META để giờ đây chúng có thể được liên kết với bất kỳ tệp nào. Chỉ cần thêm bất kỳ thẻ META được hỗ trợ nào vào lệnh X-Robots-Tag mới trong Tiêu đề HTTP được sử dụng để phân phát tệp. Dưới đây là một số ví dụ minh họa: Không hiển thị liên kết bộ đệm hoặc đoạn trích cho mục này trong kết quả tìm kiếm của Google: X-Robots-Tag: noarchive, nosnippet Đừng đưa tài liệu này vào kết quả tìm kiếm của Google: X-Robots-Tag : noindex Hãy cho chúng tôi biết rằng một tài liệu sẽ không có sẵn sau ngày 7 tháng 7 năm 2007, 4:30 chiều GMT: X-Robots-Tag: không có sẵn_ sau: 7 tháng 7, 2007 16:30:00 GMT

Bạn có thể kết hợp nhiều chỉ thị trong cùng một tài liệu. Ví dụ: Không hiển thị một liên kết được lưu trong bộ nhớ cache cho tài liệu này và xóa nó khỏi chỉ mục sau ngày 23 tháng 7 năm 2007, 3 giờ chiều PST: X-Robots-Tag: noarchive X-Robots-Tag: không có sẵn_ sau: 23 tháng 7 năm 2007 15:00:00 PST

— John Conde
nguồn

Liên kết 'X-Robots_tag tiêu đề' bị hỏng.

— mawtex

Cảm ơn cho những người đứng đầu lên. Chrome dường như có vấn đề với thanh công cụ định dạng và nó đã thêm văn bản bổ sung vào liên kết.

— John Conde

1

Vâng, điều đó sẽ khắc phục vấn đề. Để ngăn nội dung hiển thị trong các chỉ mục của Google, bạn có thể sử dụng robot.txt hoặc thẻ meta html

<meta name="robots" content="noindex, nofollow" />

Lần tiếp theo trang web của bạn được lập chỉ mục này sẽ làm cho nội dung của bạn thoát khỏi chỉ mục Google.

Bạn cũng có thể cho bạn noarchivegiá trị - điều này sẽ chặn bộ nhớ đệm của trang của bạn. Đây là Google cụ thể:

<meta name="robots" content="noarchive" />

Bạn có thể sử dụng 'công cụ xóa' trong Công cụ quản trị trang web của Google để yêu cầu xóa nội dung rất khẩn cấp. Lưu ý rằng trước tiên bạn nên chặn lập chỉ mục nội dung của mình (sử dụng thẻ robots.txt hoặc thẻ meta robot).

Thêm thông tin:

— mawtex
nguồn

1

Nếu mục tiêu của bạn là để các trang này không bị công chúng nhìn thấy, tốt nhất bạn nên đặt mật khẩu cho nhóm trang này. Và / hoặc có một số cấu hình chỉ cho phép các địa chỉ cụ thể, trong danh sách trắng có thể truy cập trang web (điều này có thể được thực hiện ở cấp máy chủ, có thể thông qua máy chủ hoặc quản trị viên máy chủ của bạn).

Nếu mục tiêu của bạn là tồn tại những trang này, không được Google hoặc các công cụ tìm kiếm khác lập chỉ mục, như những người khác đã đề cập, bạn có một vài lựa chọn, nhưng tôi nghĩ điều quan trọng là phải phân biệt giữa hai chức năng chính của Tìm kiếm Google trong điều này giác quan: Thu thập dữ liệu và lập chỉ mục.

Thu thập dữ liệu so với lập chỉ mục

Google thu thập dữ liệu trang web của bạn, Google lập chỉ mục trang web của bạn. Trình thu thập thông tin tìm các trang của trang web của bạn, lập chỉ mục đang tổ chức các trang của trang web của bạn. Thêm thông tin về điều này một chút ở đây .

Việc phân biệt này rất quan trọng khi cố gắng chặn hoặc xóa các trang khỏi "Chỉ mục" của Google. Nhiều người mặc định chỉ chặn thông qua robot.txt, đây là một chỉ thị cho Google biết những gì (hoặc không phải) để thu thập dữ liệu. Người ta thường cho rằng nếu Google không thu thập dữ liệu trang web của bạn thì không thể lập chỉ mục cho trang web đó. Tuy nhiên, rất phổ biến khi thấy các trang bị chặn bởi tệp robots.txt, được lập chỉ mục trong Google.

Chỉ thị cho Google & Công cụ tìm kiếm

Các loại "chỉ thị" này chỉ là các đề xuất cho Google về phần nào trong trang web của bạn để thu thập dữ liệu và lập chỉ mục. Họ không bắt buộc phải theo dõi họ. Điều này rất quan trọng để biết. Tôi đã thấy nhiều nhà phát triển trong những năm qua nghĩ rằng họ chỉ có thể chặn trang web thông qua robot.txt và đột nhiên trang web này được lập chỉ mục trong Google một vài tuần sau đó. Nếu ai đó khác liên kết đến trang web hoặc nếu một trong những trình thu thập thông tin của Google bằng cách nào đó nắm giữ nó, thì nó vẫn có thể được lập chỉ mục .

Gần đây, với bảng điều khiển được cập nhật của GSC (Google Search Console), họ có báo cáo này được gọi là "Báo cáo bảo hiểm chỉ mục". Dữ liệu mới có sẵn cho các quản trị web ở đây không có sẵn trực tiếp trước đó, chi tiết cụ thể về cách Google xử lý một nhóm trang nhất định. Tôi đã thấy và nghe nói về nhiều trang web nhận được "Cảnh báo", được gắn nhãn "Được lập chỉ mục, nhưng bị chặn bởi Robots.txt."

Tài liệu mới nhất của Google đề cập rằng nếu bạn muốn các trang nằm ngoài chỉ mục, hãy thêm các thẻ nofollow noindex vào đó.

Xóa công cụ URL

Chỉ để xây dựng dựa trên những gì một số người khác đã đề cập về "Công cụ xóa URL" ....

Nếu các trang đã được lập chỉ mục và việc khẩn cấp đưa chúng ra, "Công cụ xóa URL" của Google sẽ cho phép bạn "tạm thời" chặn các trang khỏi kết quả tìm kiếm. Yêu cầu kéo dài 90 ngày, nhưng tôi đã sử dụng nó để xóa các trang khỏi Google nhanh hơn so với sử dụng noindex, nofollow, giống như một lớp bổ sung.

Sử dụng "Công cụ xóa URL", Google vẫn sẽ thu thập dữ liệu trang và có thể lưu trữ bộ đệm đó, nhưng trong khi bạn đang sử dụng tính năng này, bạn có thể thêm các thẻ nofollow noindex để nó nhìn thấy chúng và đến 90 ngày lên, hy vọng sẽ biết không lập chỉ mục trang của bạn nữa.

QUAN TRỌNG: Sử dụng cả hai thẻ robots.txt và noindex nofollow là một số tín hiệu mâu thuẫn với Google.

Lý do là, nếu bạn bảo google không thu thập dữ liệu một trang, và sau đó bạn có noindex nofollow trên trang đó, nó có thể không thu thập dữ liệu để xem thẻ nofollow noindex. Sau đó, nó có thể được lập chỉ mục thông qua một số phương pháp khác (cho dù là một liên kết, hoặc không có gì). Các chi tiết về lý do tại sao điều này xảy ra khá mơ hồ, nhưng tôi đã thấy nó xảy ra.

Nói tóm lại, theo tôi, cách tốt nhất để ngăn các URL cụ thể khỏi bị lập chỉ mục là thêm thẻ nofollow noindex vào các trang đó. Với điều đó, hãy đảm bảo rằng bạn cũng không chặn các URL đó bằng robot.txt, vì điều đó có thể ngăn Google nhìn thấy các thẻ đó một cách chính xác. Bạn có thể tận dụng công cụ Xóa URL khỏi công cụ Google để tạm thời ẩn chúng khỏi kết quả tìm kiếm trong khi Google xử lý noindex nofollow của bạn.

— đánh thức zombie
nguồn