Nếu mục tiêu của bạn là để các trang này không bị công chúng nhìn thấy, tốt nhất bạn nên đặt mật khẩu cho nhóm trang này. Và / hoặc có một số cấu hình chỉ cho phép các địa chỉ cụ thể, trong danh sách trắng có thể truy cập trang web (điều này có thể được thực hiện ở cấp máy chủ, có thể thông qua máy chủ hoặc quản trị viên máy chủ của bạn).
Nếu mục tiêu của bạn là tồn tại những trang này, không được Google hoặc các công cụ tìm kiếm khác lập chỉ mục, như những người khác đã đề cập, bạn có một vài lựa chọn, nhưng tôi nghĩ điều quan trọng là phải phân biệt giữa hai chức năng chính của Tìm kiếm Google trong điều này giác quan: Thu thập dữ liệu và lập chỉ mục.
Thu thập dữ liệu so với lập chỉ mục
Google thu thập dữ liệu trang web của bạn, Google lập chỉ mục trang web của bạn. Trình thu thập thông tin tìm các trang của trang web của bạn, lập chỉ mục đang tổ chức các trang của trang web của bạn. Thêm thông tin về điều này một chút ở đây .
Việc phân biệt này rất quan trọng khi cố gắng chặn hoặc xóa các trang khỏi "Chỉ mục" của Google. Nhiều người mặc định chỉ chặn thông qua robot.txt, đây là một chỉ thị cho Google biết những gì (hoặc không phải) để thu thập dữ liệu. Người ta thường cho rằng nếu Google không thu thập dữ liệu trang web của bạn thì không thể lập chỉ mục cho trang web đó. Tuy nhiên, rất phổ biến khi thấy các trang bị chặn bởi tệp robots.txt, được lập chỉ mục trong Google.
Chỉ thị cho Google & Công cụ tìm kiếm
Các loại "chỉ thị" này chỉ là các đề xuất cho Google về phần nào trong trang web của bạn để thu thập dữ liệu và lập chỉ mục. Họ không bắt buộc phải theo dõi họ. Điều này rất quan trọng để biết. Tôi đã thấy nhiều nhà phát triển trong những năm qua nghĩ rằng họ chỉ có thể chặn trang web thông qua robot.txt và đột nhiên trang web này được lập chỉ mục trong Google một vài tuần sau đó. Nếu ai đó khác liên kết đến trang web hoặc nếu một trong những trình thu thập thông tin của Google bằng cách nào đó nắm giữ nó, thì nó vẫn có thể được lập chỉ mục .
Gần đây, với bảng điều khiển được cập nhật của GSC (Google Search Console), họ có báo cáo này được gọi là "Báo cáo bảo hiểm chỉ mục". Dữ liệu mới có sẵn cho các quản trị web ở đây không có sẵn trực tiếp trước đó, chi tiết cụ thể về cách Google xử lý một nhóm trang nhất định. Tôi đã thấy và nghe nói về nhiều trang web nhận được "Cảnh báo", được gắn nhãn "Được lập chỉ mục, nhưng bị chặn bởi Robots.txt."
Tài liệu mới nhất của Google đề cập rằng nếu bạn muốn các trang nằm ngoài chỉ mục, hãy thêm các thẻ nofollow noindex vào đó.
Xóa công cụ URL
Chỉ để xây dựng dựa trên những gì một số người khác đã đề cập về "Công cụ xóa URL" ....
Nếu các trang đã được lập chỉ mục và việc khẩn cấp đưa chúng ra, "Công cụ xóa URL" của Google sẽ cho phép bạn "tạm thời" chặn các trang khỏi kết quả tìm kiếm. Yêu cầu kéo dài 90 ngày, nhưng tôi đã sử dụng nó để xóa các trang khỏi Google nhanh hơn so với sử dụng noindex, nofollow, giống như một lớp bổ sung.
Sử dụng "Công cụ xóa URL", Google vẫn sẽ thu thập dữ liệu trang và có thể lưu trữ bộ đệm đó, nhưng trong khi bạn đang sử dụng tính năng này, bạn có thể thêm các thẻ nofollow noindex để nó nhìn thấy chúng và đến 90 ngày lên, hy vọng sẽ biết không lập chỉ mục trang của bạn nữa.
QUAN TRỌNG: Sử dụng cả hai thẻ robots.txt và noindex nofollow là một số tín hiệu mâu thuẫn với Google.
Lý do là, nếu bạn bảo google không thu thập dữ liệu một trang, và sau đó bạn có noindex nofollow trên trang đó, nó có thể không thu thập dữ liệu để xem thẻ nofollow noindex. Sau đó, nó có thể được lập chỉ mục thông qua một số phương pháp khác (cho dù là một liên kết, hoặc không có gì). Các chi tiết về lý do tại sao điều này xảy ra khá mơ hồ, nhưng tôi đã thấy nó xảy ra.
Nói tóm lại, theo tôi, cách tốt nhất để ngăn các URL cụ thể khỏi bị lập chỉ mục là thêm thẻ nofollow noindex vào các trang đó. Với điều đó, hãy đảm bảo rằng bạn cũng không chặn các URL đó bằng robot.txt, vì điều đó có thể ngăn Google nhìn thấy các thẻ đó một cách chính xác. Bạn có thể tận dụng công cụ Xóa URL khỏi công cụ Google để tạm thời ẩn chúng khỏi kết quả tìm kiếm trong khi Google xử lý noindex nofollow của bạn.