Trang web dev được Google lập chỉ mục


8

Tôi đã phát triển một phiên bản mới của trang web của chúng tôi trên một tên miền phụ ( dev.oursite.com) và robot.txt với Disallowmột số điểm đã được thay thế tại một số điểm, vì vậy trang web đã được Google và các công cụ tìm kiếm khác lập chỉ mục. Nó không hiển thị cao trong kết quả hoặc bất cứ điều gì, nhưng nó có tất cả nội dung trùng lặp và tôi muốn nó không ở đó.

Tên miền phụ đã biến mất và tôi có 301 chuyển hướng từng trang từ dev.oursite.com/page-nameđến http://oursite.com/page-name.

Có điều gì khác tôi cần làm để xóa trang dev không hiển thị trong Google không? Liệu cuối cùng nó sẽ biến mất?


4
Google có một trang faq hữu ích cho việc này: support.google.com/webmasters/bin/ từ
chrisjlee

Câu trả lời:


7

Kiểm tra công cụ xóa URL trong Công cụ quản trị trang web của Google. Tôi cũng 404 trang thay vì chuyển hướng chúng để xóa chúng nhanh hơn, trong tương lai ngoài robot.txt, bạn có thể rel="canonical"truy cập để đảm bảo Google biết trang web dev chỉ là bản sao của trang chính và không phải là lập chỉ mục.


3

Tôi luôn lo lắng về việc các trang web phát triển sẽ được lập chỉ mục. Tôi không tin tưởng robot.txt hoặc meta noindex, trong khi tôi sử dụng chúng, tôi cũng mật khẩu bảo vệ các trang web nếu điều đó không gây bất tiện. Nhưng một tùy chọn khác là sử dụng .htaccess và từ chối quyền truy cập cho mọi người ngoại trừ IP trong công ty của bạn và cho đồng nghiệp và nhà phát triển. Chỉ cần thêm lớp C.


1
Đây la cach tôt nhât. 403 tất cả mọi người trừ một loạt các địa chỉ hoặc khối địa chỉ. Phần còn lại của thế giới biến mất và chỉ những người cần nhìn thấy nó mới có thể. Sau thực tế cho câu hỏi này, nhưng tốt để biết cho tương lai. Bạn có thể cần một trang dev có thể truy cập riêng tư ngay cả sau khi khởi chạy để thử nghiệm nâng cấp, lập trình tùy chỉnh từ các nhà phát triển bên thứ ba, v.v.
Fiasco Labs

1

Ngoài câu trả lời đúng do Joshak cung cấp, tôi muốn cung cấp cho bạn một mẹo về cách ngăn chặn điều này.

Những gì tôi đã làm để giải quyết vấn đề chính xác này là buộc robot.txt trong định nghĩa httpd của Apache của vhost. Bằng cách này, không có cách nào "không cho phép" có thể biến mất hoặc bị thay đổi bởi bất kỳ mã nào trong trang web đang được phát triển. Các định nghĩa vhost của tôi đều trông giống như thế này:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.