Robot bị từ chối bởi tên miền vẫn được liệt kê trong kết quả tìm kiếm

9

Vì vậy, trên tất cả các trang web của chúng tôi không tìm kiếm phải đối mặt, chúng tôi đã áp dụng tệp robot.txt (theo Cách loại trừ trang web khỏi kết quả tìm kiếm Google thời gian thực?, Hoặc bất kỳ câu hỏi tương tự nào khác).

Tuy nhiên, nếu thuật ngữ tìm kiếm đủ cụ thể, bản thân tên miền có thể được tìm thấy thông qua kết quả. Một ví dụ về điều này có thể được tìm thấy ở đây . Như bạn có thể thấy từ liên kết, tên miền có thể được tìm thấy (nội dung không được lưu trong bộ nhớ cache, nhưng tên miền được liệt kê). Ngoài ra, thực hiện tìm kiếm với site:hyundaidigitalmarketing.com3 kết quả. Kiểm tra backlinks cũng cung cấp một số ít, nhưng rõ ràng tôi không thể ngăn chặn chúng (liên kết được cho phép trong ngữ cảnh) hoặc kiểm soát cách xử lý chúng (không thể nói với chủ nhà thêm nofollow, noindex).

Bây giờ, tôi biết đây là một trường hợp nghiêm trọng, tuy nhiên khách hàng của công ty tôi đang làm điều này. Trên thực tế, tên miền của chúng tôi khá tốt, do đó, ngay cả các tìm kiếm có vẻ tùy tiện cũng cho kết quả có liên quan. Bây giờ, tôi phải viết một báo cáo về cách thức / lý do tại sao điều này xảy ra.

Vì vậy, tôi chuyển sang mạng Stack Exchange tuyệt vời để giúp tôi hiểu những gì tôi đang thiếu hoặc hiểu những gì đang xảy ra. Liên kết đến các bài viết trong ngành là vô cùng hữu ích nhưng, bất cứ điều gì bạn có thể cung cấp rõ ràng là rất tuyệt vời. Tôi dự định cung cấp tiền thưởng tốt nhất có thể để biến câu trả lời này thành tương lai.

Chỉnh sửa: Tôi đã mở một tiền thưởng cho câu hỏi này với hy vọng nhận được nhiều phản hồi hơn về nó. Tôi cũng đã cung cấp kết quả nghiên cứu của riêng tôi dưới đây.

seo robots.txt

— Kevin Peno
nguồn

5

Tôi sẽ phải tìm kiếm nguồn thông tin này nhưng dường như robot.txt sẽ không nhất thiết ngăn trang bị lập chỉ mục. Nhưng tiêu đề thẻ x-robot HTTP rõ ràng không hoạt động.

Nếu bạn đang sử dụng Apache, bạn có thể chặn hàng loạt trang bằng dòng này trong tệp .htaccess:

Header set x-robots-tag: noindex

Hãy thử và xem những gì sẽ xảy ra.

Biên tập

(Tìm thấy một nguồn . Không phải là một trong những tôi nhớ nhưng nó hoạt động).

— John Conde
nguồn

Xin chào, và cảm ơn câu trả lời. Làm thế nào điều này khác với thẻ meta robot đã được triển khai trong đầu ra html của trang web được sử dụng làm ví dụ ở trên? Theo như tôi có thể nói điều này chỉ đóng vai trò thay thế nên bạn không cần phải đặt nó trên mỗi trang.

— Kevin Peno

@Kevin, Họ nên giống nhau về hiệu quả. Điều này sẽ dễ dàng hơn để quản lý như bạn nói.

— John Conde

4

Tôi nghĩ Matt Cutts đã nói về điều này. Nếu bộ nhớ của tôi là chính xác, nó phải làm với liên kết. Đây là nhiều hơn: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=vi

Bạn có thể xóa chúng bằng công cụ xóa Google.

— Joe
nguồn

Bạn có thể thấy tất cả chúng với: site: gmpackageguide.com Không có nhiều URL. Tôi cho rằng họ đã ở trong chỉ số trước khi robot không được phép. Tôi sẽ chỉ loại bỏ chúng.

— Joe

Trong tương lai, tôi sẽ hướng dẫn những người thiết kế web luôn luôn không bao gồm chỉ mục, không theo dõi trong phần đầu trang web. Tôi nghi ngờ CMS bạn đang sử dụng có thể làm điều đó.

— Joe

@Joe - đồng ý, nhưng sẽ khuyến nghị noindex, followđể mọi PageRank được phân phối từ các liên kết ngược có thể xảy ra.

— Mike Hudson

@Joe & @Mike, Cảm ơn thông tin. Tuy nhiên, hãy truy cập trang web: hyundaidigitalmarketing.com. Tôi đã ra mắt trang web này một năm trước. Nó bao gồm cả tệp robots.txt và tiêu đề meta. Tuy nhiên, như bạn có thể thấy biểu mẫu thực hiện tìm kiếm trên google với site:hyundaidigitalmarketing.comhoặc cho các điều khoản hyundai digital marketing, chính tên miền sẽ tiếp tục xuất hiện dưới dạng kết quả đầu tiên và tốt nhất. Tôi cần phải ngăn chặn điều này.

— Kevin Peno

Ngoài ra, một tìm kiếm cho links:hyundaidigitalmarketing.comthấy liên kết trở lại. Tôi rõ ràng không thể ngăn chặn hoặc kiểm soát các liên kết ngược định dạng VÀ chúng có thể hợp lệ. Nếu liên kết đến trang web gây ra điều này, tôi cần phải hiểu làm thế nào / tại sao để tôi có thể giải thích điều này với cấp trên. Tôi hy vọng điều này giải thích câu hỏi của tôi tốt hơn một chút.

— Kevin Peno

3

Dựa trên nghiên cứu của tôi về chủ đề này, tôi đã phát hiện ra rằng không có cách nào đảm bảo 100% để ngăn chặn việc lập chỉ mục và lưu trữ dữ liệu, nhưng bạn có thể đến gần (giả sử bạn muốn xử lý lưu lượng bot tăng). Đây là cách tôi đã giải thích thông tin.

Mọi người sẽ nghĩ rằng tệp robots.txt được sử dụng để xác định thông tin robot trên toàn trang web và thẻ meta được sử dụng cho các chi tiết cụ thể của trang. Tôi nghĩ rằng tinh thần đằng sau 2 là chính xác nhưng đây không phải là trường hợp trong thực tế.

Đừng tạo ra một robots.txt tập tin

Tác phẩm này với tất cả các nhà cung cấp tìm kiếm lớn để ngăn nội dung xuất hiện trên SERP, nhưng không không ngăn lập chỉ mục. Điều này cũng ngăn bot thu thập dữ liệu trang của bạn để bất kỳ thẻ meta robot nào (xem bên dưới) cũng bị bỏ qua. Do đó, bạn không thể sử dụng cả 2 cùng nhau và đây là lý do tại sao, nếu bạn muốn ngăn chặn việc lập chỉ mục, bạn không nên sử dụng tệp robot.txt.

Lưu ý bên lề: Google không hỗ trợ việc sử dụng Noindex: /trong tệp robots.txt, nhưng nó không có giấy tờ (ai biết khi nào nó sẽ bị hỏng) và không biết liệu điều này có hiệu quả với bất kỳ ai khác không.

Sử dụng tiêu đề HTTP hoặc thẻ META HTML để ngăn chặn mọi thứ

Không giống như tệp robot.txt, thẻ meta rô bốt (và Tiêu đề HTTP) được hỗ trợ rộng rãi và đáng ngạc nhiên là tính năng phong phú. Nó được thiết kế để được đặt trên mỗi trang, nhưng việc áp dụng X-Robots-Tagtiêu đề gần đây giúp dễ dàng đặt toàn bộ trang web. Nhược điểm duy nhất với phương pháp này là bot sẽ thu thập dữ liệu trang web của bạn. Điều này có thể được giới hạn bằng cách sử dụng nofollow, nhưng không phải tất cả các bot thực sự tôn trọng nofollow.

Tôi tìm thấy một tấn thông tin trong bài viết này, lỗi thời, blog . Bản phát hành ban đầu của nó là năm 2007 nhưng, vì nhiều thông tin về nó là các tính năng mới hơn kể từ đó, nên nó dường như được cập nhật thường xuyên.

Tóm lại, bạn nên gửi một tiêu đề HTTP của X-Robots-Tag: noindex,nofollow,noodp,noydir. Đây là sự cố tại sao:

nofollownên giới hạn số lượng trang được thu thập trên trang web của bạn, giảm lưu lượng bot. * noindexbảo các công cụ không lập chỉ mục trang.
Bây giờ, bạn có thể cho rằng noindexcó thể là đủ. Tuy nhiên, tôi đã thấy rằng ngay cả khi bạn nói rằng noindextrang web của bạn có thể được lập chỉ mục do các trang web khác liên kết đến nó. Cách tốt nhất để ngăn chặn các liên kết trang web phổ biến từ Y! Thư mục ( noydir) và Thư mục mở ( noodp).
Sử dụng tiêu đề HTTP cũng áp dụng dữ liệu robot cho các tệp, hình ảnh và các tệp không phải HTML khác! YAY!

Điều này sẽ làm việc trong 99% trường hợp. Hãy nhớ rằng mặc dù vẫn có thể được lập chỉ mục trong một số trường hợp bởi một số nhà cung cấp. Google tuyên bố hoàn toàn tôn trọng noindex, nhưng tôi có những nghi ngờ của mình.

Cuối cùng, nếu bạn được lập chỉ mục hoặc đã được lập chỉ mục, cách duy nhất để lấy thông tin của bạn được lập chỉ mục là tuân theo các phương tiện khác nhau từ mỗi nhà cung cấp để yêu cầu xóa trang web / url. Rõ ràng điều này có nghĩa là bạn có thể sẽ muốn theo dõi các trang web / trang bằng cách sử dụng một cái gì đó như Google Alerts (cảm ơn @Joe).

— Kevin Peno
nguồn

3

Tôi nghĩ vấn đề cơ bản của bạn là các liên kết trở lại trang web vì những điều này cung cấp cho các công cụ tìm kiếm một điểm truy cập vào trang web và làm cho họ biết về nó. Vì vậy, mặc dù họ sẽ không hiển thị mô tả cho trang web nhưng họ có thể hiển thị URL nếu họ nghĩ rằng đó là kết quả phù hợp nhất cho kết quả.

Hãy đọc bài viết này được liên kết đến từ một @joe đã đăng: Matt Cutts không ngừng google

Bit chính là:

Có một lý do khá chính đáng cho điều đó: trở lại khi tôi bắt đầu tại Google vào năm 2000, một số trang web hữu ích (eBay, New York Times, California DMV) có các tệp robot.txt cấm mọi trang tìm nạp bất cứ thứ gì. Bây giờ tôi hỏi bạn, chúng ta phải trả lại kết quả tìm kiếm gì khi ai đó thực hiện truy vấn [california dmv]? Chúng tôi sẽ trông khá buồn nếu chúng tôi không trả lại www.dmv.ca.gov như kết quả đầu tiên. Nhưng hãy nhớ rằng: chúng tôi không được phép tìm nạp các trang từ www.dmv.ca.gov vào thời điểm đó. Giải pháp là hiển thị liên kết chưa được chỉnh sửa khi chúng tôi có mức độ tin cậy cao rằng đó là liên kết chính xác. Đôi khi, chúng tôi thậm chí có thể lấy một mô tả từ Dự án thư mục mở, để chúng tôi có thể cung cấp nhiều thông tin cho người dùng ngay cả khi không tìm nạp trang.

Nghiên cứu bạn đã thực hiện cũng bao gồm những điều yên tĩnh và câu trả lời của @john và @joe đều có liên quan. Tôi đã bao gồm một liên kết dưới đây cung cấp một số hướng dẫn thêm về việc chặn các công cụ tìm kiếm. Cách duy nhất tôi có thể nghĩ để chặn hoàn toàn trang web là thêm một số hình thức bảo vệ mật khẩu trước trang web cần được hoàn thành trước khi nội dung được hiển thị.

Lời khuyên của SEOMoz về việc không xuất hiện trong tìm kiếm

— Matthew Brookes
nguồn

Cảm ơn đã thêm vào cuộc thảo luận. Bảo vệ mật khẩu hoạt động tốt để ngăn chặn việc thu thập thông tin, nhưng không ngăn chặn việc lập chỉ mục. Vì robot.txt làm rất tốt trong việc ngăn chặn điều này, lợi thế duy nhất để bảo vệ mật khẩu là nó sẽ ngăn những con mắt tò mò tìm thấy nó. Thật không may, hầu hết nội dung không đủ nhạy cảm để được "bảo vệ" và chắc chắn không cảnh báo các vấn đề về khả năng sử dụng mà nó tạo ra. [tiếp ...]

— Kevin Peno

Một điểm tương tự tôi thấy hữu ích nhất trong nghiên cứu của mình là so sánh với danh bạ điện thoại. Nếu công cụ tìm kiếm là danh bạ điện thoại và bạn yêu cầu không được liệt kê, thì bạn có thể yêu cầu không được liệt kê, bao giờ và họ nên tôn trọng điều đó. Thật không may, các công cụ tìm kiếm đang hoạt động tương tự như các công ty mà các công ty khác bán địa chỉ liên lạc được trao cho bất kỳ ai sẵn sàng trả tiền / yêu cầu.

— Kevin Peno

@Kevin Tôi hiểu những gì bạn đang nói thật không may, tôi không nghĩ rằng nó sẽ có thể bị xóa hoàn toàn với cách các công cụ tìm kiếm hiện tại hoạt động tốt nhất bạn có thể hy vọng chỉ là một danh sách URL trong trường hợp đó.

— Matthew Brookes

Ồ, tôi hiểu điều đó bây giờ (hậu nghiên cứu). Ngoài ra, xin vui lòng không nhận xét của tôi cho câu trả lời của bạn trong bất kỳ ánh sáng tiêu cực. Tôi đánh giá cao sự bổ sung của bạn vào chủ đề, tôi chỉ đơn giản là trả lời để thêm vào những nhược điểm của việc thực hiện một giải pháp như vậy, cộng với việc thêm một chút trò đùa ngoài chủ đề mà tôi cho là. : P

— Kevin Peno