Tại sao không cho phép: / tìm kiếm trong Robot.txt của Blogger?


7

Ai đó có thể cho tôi biết điều này có nghĩa gì trong tệp "robot.txt" của Bloggers không? Tôi có cần chỉnh sửa gì trong đó không? Tôi có nên loại bỏ /searchkhỏi Disallow:dòng?

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://css3wdesign.blogspot.com/sitemap.xml

Câu trả lời:


7

Ngoài câu trả lời của Closnoc ...

Tôi có nên loại bỏ /searchkhỏi Disallow:dòng?

Không. Đó là một ý tưởng tốt để chặn các bot thu thập dữ liệu kết quả tìm kiếm của bạn (mà tôi cho rằng đây là những gì đề cập đến).

Bạn thường không muốn các trang kết quả tìm kiếm của mình xuất hiện trong các trang kết quả tìm kiếm của Google! Và Google cũng không muốn điều này. Google muốn lập chỉ mục các trang thực tế của bạn và trả lại những trang này trong SERPs. Cho phép các bot thu thập dữ liệu kết quả tìm kiếm của bạn (có khả năng là vô hạn) cũng có thể sử dụng rất nhiều băng thông không cần thiết.

Tuy nhiên, Mediapartners-Google(bot AdSense của Google) được phép thu thập dữ liệu / kết quả tìm kiếm của bạn. Tôi tin rằng điều này là cần thiết nếu bạn muốn phân phát quảng cáo từ các trang kết quả tìm kiếm của bạn.

Tôi có cần chỉnh sửa gì trong đó không?

Không trừ khi bạn muốn / cần chặn một số bot thu thập dữ liệu các khu vực nhất định trên trang web của bạn. Lưu ý rằng một số bot sẽ hoàn toàn bỏ qua tệp robot.txt của bạn.


1
Bổ sung tuyệt vời! Tôi nghĩ rằng tôi đã viết câu trả lời của tôi quá gần với thời gian ngủ trưa. ;-) +1 trở lại atcha! Cảm ơn bạn đã tham gia.
Closnoc

2
Xem bài đăng trên blog này từ Google Matt Cutts giải thích lý do tại sao Google không muốn lập chỉ mục kết quả tìm kiếm của bạn và lý do tại sao họ phạt các trang web cho phép tìm kiếm trang web được thu thập thông tin: mattcutts.com/blog/search-results-in-search-results
Stephen Ostermiller

1
Trên thực tế / tìm kiếm không chỉ được thực hiện để tìm kiếm bài đăng trên blog blogspot. Nó cũng được sử dụng trong các liên kết nhãn (danh mục) như https://search.googleblog.com/search/label/mobileVà liên kết nhãn hầu hết được hiển thị ở cuối bài đăng trên blog. Vì vậy, tôi nghĩ rằng nhóm blogger nên bao gồm /label/bên ngoài /search/thư mục để làm cho nó bò đúng cách .
Goyllo

3

Robots.txt là một cách để nói với bot (tác nhân robot) nơi chúng có thể đi và không thể đi. Nó được đặt trong thư mục gốc của trang web của bạn như là một tiêu chuẩn dễ dàng tìm thấy. Nó thực sự là đơn giản mà.

Trong ví dụ của bạn:

Tác nhân người dùng: Mediapartners-Google không được phép. Không cho phép: không có gì sau đây là cho phép tất cả (không hạn chế).

Tác nhân người dùng: * là một lệnh áp dụng cho tất cả các bot để không cho phép truy cập URI / search (example.com/search) và cho phép truy cập trang web theo cách khác.

Sơ đồ trang web: cho bot biết rằng bạn có sẵn sơ đồ trang web. Sơ đồ trang web là một tệp định dạng XML (ngôn ngữ đánh dấu dữ liệu được tiêu chuẩn hóa) liệt kê các trang của trang web của bạn. Điều này rất hữu ích cho các công cụ tìm kiếm để biết các trang của bạn. Sơ đồ trang web không phải lúc nào cũng cần thiết, tuy nhiên, nếu một số trang không dễ dàng có sẵn cho công cụ tìm kiếm, sơ đồ trang web giúp công cụ tìm kiếm dễ dàng tìm thấy trang của chúng tôi hơn.


1
"Tác nhân người dùng: * là một chỉ thị áp dụng cho tất cả các bot" ... không khớp với bất kỳ nhóm nào khác , vì vậy nó sẽ không khớp với bot "Mediapartners-Google". (+1)
MrWhite

2

Robots.txt là một tệp mà các trang web khác, ISP và các công cụ tìm kiếm sử dụng để "hỏi bạn" những gì bạn có thể truy cập. Nó cho phép bạn đưa vào danh sách trắng hoặc danh sách đen tất cả hoặc các bot cụ thể từ các khu vực trong vương quốc của bạn. Nó giống như một hiệp ước. Đó là một lời hứa. Những điều tốt đẹp giữ lời hứa, những điều xấu thì không.

Theo như tìm kiếm: Tôi đồng ý rằng trong quá khứ, việc cho phép robot tấn công tìm kiếm là không tốt. Ngày nay, cho phép Google tăng cường tìm kiếm có thể hoạt động tốt ; ít nhất là trong những ngóc ngách nhất định; và bạn thậm chí không cần bộ nhớ đệm tìm kiếm.

Các robot.txt trên các nền tảng của chúng tôi khác nhau, nhưng chúng tôi luôn để lại tìm kiếm không cho phép nhận xét (robot AKA được phép tìm kiếm, nhưng nó đã sẵn sàng để không bị lỗi nếu cần). Có một vài lý do:

  • Điền vào SEO - đôi khi bạn sẽ thấy cửa sổ bật lên kết quả tìm kiếm cho các danh mục bạn đã bỏ lỡ.
  • Điền vào LSI - giúp bạn tạo chất hữu cơ từ chất hữu cơ, tự động
  • Có thể giúp RDF - đây là lợi thế nhưng cho phép G tìm kiếm có thể hiển thị các đoạn mã phong phú nhanh hơn
  • Làm cho cơ quan - Xem một trang tìm kiếm SERP kết quả thống trị chất hữu cơ? Biến nó thành một tàu đổ bộ để đạt được PR
  • Giúp G Hiểu - giữa tìm kiếm tab trong thanh địa chỉ, dạy tìm kiếm phân tích và tham số chuỗi truy vấn của công cụ quản trị trang web, G sẽ hiểu và trợ giúp.

Tìm kiếm các khu vực trong phân tích G, công cụ quản trị trang web G và các khu vực G khác để thiết lập tìm kiếm ngay bây giờ và trong tương lai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.