Robot.txt tốt là gì?


7

Thiết lập "tốt nhất" để làm robots.txtgì?
Tôi đang sử dụng cấu trúc permalink sau đây /%category%/%postname%/.

robots.txtHiện tại của tôi trông như thế này (được sao chép từ đâu đó từ lâu):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
  1. Tôi muốn bình luận của tôi được lập chỉ mục. Vì vậy, tôi có thể loại bỏ điều này
  2. Tôi có muốn không cho phép các danh mục lập chỉ mục vì cấu trúc permalink của tôi không?
  3. Một bài viết có thể có một số thẻ và có nhiều loại. Điều này có thể gây ra sự trùng lặp trong các nhà cung cấp dịch vụ tìm kiếm như Google. Làm thế nào tôi nên làm việc xung quanh này?

Bạn sẽ thay đổi bất cứ điều gì khác ở đây?


Bạn có thể nhận được câu trả lời tốt hơn trên Sàn giao dịch quản trị trang web chuyên nghiệp , sau đó quay lại đây để biết cách triển khai các mẹo này với WordPress.
Jan Fabry

Đó là điều đầu tiên tôi làm. Nhưng vì đây là WP cụ thể, tôi đã xóa Q của mình và đăng nó ở đây thay vào đó - vì điều này liên quan đến wp nhiều hơn ....
Steven

Tái bút Việc thực hiện chỉ là đưa robots.txtthư mục WP của tôi vào.
Steven

Câu trả lời:


3

FWIW, URL theo dõi phát hành các chuyển hướng và không có nội dung, vì vậy chúng sẽ không được lập chỉ mục.

Và có nguy cơ không trả lời được câu hỏi, RE điểm của bạn 2 và 3:

http://googlewebmastercentral.blogspot.com/2008/09/demystifying-dsplate-content-penalty.html

Nói cách khác, tôi nghĩ rằng bạn đang lãng phí thời gian để lo lắng về nội dung kép và robot.txt của bạn nên được giới hạn ở:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache

Cảm ơn vì điều đó. Tuy nhiên tôi sẽ không chỉ mục tác giả. Các tác giả đến và đi. Nếu tôi xóa một cái, tôi sẽ nhận được một loạt 404 trong Google. Tôi biết vì bây giờ tôi đã có một vài người trong số họ :)
Steven

Sẽ tốt hơn nếu bạn đặt vai trò tác giả cho người đăng ký, thay vì xóa tất cả nội dung của họ và nhảy qua các vòng lặp cho mục đích SEO
Tom J Nowell

Tôi nghĩ rằng câu trả lời này không còn là tốt nhất. Tôi đã thêm một câu trả lời.
cybmeta

4

Rất nhiều thời gian kể từ khi câu hỏi và câu trả lời này đã được đăng. Kể từ đó mọi thứ đã thay đổi rất nhiều. Khuyến nghị điển hình về crawlers disallow để truy cập wp-content/themes, wp-content/plugins, wp-content/cache, wp-includes, và bất kỳ thư mục khác có chứa CSS hoặc js file cần thiết trong trang web, không còn giá trị.

Ví dụ: hãy nói về Google. Googlebot đã kết xuất các trang web không có CSS ​​và không có js, nhưng thực tế không phải vậy. Trên thực tế, Googlebot lấy tài liệu đầy đủ và kiểm tra những thứ như độ phản hồi, số lượng, vị trí và kích thước của tập lệnh, v.v. Vì vậy, Google không thích nếu bạn không cho phép Googlebot truy cập các tệp CSS và js. Điều đó có nghĩa rằng bạn không nên không cho phép wp-content/themes, wp-content/plugins, wp-content/cachewp-includesvì tất cả các thư mục có thể phục vụ CSS và js file.

Theo quan điểm của tôi, thực sự tệp robot.txt tốt nhất là tệp được tạo bởi WordPress theo mặc định ( robot.txt dưới đây là mặc định kể từ WP 4.0 ):

User-agent: *
Disallow: /wp-admin/

Nếu bạn có thư mục cgi-bin, có thể không nên cho phép thư mục cgi-bin:

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

Và nếu bạn sử dụng sơ đồ trang web, bạn nên đưa tham chiếu sơ đồ trang web vào tệp robots.txt (bạn vẫn cần gửi thủ công sơ đồ trang web cho Công cụ quản trị trang web của Google và Bing, nhưng tham chiếu có thể hữu ích cho các trình thu thập thông tin khác):

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

Sitemap: http://example.com/sitemap.xml

Đó là nói chung. Các trang web cụ thể có thể không cho phép các thư mục và tệp khác cần được nghiên cứu trong từng trường hợp cụ thể. Đối với exmaple, bạn có thể cần hoặc bạn có thể không cho phép một thư mục plugin cụ thể:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/plugin-folder/

Để sửa đổi tệp robots.txt, hãy sử dụng robots_txtbộ lọc (sử dụng tệp robot.txt thực sự sẽ khiến WordPress không còn khả năng xử lý robot.txt). Ví dụ:

add_filter( 'robots_txt', function( $output ) {

    $output .= "Disallow: /cgi-bin/\n";
    $output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
    $output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";

    return $output;

});

1
Tôi thích thực tế bạn đã đề cập đến Google và wp-content/themes. Đây là một vấn đề đối với các trang web của chúng tôi vì không cho rằng các trang web của chúng tôi không vượt qua " Thử nghiệm thân thiện với thiết bị di động " của Google nữa và chúng tôi đã bị loại khỏi một ứng dụng tổng hợp tin tức di động vì lý do đó, mặc dù các trang web của chúng tôi hoàn toàn phản hồi.
jimihenrik

2

Bạn đã xem plugin WordPress SEO của Yoast chưa? Nó chắc chắn xử lý các vấn đề robot.txt.


2
Tôi không muốn sử dụng nhiều plugin hơn tôi thực sự phải làm.
Steven

1
Được rồi, đây là câu hỏi đầu tiên: tại sao không? Câu hỏi thứ hai: tại sao không coi WP SEO là một plugin "phải"?
ZaMoose

6
Càng sử dụng nhiều plugin, tôi càng mất kiểm soát đối với mã nào trên trang web của mình. Vì vậy, tôi muốn sử dụng mã của riêng tôi. Bên cạnh đó, tôi khá tự tin vào kỹ năng SEO của chính mình.
Steven

2

Với một chút giúp đỡ, giờ đây đây là mỏ (không khác nhiều so với mọi người, rõ ràng)

User-agent: *
    Allow: /

Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /cat/
    Disallow: /key/
    Disallow: /*?
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes

User-agent: Mediapartners-Google
    Allow: /

User-agent: Adsbot-Google
    Allow: /

User-agent: Googlebot-Image
    Allow: /

User-agent: Googlebot-Mobile
    Allow: /

#User-agent: ia_archiver-web.archive.org
    #Disallow: /

Sitemap: YOURSITENAME.HERE

1

Bạn nên tuân theo cách tiếp cận hiện tại của Joost de Valk, nơi rất ít bị chặn robots.txt, nhưng cũng hiểu rằng mỗi trang web sẽ có một chính sách phù hợp duy nhất sẽ cần được xem xét và thay đổi theo thời gian.

Nhiều câu trả lời được đưa ra ở đây trước đây là ngày và sẽ dẫn đến việc tự phá hoại SEO kể từ khi Google kiểm tra "tính thân thiện với thiết bị di động". Hôm nay googlebots cố gắng tải mọi thứ mà một trình duyệt bình thường làm, bao gồm phông chữ, hình ảnh, JavaScript và tài sản CSS từ / wp-content, / Themes, / plugin, v.v. (Morten Rand-Hendriksen gần đây đã viết về điều này .)

Bạn có thể sử dụng trình kiểm tra trang web "thân thiện với thiết bị di động" của Google để tìm hiểu xem robots.txttệp của bạn có đang phá hoại trang web của bạn hay không. Nếu bạn sử dụng Google Webmaster Tools, bạn sẽ nhận được thông báo và thông báo qua email nếu có vấn đề lớn.

Trừ khi bạn cẩn thận để đảm bảo không có tài sản tương tác hoặc trình bày quan trọng nào được tải từ các thư mục không được phép, đây có thể là mức tối thiểu mà mọi cài đặt WordPress đều an toàn với:

User-agent: *
Disallow: /wp-admin

Và đừng quên thêm sơ đồ trang web:

Sitemap: http://yoursite.com/sitemap.xml

Thật không may, chính sách mở hơn này ngày nay tái tạo tiềm năng cho các vấn đề khác trước đây khiến mọi người bị hạn chế hơn robots.txt, chẳng hạn như [nhà phát triển plugin và chủ đề bao gồm các trang có thể lập chỉ mục có liên kết trở lại trang web của riêng họ]. 4 Không có gì phải làm về điều này trừ khi bạn có thể lọt qua tất cả mã của bên thứ ba bằng một chiếc lược răng tốt và di chuyển hoặc loại bỏ những thứ bạn không muốn được lập chỉ mục.


0

FYI, ALWYAS bắt đầu permalink của bạn với một số. Từ kinh nghiệm, nó tăng tốc trang vì WordPress có thể nhanh chóng phân biệt giữa một trang và một bài đăng (tôi cũng đọc rằng ở một nơi khác sau đó đã thử nó..và nó đúng). vậy http:example.com/%month%/%post%... sẽ ổn thôi

Tôi sẽ chỉ sao chép những gì tôi có. Rất nhiều nghiên cứu đã đi vào đây. Có lẽ nó quá mức cần thiết! Nó giúp Google nhận ra những từ khóa chính của trang web của bạn như được thấy trong công cụ quản trị trang web của Google. Hy vọng nó giúp

User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /cgi-bin/
Sitemap: Url to sitemap1
Sitemap: Url to sitemap2

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.shtml$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /wp-*
Allow: /wp-content/uploads/ 

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

User-agent:  *
Disallow: /about/
Disallow: /contact-us/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /

User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.