Câu trả lời:
Viết robots.txt
là khó khăn. Robot xác định kiến trúc trang web của bạn cho các trình thu thập thông tin.
Thông thường tôi sử dụng các robot sau cho trang web của tôi
# Website Sitemap
Sitemap: www.example.com/sitemap.xml
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
# Crawlers Setup
User-agent: *
# Directories
User-agent: *
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /shell/
Disallow: /skin/
Disallow: /var/
# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /customer/
Disallow: /customize/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /wishlist/
# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /api.php
Disallow: /get.php
Disallow: /mage
# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
Có một bài viết rất hay từ inchoo liên quan đến robot.txt. Liên kết của bài viết là bài viết Inchoo Robots.txt
BIÊN TẬP
Theo hướng dẫn mới, không nên ẩn js / css / hình ảnh của bạn khỏi bot google. Do đó không cho phép họ sẽ sai. Vui lòng xóa các thẻ bên dưới khỏi các robot được đề cập ở trên
Disallow: /js/
Disallow: /media/
Disallow: /skin/
Đơn giản, tạo một tệp robots.txt trong đường dẫn gốc của bản cài đặt của bạn như sau:
# Sitemap
Sitemap: http://example.com/sitemap.xml
# Google Images
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
Allow: /media/wysiwyg/
# Crawlers Setup
User-agent: *
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /onestepcheckout/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/
# Files
Disallow: /api.php
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /get.php
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /mage
Disallow: /README.txt
Disallow: /RELEASE_NOTES.txt
# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
Disallow: /*?dir*
Disallow: /*?mode*
Disallow: /*?limit*
# System files
Disallow: /CVS
Disallow: /*.git$
Disallow: /*.svn$
Disallow: /*.idea$
Disallow: /*.sql$
Disallow: /*.tgz$
# PHP
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php
Tạo và cấu hình robots.txt
là rất dễ dàng. Bạn có thể tạo nó với trình soạn thảo văn bản đơn giản. tìm ví dụ tốt nhất ở đây http://www.robotstxt.org/robotstxt.html đó là cách tạo robots.txt
tệp.
Một khi bạn đã tạo Robots.txt
tập tin, nó được yêu cầu gửi tại thư mục gốc của cửa hàng web của bạn. Ví dụ: nếu tên miền cửa hàng của bạn là www.example.com
bạn nên đặt robots.txt
tệp dưới gốc tên miền nơi bạn cũng có thư mục ứng dụng. Vì vậy, nó ngồi và truy cập nhưwww.example.com/robots.txt
Đặt robot.txt trong thư mục gốc của bản cài đặt Magento của bạn
đây là quy tắc mặc định robot.txt có
User-agent: *
Disallow: /
---- điều này chỉ đơn giản là chặn toàn bộ trang web của bạn để lập chỉ mục và thu thập dữ liệu bởi các công cụ tìm kiếm, vì vậy tốt hơn bạn nên xác định các thư mục và tệp bạn muốn tránh để các công cụ tìm kiếm tìm kiếm.
Đây là cách bạn có thể xác định các thư mục và tệp mà bạn không muốn thu thập thông tin bởi các công cụ tìm kiếm
User-agent: *
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /README.txt
Disallow: /sample.html
Disallow: /sample.php
Disallow: /sample.conf
Disallow: /sample_svn.
Bạn cũng có thể xác định công cụ tìm kiếm trong robot.txt
User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image
User-agent: Yahoo-MMCrawler
Dưới đây là cách bạn có thể xác định công cụ tìm kiếm nào sẽ cho phép thu thập dữ liệu trang web
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Yahoo-slurp
Disallow:
User-agent: Msnbot
Disallow:
Dù bằng cách nào bạn cũng có thể tạo tệp robots.txt trực tuyến chỉ bằng cách đưa một số thông tin cơ bản liên quan đến trang web của mình. http://www.robotsgenerator.com/