Làm cách nào để định cấu hình Robots.txt trong Magento?


7

Tôi đang cố gắng thiết lập de robots.txttrên cửa hàng Magento của chúng tôi. Trên thực tế, tôi không có ý tưởng về cách tốt nhất để thiết lập robots.txt.

Câu trả lời:


7

Viết robots.txtlà khó khăn. Robot xác định kiến ​​trúc trang web của bạn cho các trình thu thập thông tin.

Thông thường tôi sử dụng các robot sau cho trang web của tôi

# Website Sitemap
Sitemap: www.example.com/sitemap.xml


User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/

# Crawlers Setup
User-agent: *

# Directories
User-agent: *
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /shell/
Disallow: /skin/
Disallow: /var/

# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /customer/
Disallow: /customize/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /wishlist/

# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /api.php
Disallow: /get.php
Disallow: /mage


# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=

Có một bài viết rất hay từ inchoo liên quan đến robot.txt. Liên kết của bài viết là bài viết Inchoo Robots.txt

BIÊN TẬP

Theo hướng dẫn mới, không nên ẩn js / css / hình ảnh của bạn khỏi bot google. Do đó không cho phép họ sẽ sai. Vui lòng xóa các thẻ bên dưới khỏi các robot được đề cập ở trên

Disallow: /js/
Disallow: /media/ 
Disallow: /skin/

3

Đơn giản, tạo một tệp robots.txt trong đường dẫn gốc của bản cài đặt của bạn như sau:

# Sitemap
Sitemap: http://example.com/sitemap.xml

# Google Images
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
Allow: /media/wysiwyg/

# Crawlers Setup
User-agent: *

# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/

# Paths (clean URLs)
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /onestepcheckout/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/

# Files
Disallow: /api.php
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /get.php
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /mage
Disallow: /README.txt
Disallow: /RELEASE_NOTES.txt

# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
Disallow: /*?dir*
Disallow: /*?mode*
Disallow: /*?limit*

# System files
Disallow: /CVS
Disallow: /*.git$
Disallow: /*.svn$
Disallow: /*.idea$
Disallow: /*.sql$
Disallow: /*.tgz$

# PHP
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php

2

Tạo và cấu hình robots.txtlà rất dễ dàng. Bạn có thể tạo nó với trình soạn thảo văn bản đơn giản. tìm ví dụ tốt nhất ở đây http://www.robotstxt.org/robotstxt.html đó là cách tạo robots.txttệp.

Một khi bạn đã tạo Robots.txttập tin, nó được yêu cầu gửi tại thư mục gốc của cửa hàng web của bạn. Ví dụ: nếu tên miền cửa hàng của bạn là www.example.combạn nên đặt robots.txttệp dưới gốc tên miền nơi bạn cũng có thư mục ứng dụng. Vì vậy, nó ngồi và truy cập nhưwww.example.com/robots.txt


1

Đặt robot.txt trong thư mục gốc của bản cài đặt Magento của bạn

đây là quy tắc mặc định robot.txt có

User-agent: *
Disallow: /

---- điều này chỉ đơn giản là chặn toàn bộ trang web của bạn để lập chỉ mục và thu thập dữ liệu bởi các công cụ tìm kiếm, vì vậy tốt hơn bạn nên xác định các thư mục và tệp bạn muốn tránh để các công cụ tìm kiếm tìm kiếm.

Đây là cách bạn có thể xác định các thư mục và tệp mà bạn không muốn thu thập thông tin bởi các công cụ tìm kiếm

User-agent: *
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /README.txt
Disallow: /sample.html
Disallow: /sample.php
Disallow: /sample.conf
Disallow: /sample_svn.

Bạn cũng có thể xác định công cụ tìm kiếm trong robot.txt

User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot 
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler

Dưới đây là cách bạn có thể xác định công cụ tìm kiếm nào sẽ cho phép thu thập dữ liệu trang web

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

User-agent: Yahoo-slurp
Disallow: 

User-agent: Msnbot
Disallow:

Dù bằng cách nào bạn cũng có thể tạo tệp robots.txt trực tuyến chỉ bằng cách đưa một số thông tin cơ bản liên quan đến trang web của mình. http://www.robotsgenerator.com/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.