Có thể sử dụng url sơ đồ trang web tương đối trong tệp robots.txt không?


191

Trong tệp robots.txt tôi có thể viết URL tương đối sau cho tệp sơ đồ trang web không?

sitemap: /sitemap.ashx

Hoặc tôi phải sử dụng URL hoàn chỉnh (tuyệt đối) cho tệp sơ đồ trang web, như:

sitemap: http://subdomain.domain.com/sitemap.ashx

Tại sao tôi tự hỏi:

  • Tôi sở hữu một dịch vụ blog mới, www.domain.com, cho phép người dùng viết blog trên accountname.domain.com.
  • Tôi sử dụng ký tự đại diện, vì vậy tất cả tên miền phụ (tài khoản) đều trỏ đến: "blog.domain.com".

Trong blog.domain.com tôi đặt robot.txt để cho phép các công cụ tìm kiếm tìm thấy sơ đồ trang web. Nhưng, do các ký tự đại diện, tất cả tài khoản người dùng đều chia sẻ cùng một tệp robot.txt. Đó là lý do tại sao tôi không thể sử dụng thay thế thứ hai. Và bây giờ tôi không thể sử dụng viết lại url cho các tệp txt. (Tôi đoán rằng các phiên bản sau này của IIS có thể xử lý việc này không?)

Câu trả lời:


318

Theo tài liệu chính thức trên sitemaps.org, nó cần phải là một URL đầy đủ:

Bạn có thể chỉ định vị trí của Sơ đồ trang web bằng tệp robot.txt. Để thực hiện việc này, chỉ cần thêm dòng sau bao gồm URL đầy đủ vào sơ đồ trang web:

Sitemap: http://www.example.com/sitemap.xml

31
Xin lưu ý ví dụ của @ unor có: Sơ đồ trang web có vốn S. Điều này rất quan trọng vì Robots.txt phân biệt chữ hoa chữ thường.
BodgeIT

19
Và về chủ đề vụ án, robotstxt.org chỉ định tệp sẽ được đặt tên robots.txtmà không có chữ hoa R.
khargoosh

nếu trang web đang tải https, URL Sơ đồ trang web được đề cập với http. Điều này có tốt không Hay chúng ta phải đặt URL sơ đồ trang web dựa trên giao thức?
Shams

4
@Shams: Các URL được liệt kê trong sơ đồ trang web của bạn phải sử dụng cùng một giao thức và cùng một máy chủ với tệp sơ đồ trang web. Nếu trang web của bạn có sẵn dưới http https , bạn chỉ nên cung cấp một sơ đồ trang web (với biến thể chính tắc) .
unor

2

Trình thu thập dữ liệu của Google không đủ thông minh, họ không thể thu thập các URL tương đối, đó là lý do tại sao chúng tôi luôn khuyến nghị sử dụng URL tuyệt đối để có khả năng thu thập dữ liệu và lập chỉ mục tốt hơn.

Do đó, bạn không thể sử dụng biến thể này

> sitemap: /sitemap.xml

Cú pháp được đề xuất là

Sitemap: https://www.yourdomain.com/sitemap.xml

Ghi chú:

  • Đừng quên viết hoa chữ cái đầu tiên trong "sơ đồ trang web"
  • Đừng quên đặt dung lượng sau "Sơ đồ trang web:"

-2

Kỹ thuật tốt và câu hỏi logic bạn thân mến của tôi. Không có trong tệp robots.txt bạn không thể đi với URL tương đối của sơ đồ trang web; bạn cần phải đi với URL đầy đủ của sơ đồ trang web.

Tốt hơn hết là sử dụng "sitemap: https://www.example.com/sitemap_index.xml "

Trong URL trên sau dấu hai chấm cho không gian. Tôi cũng thích hỗ trợ Deepak.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.