Robots.txt - CSS cho phép hoặc không cho phép


12

CSS và các mẫu có được phép trong robot.txt không?

Nó có nên gây ra vấn đề gì không?

Trong Joomla, CSS và các mẫu không được phép trong tệp robots.txt . Vui lòng giúp tôi tìm giải pháp cho việc có hay không đưa robot vào CSS, mẫu, v.v. cho các trang web sắp tới của tôi.


Tôi không nghĩ Joomla chặn các tệp này theo mặc định - nếu đó là những gì bạn đang ám chỉ?
MrWhite

Câu trả lời:


23

Google gần đây đã cập nhật các nguyên tắc của họ để chính thức tuyên bố rằng bạn không nên chặn quyền truy cập vào các tệp CSS hoặc JS trong tệp robots.txt . Điều này đảm bảo rằng khi Google thu thập dữ liệu trang web, nó có thể hiển thị chính xác như trình duyệt.

Nếu bạn chặn các tệp CSS hoặc JS, nó có thể gây hại cho trang web của bạn hoạt động tốt như thế nào trong bảng xếp hạng.

Thông tin thêm tại đây: Cập nhật Nguyên tắc quản trị trang web kỹ thuật của chúng tôi và tại đây: Nguyên tắc quản trị trang web

Vì đây là đề xuất gần đây, nhiều trang web và CMS (như Joomla) thường sẽ có các tệp như vậy bị chặn trong tệp robots.txt . Lý do đằng sau điều này thường là các công cụ tìm kiếm không cần phải thu thập dữ liệu hoặc lập chỉ mục các tệp này, vì vậy để ngăn các tệp và thư mục không cần thiết khỏi bị lập chỉ mục và để tiết kiệm 'thu thập ngân sách', chúng thường sẽ bị chặn trong tệp robots.txt .


2
Google thực sự đã nói khá lâu rằng bạn không nên chặn JS và CSS (video Matt Cutts từ tháng 3 năm 2012) vì nó có thể gây hại cho khả năng thu thập dữ liệu trang web của G, gần đây họ đã làm cho nó "chính thức hơn".
MrWhite

2
Nó đã được khuyên không nên chặn CSS và JS trong hơn một thập kỷ. Tôi biết rằng kết xuất bởi các công cụ tìm kiếm có vẻ mới, nhưng thực tế không phải vậy và một số hình thức kết xuất bao gồm cả JS đơn giản đã tồn tại từ rất lâu rồi.
Closnoc

1
Lưu ý bổ sung (có liên quan phần nào vì nó thường được sử dụng với JS) - Liên quan đến bất kỳ bộ điều khiển nào có thể truy cập tuyến thông qua chủ đề / chế độ xem / JSON / URi - bạn nên chặn những khu vực đó hoặc bạn có thể phải đối mặt với các khu vực không có chủ đề được lập chỉ mục thay vì sử dụng trang đã nói khía cạnh dữ liệu. Đây là một khu vực của "khung nhìn" có giá trị để chặn, đặc biệt là những thứ mà JS sử dụng như JSON. Thường thì G sẽ chạy JS, xem liên kết JSON và truy cập nó. Gây ra lỗi hoặc nếu nó ra chủ đề, một chỉ mục được xây dựng một nửa. Đó là một con sâu hoàn toàn mới, nhưng hãy chú ý.
dhaupin

1
Tôi cảm thấy bắt buộc phải thể hiện sự bất đồng mạnh mẽ của mình với thái độ sùng bái hàng hóa mà bất cứ điều gì Google nói, chúng ta phải làm. Google cũng cho biết trang web của bạn sẽ xếp hạng cao hơn nếu bạn cho phép họ thu thập dữ liệu hình ảnh, sử dụng HTTPS, v.v. Bằng cách tuân thủ mọi thứ Google nói, bạn chỉ cần cung cấp cho họ nhiều quyền lực hơn để thực hiện các yêu cầu lớn hơn. Vào cuối ngày, bạn đang xây dựng trang web của mình cho con người hay robot?
Câu hỏi tràn

1
Đoán xem nó phụ thuộc vào mức độ bạn dựa vào thứ hạng tốt trong Google? Mặc dù giống như hầu hết mọi thứ, nó chỉ là một chỉ số nhỏ trong một số lượng lớn các yếu tố họ có. Giống như bạn đã đề cập, gần đây họ nói rằng HTTP là một yếu tố xếp hạng nhỏ, nhưng tôi đã không thay đổi bất kỳ trang web nào trong số 100 trang web tôi làm việc trên HTTP và thứ hạng của họ vẫn ổn.
Tối đa

3

Chiến lược cho tệp robots.txt của bạn phải luôn được trả lời bằng câu hỏi: phần nào trong web của tôi không được thu thập thông tin bởi robot và phần nào có thể được thu thập bởi robot.

Rô bốt thực hiện logic riêng của chúng và có nhiều mục đích (không chỉ Google có trình thu thập thông tin ...) vì vậy nếu bạn cho rằng robot bị "phân tâm" bằng cách nào đó bởi các tệp CSS và JS của bạn, bạn sẽ mở hộp đen của robot và giả sử việc thực hiện hiện tại và mục đích hiện tại của robot là. Đây không phải là chiến lược dài hạn hữu ích.

Thay vì suy nghĩ trong miền của robot, hãy thử suy nghĩ trong miền nội dung web của bạn.

Tôi muốn chỉ ra rằng một tệp robots.txt không có cơ chế bảo mật.


1

Các mẫu được sử dụng bởi ứng dụng viết blog hoặc phần mềm quản lý nội dung (CMS) và không thể truy cập được bên ngoài khi CSS được trình duyệt và các công cụ tìm kiếm đọc và nên đọc. Có nói rằng, tôi sẽ không chặn một trong hai nhưng tôi cũng sẽ không thay đổi bất kỳ thứ gì bằng CMS. Công cụ tìm kiếm và bot không quan tâm đến các mẫu của bạn. Chỉ cần chặn quyền truy cập vào trang web của bạn bằng URL / URI mà bạn không muốn lập chỉ mục hoặc đọc nhưng không nghĩ robot.txt là một công cụ bảo mật. Nó không được thiết kế cho điều đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.