Làm cách nào tôi có thể làm cho Github Wiki của tôi có thể thu thập dữ liệu bằng các công cụ tìm kiếm? robot.txt dường như cấm nó


9

Trong khi sử dụng trình kiểm tra liên kết W3C , tôi phát hiện ra rằng Github Wiki của tôi không thể được thu thập thông tin:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status: (N / A) Bị cấm bởi robot.txt

Điều này thật đáng tiếc, vì tôi muốn mọi người dễ dàng tìm thấy Wiki này trên các công cụ tìm kiếm.

HỎI: Làm cách nào tôi có thể làm cho Github Wiki của tôi có thể thu thập dữ liệu bằng các công cụ tìm kiếm?
Hay tôi nhầm và robot.txt của Github thực sự ổn?


1
Tôi nghi ngờ câu trả lời gần giống như trong câu hỏi tương tự này .
John C

Câu trả lời:


9

Các GitHub robots.txt không dứt khoát không cho phép bò của các trang wiki, ví dụ trong phần Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Vì đây là tệp robot trên toàn trang web, nên không có bất kỳ thứ gì xung quanh nó.

Đó là một lựa chọn thú vị, vì GitHub mô tả wiki là nơi để "chia sẻ nội dung dài hạn về dự án của bạn". Vì mặc định wiki công khai có thể được chỉnh sửa bởi bất kỳ người dùng nào, có lẽ đó là một sự bảo vệ nặng nề khỏi những kẻ gửi thư rác.


0

Các wiki của GitHub có thể tìm kiếm được bằng các công cụ hỗ trợ nó. Xem hai dòng đầu tiên của https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

Đó có lẽ là để phân tích các định dạng wiki khác nhau, v.v.

Ví dụ: tìm kiếm trong Google cho "giao thức môi giới mở" và lần truy cập đầu tiên là một trang trong wiki dự án Github.


Hmm, vậy tại sao Google lập chỉ mục wiki Giao thức môi giới chứ không phải wiki của OP?
Vidar S. Ramdal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.