Chủ đề khiến tôi quan tâm vì kích thước của Wikipedia. Có thể dễ dàng tạo một số crons để cập nhật sơ đồ trang web định kỳ trong một trang web nhỏ, nhưng còn một trang lớn thì sao? Vì thế:
Wikipedia tạo Sơ đồ trang web như thế nào?
Chủ đề khiến tôi quan tâm vì kích thước của Wikipedia. Có thể dễ dàng tạo một số crons để cập nhật sơ đồ trang web định kỳ trong một trang web nhỏ, nhưng còn một trang lớn thì sao? Vì thế:
Wikipedia tạo Sơ đồ trang web như thế nào?
Câu trả lời:
Nó được tạo ra một cách linh hoạt bởi một tập lệnh PHP. Đối với các trang web lớn, có lẽ tốt hơn để kiểm tra các thay đổi và chỉ tạo ra nếu có gì đó thay đổi - hoặc chỉ tạo ra mỗi XY phút / giờ / ngày. Nó phụ thuộc vào cơ sở hạ tầng.
Tất cả các thông tin cần thiết đều có trong cơ sở dữ liệu, vì vậy đây không phải là một nhiệm vụ khó khăn.
Và đây là bằng chứng: http : //svn.wikidia.org/viewvc/mediawiki/trunk/phase3/maintenance/generateSitemap.php?view=log / http://www.mediawiki.org/wiki/Manual:GenerateSitemap. php
Chỉnh sửa: Ah và điều này cũng có thể thú vị cho chủ đề này:
Tôi đã phải đối mặt với nhiệm vụ tạo ra một bản đồ trang web cho trang web của chúng tôi một thời gian trước. Mặc dù nó không phải là kích thước của Wikipedia, nhưng nó vẫn có khoảng một trăm nghìn trang và khoảng 5% trong số đó được thay đổi, thêm hoặc xóa hàng ngày.
Vì việc đặt tất cả các tham chiếu trang trong một tệp sẽ làm cho nó quá lớn, tôi phải chia chúng thành các phần. Chỉ mục bản đồ trang web trỏ đến một trang aspx với chuỗi truy vấn cho một trong 17 phần khác nhau. Tùy thuộc vào chuỗi truy vấn, trang trả về một xml tham chiếu vài nghìn trang, dựa trên các đối tượng tồn tại trong cơ sở dữ liệu.
Vì vậy, bản đồ trang web không được tạo định kỳ, thay vào đó, nó được tạo khi đang có người yêu cầu. Vì chúng tôi đã có một hệ thống để tìm kiếm cơ sở dữ liệu lưu trữ, điều này tất nhiên được sử dụng để tìm nạp dữ liệu cho bản đồ trang web.
Mặc dù mã tạo sơ đồ trang web nằm trong chủ lõi của MediaWiki và chắc chắn sẽ là tùy chọn được chọn để tạo sơ đồ trang web, tôi không thấy bất kỳ bằng chứng nào cho thấy Wikipedia thực sự đã bật. Tệp robot.txt không trỏ đến bất kỳ bản đồ trang web nào.
Hơn nữa, bất kỳ tập lệnh bảo trì nào chạy trên các dự án Wikimedia đều được điều khiển bởi con rối và không có phiên bản nào của GenerSitemap.php trong kho lưu trữ con rối . Cuối cùng, không có sơ đồ trang web nào trong các bãi chứa cho bất kỳ wiki Wikimedia nào, trong khi có " tóm tắt cho Yahoo ".
Trong mọi trường hợp, Wikipedia chạy Squid cache trước các máy chủ ứng dụng của họ. Họ có thể kiểm soát tần suất trang web của họ được cập nhật bằng cách điều chỉnh thời gian hết hạn cho trang.
Hơn nữa, bất cứ điều gì Wikipedia làm để lập chỉ mục không phải là một mô hình tốt cho wiki của bạn, bởi vì Google có các liên hệ / giao dịch / xử lý đặc biệt của Wikipedia, xem một ví dụ gần đây .
Tôi không tích cực, nhưng tôi nghĩ họ sử dụng tiện ích mở rộng Google Sitemap cho MediaWiki. Điều này được hỗ trợ bởi trang Wikipedia trên Sơ đồ trang web .