Làm thế nào để kết xuất một MediaWiki để sử dụng ngoại tuyến?


16

Tôi muốn có thể tạo phiên bản ngoại tuyến của trang MediaWiki trên cơ sở hàng tuần.

Các DumpHTML phần mở rộng thực sự làm những gì tôi muốn, vì nó bãi tất cả các bài báo và các tập tin media, nhưng tôi không thể nhìn thấy bất cứ chỉ số của tất cả các bài viết nó đã đổ, vì vậy tôi không thể điều hướng trong các bãi chứa.

Đọc về tính năng kết xuất XML mà MediaWiki có, tôi tự hỏi liệu có thể sử dụng một chương trình để xem các tệp này hoặc có thể chuyển đổi chúng thành html không?

Hoặc có những cách khác để tạo phiên bản ngoại tuyến của trang MediaWiki?


Bạn có thực sự cần một chỉ số? Chỉ cần bắt đầu Main Pagevà theo các liên kết từ đó.
Ilmari Karonen

Dưới đây là hướng dẫn của Cam Webb để tạo phiên bản tĩnh của trang MediaWiki. Đây là của riêng tôi , trong trường hợp họ giúp đỡ bất cứ ai. Cả hai đều cung cấp liên kết đến kết quả tĩnh ( của tôi ở đây ).
Michael Allan

Câu trả lời:


8

Bạn có thể sử dụng một công cụ webcrawler sẽ lưu trang web dưới dạng tệp HTML. Tất cả các liên kết sẽ được chuyển đổi, vì vậy bạn có thể mở trang chính, nói, sau đó nhấp vào liên kết và đến tất cả các trang web.

Có một số các công cụ có sẵn. Tôi sử dụng wget , dựa trên dòng lệnh và có hàng ngàn tùy chọn, vì vậy không thân thiện lắm. Tuy nhiên nó khá mạnh mẽ.

Ví dụ, đây là dòng lệnh tôi đã sử dụng để kết xuất trang web mediawiki của riêng tôi. Tôi đề nghị bạn hiểu từng tùy chọn mặc dù trước khi sử dụng nó:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki

10

Bạn có thể lấy -pages-articles.xml.bz2từ trang web Wikimedia và xử lý chúng bằng WikiTaxi (tải xuống ở góc trên bên trái). Công cụ nhập Wikitaxi sẽ tạo .taxitệp (khoảng 15Gb cho Wikipedia) ra khỏi .bz2tệp. Tập tin đó sẽ được chương trình WikiTaxi sử dụng để tìm kiếm thông qua các bài viết. Trải nghiệm rất giống với trải nghiệm trình duyệt.

Hoặc bạn có thể sử dụng Kiwix , nhanh hơn để thiết lập vì nó cũng cung cấp các bãi chứa ( .zimtệp) đã được xử lý . Vì nhận xét chỉ định để mwofflinercó thể sử dụng các trang web MediaWiki khác cho kiwix , nó có thể không hoạt động với tất cả vì chúng có thể có sự khác biệt tùy chỉnh nhưng đó là biến thể duy nhất tôi gặp.

Sử dụng Wikimedia thứ wgetkhông phải là thực hành tốt. Nếu quá nhiều người sẽ làm điều đó có thể làm ngập các trang web với các yêu cầu.


Chỉnh sửa sau này cho trường hợp bạn cũng muốn hình ảnh ngoại tuyến:

Dự án XOWA

Nếu bạn muốn một bản sao hoàn chỉnh của Wikipedia (bao gồm cả hình ảnh) định dạng HTML đầy đủ nguyên vẹn sẽ tải xuống trong aprox 30 giờ , bạn nên sử dụng:

Wikipedia tiếng Anh có rất nhiều dữ liệu. Có hơn 13,9 triệu trang với hơn 20,0 GB văn bản, cũng như hơn 3,7 triệu hình thu nhỏ.

XOWA :

Thiết lập tất cả điều này trên máy tính của bạn sẽ không phải là một quá trình nhanh chóng ... Bản thân việc nhập sẽ cần 80GB dung lượng ổ đĩa và thời gian xử lý năm giờ cho phiên bản văn bản. Nếu bạn cũng muốn hình ảnh, con số tăng lên 100GB dung lượng đĩa và thời gian xử lý 30 giờ. Tuy nhiên, khi bạn hoàn thành, bạn sẽ có một bản Wikipedia tiếng Anh hoàn chỉnh, gần đây với hình ảnh có thể vừa với thẻ SD 128GB.

Nhưng phiên bản ngoại tuyến rất giống với phiên bản trực tuyến, bao gồm ảnh, v.v .: (Tôi đã kiểm tra bài viết dưới đây hoàn toàn ngoại tuyến) nhập mô tả hình ảnh ở đây


Chỉnh sửa sau nếu không có điều nào ở trên áp dụng:

Nếu wiki không phải là một phần của Wikimedia hoặc không có kết xuất, có một dự án trên github tải wiki đó bằng API của nó:

WikiTeam - Chúng tôi lưu trữ wiki, từ Wikipedia đến wiki nhỏ nhất


1
Trong trường hợp bỏ cài đặt mediawiki tùy chỉnh, XOWA hoàn toàn có khả năng thực hiện điều đó (một số vấn đề có thể tồn tại), sau bài viết xowa.org/home/wiki/App/Wiki_types/Wikia.com khá hữu ích. Việc sử dụng Kiwix với wiki tùy chỉnh vẫn chưa được thử nghiệm (người ta cần bỏ wiki bằng github.com/kiwix/mwoffliner hoặc một số công cụ khác trước)
thang cuốn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.