Câu trả lời:
Theo thông tin về Robot truy cập vào trang của chúng tôi :
Robot truy cập vào trang web của chúng tôi nên được để lại như tài nguyên cuối cùng, khi mọi thứ khác đã thất bại. Ngoài ra, hãy nhớ rằng trang web Project Gutenberg có bản quyền.
Tuy nhiên, có hy vọng :
Lựa chọn thay thế tốt hơn
- Nhận phiên bản ngoại tuyến của trang web Project Gutenberg.
- Nhận tất cả các tập tin ebook Project Gutenberg.
- Lấy dữ liệu danh mục Project Gutenberg.
Và:
[...] Bạn có thể lấy tất cả Sách điện tử của chúng tôi trong các tệp nén bằng cách trỏ robot của bạn tại http://www.gutenberg.org/robot/harvest
[...] Giải nén các tệp zip sẽ tạo ra 70.000 tệp khác.
Đây là một ví dụ về cách lấy tất cả các tệp bằng cách sử dụng
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Nếu bạn chỉ muốn một số loại tệp nói:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Nếu bạn chỉ muốn các tệp trong một ngôn ngữ nhất định, hãy nói:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Vì vậy, tôi muốn:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Nhưng tôi đoán bạn tốt hơn nên cho phép hủy bỏ và khởi động lại: thử --level 9999 --no-clobber
, sẽ bỏ qua các tệp bạn đã có (giả sử bạn vẫn ở trong cùng một thư mục trên đĩa).
--input-file
trong hướng dẫn .
-c
tùy chọn, nhưng vẫn còn. Tôi đã đưa ra offset=xxx
URL để được nhân đôi nhưng vẫn đang tải xuống từ trang đầu tiên.
Bạn có thể tải xuống toàn bộ bộ sách tiếng Anh của Gutenberg và các ngôn ngữ khác trong một tệp ZIM duy nhất, được nén rất cao và sau đó có thể được mở bằng Kiwix cả trên máy tính để bàn và Android. Sách tiếng Anh là 40 GB.
Mặc dù câu trả lời được chọn là chính xác, nhưng nó có khả năng gây ra hai vấn đề:
wget
lệnh sẽ thất bại trong việc kiểm tra đệ quy khi tải xuống các tệp từ máy nhân bản bên ngoài.Giải pháp dưới đây khắc phục những vấn đề này:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Bạn có thể muốn thay đổi chuỗi giới thiệu và tác nhân người dùng để cung cấp một chút ngẫu nhiên.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso có một vài lựa chọn tốt.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso là một tệp 8GB nên đủ cho nhu cầu của bạn.
Có nhiều thông tin hơn ở đây:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Doading_Via_FTP , nó cung cấp tất cả các tùy chọn tải xuống kho lưu trữ, bao gồm FTP và BitTorrent.
Một tùy chọn khác là công cụ tuyệt vời tại http://pgiso.pglaf.org/ .
Tại sao không sử dụng tất cả các kỹ năng và kiến thức lập trình quá phức tạp của bạn để thể hiện một nút đơn giản liên kết tất cả các hành động đó và nói "Tải xuống tất cả các sách hiện tại" -với tab tùy chọn ngôn ngữ khi bạn nhấp vào nó.
Tôi chắc chắn rằng hầu hết người dùng đến trang web là những người sưu tầm sách điện tử và tải xuống một số sách nhất định về các chủ đề mà họ quan tâm là ổn đối với 1 hoặc 2 cuốn sách. Nhưng làm cho một bộ sưu tập lớn hơn bằng tay là một trở ngại. Tuy nhiên, nếu họ cần nó để nghiên cứu hoặc đơn giản là muốn sở hữu một thư viện sách kỹ thuật số khổng lồ tại PC của chính họ. Hầu hết mọi người đều tắt và phân tán khỏi trang web khi họ nhận ra rằng họ phải là Trình hướng dẫn máy tính để thực hiện việc này. Vì vậy, nút "Tải xuống tất cả sách hiện tại" sẽ có lợi cho trang web của dự án và người dùng, và nó chắc chắn sẽ tạo ra thậm chí nhiều khách truy cập vào trang web. Vì vậy, mọi người đều hạnh phúc.