Nếu bạn chưa cài đặt các công cụ khác này, chỉ có wget và trang không có định dạng chỉ là văn bản và liên kết đơn giản, ví dụ mã nguồn hoặc danh sách các tệp, bạn có thể tách HTML bằng cách sử dụng sed như thế này:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Điều này sử dụng wget để chuyển nguồn của trang sang STDOUT và sed để loại bỏ bất kỳ cặp <> nào và bất cứ thứ gì giữa chúng.
Sau đó, bạn có thể chuyển hướng đầu ra của lệnh sed sang tệp bạn muốn tạo bằng cách sử dụng>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
Lưu ý: Bạn có thể thấy rằng nó có thêm khoảng trắng trong tệp mà bạn không muốn (ví dụ: các dòng được thụt vào một vài cột)
Có thể dễ dàng nhất để sử dụng trình soạn thảo văn bản của bạn để dọn dẹp tệp đó (hoặc một trình định dạng nguồn khi bạn đang tải xuống mã nguồn C).
Nếu bạn cần thực hiện cùng một điều đơn giản cho mỗi dòng của tệp, bạn có thể bao gồm một lệnh để thực hiện điều đó trong lệnh sed (ở đây tước một khoảng trắng hàng đầu):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. Nó không khó, nhưng nó phụ thuộc vào cấu trúc trang. Nếu bạn cung cấp một liên kết có thể ai đó sẽ giúp bạn với mã chính xác. Nếu khôngsed
hoặcperl
là bạn bè của bạn.