Tôi có một vài trăm tệp mã nguồn html. Tôi cần trích xuất nội dung của một <div>
yếu tố cụ thể từ mỗi tệp này để tôi sẽ viết một tập lệnh để lặp qua từng tệp. Cấu trúc phần tử là như thế này:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Bất cứ ai cũng có thể đề xuất một phương pháp mà tôi có thể trích xuất div the_div_id
và tất cả các phần tử và nội dung con từ một tệp bằng cách sử dụng dòng lệnh linux?
hxselect
là kén chọn về định dạng đầu vào hơnpup
. Ví dụ, tôi nhận đượcInput is not well-formed. (Maybe try normalize?)
vớihxselect
nơipup
chỉ phân tích nó.