Tôi muốn lấy bất cứ thứ gì nằm giữa hai thẻ này - <tr> </tr>
- từ một tài liệu html. Bây giờ tôi không có bất kỳ yêu cầu html cụ thể nào sẽ đảm bảo cho trình phân tích cú pháp html. Tôi chỉ đơn giản cần một cái gì đó mà trận đấu <tr>
và </tr>
và được tất cả mọi thứ ở giữa và có thể có nhiều tr
s. Tôi đã thử awk, nó hoạt động, nhưng vì một số lý do, cuối cùng nó cho tôi các bản sao của mỗi hàng được trích xuất.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Làm thế nào để đi về điều này?
awk
đang làm việc nhưng đưa ra các bản sao cố gắng vượt qua đầu ra của awk của bạn sort -u
để làm cho chúng khác biệt
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Đăng một số ví dụ đầu vào và đầu ra dự kiến nếu nó không hoạt động.