Tôi đang trích xuất URL từ một trang web bằng cURL như dưới đây.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Tệp new.txt của tôi như dưới đây.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Tuy nhiên, tôi chỉ cần trích xuất thông tin dưới đây.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Tôi đang cố gắng phớt lờ những thông tin<a href
có thông tin trong đó và có tiêu đề kết thúc với KHÔNG ĐƯỢC .
Làm thế nào tôi có thể sửa đổi tuyên bố grep của tôi?
Đầu ra bạn đang hiển thị ở đây có đúng không? Văn bản mô tả nó không có ý nghĩa cùng với ví dụ này.
—
slm
Không phải bạn đang tìm kiếm
—
terdon
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?
@terdon, chính xác đó là những gì tôi đang tìm kiếm. Tôi có thể chấp nhận nó như một câu trả lời nếu bạn đăng nó.
—
Ramesh
Ramesh, về cơ bản là câu trả lời của @ slm. Tôi vừa chỉnh sửa nó để bạn có thể chấp nhận nó.
—
terdon
oh yeah, tôi đã không nhận ra đường ống là mạnh mẽ này. Tôi đã chấp nhận nó như một câu trả lời. Cảm ơn!
—
Ramesh