Xóa mọi thứ trừ URL trong Notepad ++


5

Sau khi tự tìm kiếm các kết quả tìm kiếm của Google bằng một plugin Chrome hợp pháp, tôi có các thông tin sau (chỉ với hai kết quả tìm kiếm):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Mục tiêu của tôi là tạo một danh sách với URL Twitter như thế này:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

Tôi có Notepad ++ vì vậy làm cách nào tôi có thể sử dụng nó để nhận danh sách chỉ với URL? Mọi thứ khác nên được xóa.


Có thể tra cứu một regex để lấy và chỉ khớp https://twitterchuỗi đầu tiên cắm bất cứ thứ gì sau nó cho đến khi bạn nhận được bất kỳ khoảng trống nào sau đó chuyển sang lượt thích tiếp theo và tìm kiếm và khớp với nó. Sau đó, có lẽ bạn muốn tìm cách loại bỏ trùng lặp nếu một số dòng có thể giống nhau nếu đó là một mối quan tâm.
Pimp Juice IT

Câu trả lời:


3
  • Ctrl+H
  • Tìm cái gì: ^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Thay bằng: (?1$1:)
  • kiểm tra Bọc xung quanh
  • kiểm tra biểu thức chính quy
  • KHÔNG KIỂM TRA . matches newline
  • Replace all

Giải trình:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Thay thế:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Kết quả cho ví dụ đã cho:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory

2

Giả sử rằng bạn có một biểu thức regex xác định một địa chỉ URL, và chúng ta hãy gọi nó regex .

Sử dụng trong Notepad ++ hộp thoại Find, tab Replace, để làm Replace All của regex bằng \n$1\n. Điều này sẽ phân tách tất cả các URL thành các dòng chỉ chứa URL, xen kẽ với các dòng rác.

Một lần nữa trong hộp thoại Tìm, tab Đánh dấu, đánh dấu tất cả các dòng chứa regex bằng tùy chọn dòng Bookmark , sử dụng thao tác Mark All .

Cuối cùng, trong menu Tìm kiếm => Dấu trang , chọn tùy chọn Xóa Dòng không được đánh dấu .

Để có biểu thức regex tốt cho URL, hãy xem bài đăng này:
Biểu thức chính quy tốt nhất để kiểm tra xem chuỗi có phải là URL hợp lệ không? .

Để biết thêm thông tin và ảnh chụp màn hình, hãy xem bài viết này cho một trường hợp tương tự:
Notepad ++ cách trích xuất địa chỉ email từ một tệp .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.