Tôi có hàng ngàn danh sách các chuỗi và mỗi danh sách có khoảng 10 chuỗi. Hầu hết các chuỗi trong một danh sách nhất định rất giống nhau, mặc dù một số chuỗi (hiếm khi) hoàn toàn không liên quan đến các chuỗi khác và một số chuỗi chứa các từ không liên quan. Chúng có thể được coi là các biến thể ồn ào của một chuỗi chính tắc. Tôi đang tìm kiếm một thuật toán hoặc một thư viện sẽ chuyển đổi từng danh sách thành chuỗi chính tắc này.
Đây là một danh sách như vậy.
- Chiến tranh giữa các vì sao: Tập IV Một hy vọng mới | StarWars.com
- Chiến tranh giữa các vì sao tập IV - Một hy vọng mới (1977)
- Chiến tranh giữa các vì sao: Tập IV - Một hy vọng mới - Cà chua thối
- Xem Star Wars: Tập IV - Một hy vọng mới trực tuyến miễn phí
- Chiến tranh giữa các vì sao (1977) - Những bộ phim hay nhất
- [REC] 4 poster hứa hẹn cái chết của động cơ phía ngoài - SciFiNow
Đối với danh sách này, bất kỳ chuỗi nào khớp với biểu thức chính quy ^Star Wars:? Episode IV (- )?A New Hope$
sẽ được chấp nhận.
Tôi đã xem khóa học của Andrew Ng về Machine Learning trên Coursera, nhưng tôi không thể tìm thấy một vấn đề tương tự.