Tôi có hai tệp lớn chứa các đoạn văn bản tiếng Anh:
- Văn bản đầu tiên dài khoảng 200 trang và có khoảng 10 đoạn trên mỗi trang (mỗi đoạn dài 5 câu).
- Văn bản thứ hai chứa gần như chính xác các đoạn văn bản và văn bản như văn bản thứ nhất. Nó cũng dài 200 trang với 10 đoạn trên mỗi trang. Tuy nhiên, các đoạn văn được ngẫu nhiên hóa và theo một thứ tự khác khi so sánh với văn bản đầu tiên. Ngoài ra, một tỷ lệ lớn các đoạn văn có những thay đổi nhỏ về từ ngữ so với các đoạn tương tự. Ví dụ, một đoạn văn trong văn bản đầu tiên có thể có một câu như
Like Jimmy, I wanted to go to the palace
trong khi câu tương ứng trong đoạn văn bản thứ hai sẽ đọcLike Jimmy, I really wanted to go to the castle
.
Tôi muốn có thể nắm bắt các thay đổi ở đây như bổ sung really
và xóa palace
bằng thay thế castle
. Nếu các đoạn văn được căn chỉnh gần đúng, thì điều này sẽ khá tầm thường vì có rất nhiều cách để khác biệt văn bản. Tuy nhiên, vì các đoạn văn không được căn chỉnh, đó không phải là trường hợp.
Nếu các tệp nhỏ (một số đoạn), Khoảng cách Levenshtein có thể sẽ hoạt động tốt, nhưng vì các tệp rất lớn, sẽ không hiệu quả khi so sánh từng đoạn văn bản 1 với từng đoạn văn bản 2 để tìm ra đoạn nào phù hợp.
Điều gì sẽ là một số cách tiếp cận khác cho vấn đề này để xử lý nó một cách hiệu quả?