Các cụm từ:
Con cáo nâu nhanh nhẹn nhảy qua con chó lười [A]
và
Con cáo nâu uick nhảy lên con chó lười biếng [B]
có thể được so sánh bằng thuật toán Khoảng cách Levenshtein để xác định độ tương tự bằng cách tính số lượng bổ sung, xóa hoặc thay thế ký tự đơn tối thiểu là cần thiết để chuyển A thành B.
Tôi muốn biết liệu có một đại diện trung gian hay có thể là sơ đồ mã hóa cho Khoảng cách Levenshtein. Không được sử dụng giữa hai cụm từ, mà chỉ là một mã được áp dụng cho một cụm từ duy nhất sao cho chỉ số ký tự không ảnh hưởng đến sự so sánh.
Trong B, 'q' bị thiếu so với A. Một so sánh chuỗi bình thường sẽ khớp 'The '
và sau đó thất bại 'uick brown fox...'
chỉ vì một ký tự đơn. Khoảng cách Levenshtein có thể được sử dụng để so sánh nó với cụm từ gốc A để so sánh dễ tha thứ hơn, nhưng trong trường hợp của tôi, tôi sẽ không có hai cụm từ, chỉ một cụm từ.
Vì vậy, tôi đang tìm cách mã hóa một cách rõ ràng một câu trong các gói thông tin, các nguyên tử nhỏ (tôi đang nghĩ một gói cho mỗi ký tự?) Duy trì trật tự cục bộ và vân vân, nhưng nếu một số gói là sai, nó không ảnh hưởng đến các nhân vật sau này.
Mỗi cụm từ duy nhất phải ánh xạ tới một và chỉ một biểu diễn mã hóa / trung gian duy nhất, Bộ A'
và B'
. Tính toán khoảng cách Levenshtein của A và B sau đó sẽ giống như tính toán giao điểm của các tập hợp A' = B'
.
Ngoài ra - nếu vấn đề này không có giải pháp (và điều này chắc chắn sẽ ánh xạ tới một khu vực nghiên cứu được thực hiện tốt, tôi sẽ không ngạc nhiên), một số lập luận / bằng chứng thuyết phục cho khả năng không thể giải quyết của nó.