Tôi có một tải tài liệu, trong đó có tải các cặp giá trị khóa trong đó. Khóa có thể không phải là duy nhất nên có thể có nhiều khóa cùng loại với các giá trị khác nhau.
Tôi muốn so sánh sự giống nhau của các phím giữa 2 tài liệu. Cụ thể hơn là sự tương tự chuỗi của các giá trị này. Tôi đang nghĩ đến việc sử dụng một cái gì đó giống như Thuật toán Smith-Waterman để so sánh sự giống nhau.
Vì vậy, tôi đã vẽ một bức tranh về cách tôi nghĩ về việc thể hiện dữ liệu -
Các giá trị trong các ô là kết quả của thuật toán smith-waterman (hoặc một số số liệu tương tự chuỗi khác).
Hình ảnh mà ma trận này đại diện cho một loại "vật" quan trọng sau đó tôi cần thêm điểm tương tự "thứ" vào một vectơ 0 hoặc 1. Điều đó ok.
Điều tôi không thể hiểu là làm thế nào tôi xác định được ma trận tương tự hay không tương tự - lý tưởng là tôi muốn chuyển đổi ma trận thành một số trong khoảng từ 0 đến 1 và sau đó tôi sẽ chỉ đặt một ngưỡng để ghi điểm là 0 hoặc 1.
Bất kỳ ý tưởng làm thế nào tôi có thể tạo ra một số điểm của ma trận? Có ai biết bất kỳ thuật toán nào thực hiện loại điều này không (rõ ràng những thứ như cách thợ rèn hoạt động là loại áp dụng).