Tôi không chắc câu hỏi này có thuộc về đây không và tôi xin lỗi nếu không. Những gì tôi đang tìm kiếm là phát triển một cách lập trình, trong đó tôi có thể xác định một cách chính xác liệu một chuỗi nhất định có "thuộc" trong một chuỗi các chuỗi hay không. Ví dụ: nếu tôi có túi 10.000 tên thành phố của Hoa Kỳ và sau đó tôi có chuỗi "Philadelphia", tôi muốn có một số đo định lượng về khả năng 'Philadelphia' là tên thành phố của Hoa Kỳ dựa trên tên thành phố Hoa Kỳ mà tôi đã biết. Mặc dù tôi biết rằng tôi sẽ không thể tách tên thành phố thật khỏi tên thành phố giả trong bối cảnh này, nhưng ít nhất tôi sẽ mong đợi có các chuỗi như "123,75" và "Con cáo đỏ nhanh chóng nhảy qua những con chó nâu lười biếng" được loại trừ một số ngưỡng.
Để bắt đầu, tôi đã xem Levenshtein Khoảng cách và tìm hiểu một chút về cách áp dụng cho các vấn đề ít nhất là tương tự như vấn đề tôi đang cố gắng giải quyết. Một ứng dụng thú vị mà tôi tìm thấy là phát hiện đạo văn, với một bài viết mô tả khoảng cách Levenshtein được sử dụng với thuật toán Smith-Waterman đã sửa đổi để chấm điểm các bài báo dựa trên khả năng chúng là phiên bản được viết bằng giấy của một tờ giấy cơ bản. Câu hỏi của tôi là nếu bất cứ ai có thể chỉ cho tôi đi đúng hướng với các thuật toán hoặc phương pháp đã được thiết lập khác có thể giúp tôi. Tôi có cảm giác rằng đây có thể là một vấn đề mà ai đó trong quá khứ đã cố gắng giải quyết nhưng cho đến nay Google-fu của tôi đã làm tôi thất bại.