"A" có liên quan đến "B" và "C". Làm thế nào để tôi chỉ ra rằng "B" và "C" có thể, theo ngữ cảnh này, cũng có liên quan với nhau?
Thí dụ:
Dưới đây là một vài tiêu đề về một vở kịch gần đây của Broadway:
- Glengarry Glen Ross của David Mamet, diễn viên chính Al Pacino, mở ra trên sân khấu
- Al Pacino trong 'Glengarry Glen Ross': Các nhà phê bình đã nghĩ gì?
- Al Pacino kiếm được những đánh giá mờ nhạt cho lượt chơi của Broadway
- Đánh giá nhà hát: Glengarry Glen Ross đang bán những ngôi sao của mình
- Glengarry Glen Ross; Này, ai đã giết đèn Klieg?
Vấn đề:
Chạy một kết hợp chuỗi mờ trên các bản ghi này sẽ thiết lập một số mối quan hệ, nhưng không phải là các mối quan hệ khác, mặc dù một người đọc con người có thể chọn chúng từ ngữ cảnh trong các bộ dữ liệu lớn hơn nhiều.
Làm cách nào để tìm mối quan hệ gợi ý số 3 có liên quan đến số 4? Cả hai có thể dễ dàng kết nối với # 1, nhưng không thể kết nối với nhau.
Có một tên (Googlable) cho loại dữ liệu hoặc cấu trúc này không? Tôi đang tìm loại thuật toán nào?
Mục tiêu:
Đưa ra 1.000 tiêu đề, một hệ thống tự động gợi ý rằng 5 mục này có lẽ đều giống nhau.
Thành thật mà nói, đã quá lâu kể từ khi tôi lập trình tôi không biết làm thế nào để nói rõ vấn đề này. (Tôi không biết những gì tôi không biết, nếu điều đó có ý nghĩa).
Đây là một dự án cá nhân và tôi đang viết nó bằng Python. Cảm ơn trước sự giúp đỡ, lời khuyên và gợi ý!