Tôi có một tập dữ liệu lớn về cây và tôi muốn tìm kiếm nó bằng cách chỉ định một treelet (sơ đồ con được kết nối). Truy vấn sẽ trả về tất cả các phần của treelet trong tập dữ liệu.
Có thuật toán hiệu quả để làm như vậy?
Tôi đã nghĩ về một cái gì đó giống như các mảng hậu tố, tuy nhiên, mã hóa các cây một cách ngây thơ dưới dạng các chuỗi (theo thứ tự truyền tải cố định của các nút của chúng) sẽ không hoạt động, vì bộ tìm kiếm có thể có bất kỳ hình dạng tùy ý nào.
CẬP NHẬT:
Một số chi tiết về các trường hợp điển hình tôi mong đợi:
Bộ dữ liệu sẽ bao gồm ít nhất hàng chục nghìn cây, mỗi cây bao gồm khoảng hai mươi đến ba mươi nút. Các cây sẽ không phải là nhị phân, nhưng số con điển hình trên mỗi nút sẽ nhỏ (thường không lớn hơn bốn hoặc năm, mặc dù trong một số trường hợp suy biến, nó có thể đạt tới khoảng ba mươi). Số lượng nhãn sẽ trong hàng chục ngàn.
Tôi cần điều đó cho các ứng dụng NLP: mỗi cây sẽ là phân tích phụ thuộc của một câu, mỗi nút đại diện cho một từ xuất hiện và mỗi nhãn một từ trong từ điển (với một số trang trí).