Tôi muốn sử dụng dữ liệu phi nguyên tử, như một tính năng để dự đoán. Giả sử tôi có Bảng với các tính năng này:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Tôi muốn dự đoán / phân loại, ví dụ, Cột 2.
Tôi đang làm một cái gì đó để tự động trả lời các câu hỏi, bất kỳ loại câu hỏi nào, như "Foo Sinh ra ở đâu?" ...
Trước tiên tôi thực hiện một truy vấn đến một công cụ tìm kiếm, sau đó tôi nhận được một số dữ liệu văn bản, sau đó tôi thực hiện tất cả các công cụ phân tích cú pháp (gắn thẻ, xuất phát, phân tích cú pháp, tách ...)
Cách tiếp cận đầu tiên của tôi là tạo một bảng, mỗi hàng với một dòng văn bản và rất nhiều tính năng, như "Từ đầu tiên", "Thẻ của từ đầu tiên", "Chunks", v.v ...
Nhưng với cách tiếp cận này, tôi đang thiếu các mối quan hệ giữa các câu.
Tôi muốn biết nếu có một thuật toán nhìn vào bên trong các cấu trúc cây (hoặc vectơ) và tạo ra các mối quan hệ và trích xuất bất cứ điều gì có liên quan để dự đoán / phân loại. Tôi muốn biết về một thư viện thực hiện điều đó hơn là một thuật toán mà tôi phải thực hiện.