Học sinh của tôi làm điều này như dự án lớp học của họ. Một vài đội đạt độ chính xác 70%, với các mẫu khá nhỏ, điều đó không tệ.
Giả sử bạn có một số dữ liệu như thế này:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Bạn muốn dự đoán sự trở lại dựa trên văn bản.
Điều này được gọi là Khai thác văn bản.
Những gì bạn làm cuối cùng là tạo ra một ma trận khổng lồ như thế này:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Điều đó có một cột cho mỗi từ duy nhất và một hàng cho mỗi lần trả lại và điểm số cho mỗi từ. Điểm thường là điểm TFIDF hoặc tần số tương đối của từ trong tài liệu.
Sau đó, bạn chạy hồi quy và xem liệu bạn có thể dự đoán từ nào dự đoán sự trở lại. Có lẽ bạn sẽ cần sử dụng PCA trước.
Sách: Nguyên tắc cơ bản của khai thác văn bản tiên đoán, Weiss
Phần mềm: RapidMiner với Plugin văn bản hoặc R
Bạn cũng nên thực hiện tìm kiếm trên Google Scholar và đọc thông tin chi tiết.
Bạn có thể xem loạt video khai thác văn bản của tôi ở đây