Tự động hóa tương quan thống kê giữa các văn bản và


8

Tôi đang thu thập dữ liệu văn bản xung quanh các thông cáo báo chí, bài đăng trên blog, đánh giá, v.v về các sản phẩm và hiệu suất của một số công ty.

Cụ thể, tôi đang tìm kiếm xem liệu có mối tương quan giữa các loại nhất định và / hoặc nguồn của nội dung "văn bản" như vậy với định giá thị trường của các biểu tượng chứng khoán của công ty.

Tâm trí tương quan rõ ràng như vậy có thể được tìm thấy bởi tâm trí con người khá nhanh chóng - nhưng điều đó không thể mở rộng được. Làm thế nào tôi có thể tự động hóa việc phân tích các nguồn khác nhau như vậy?


Bạn có ý nghĩa gì bởi các loại nội dung "văn bản"?
Ami

Bạn có thể hiển thị một số dữ liệu mẫu?

@Srikant Vadali - dữ liệu mẫu có thể là thông cáo báo chí, tin tức, v.v. dữ liệu văn bản sẽ ở dạng tự do, có thể thu được từ nguồn cấp dữ liệu rss hoặc tương tự. Dữ liệu thị trường cho một công ty nhất định là những gì tôi đang tìm cách phân tích / tương quan. Vì vậy, có thể Blogger Bill viết một câu chuyện về một bản phát hành tính năng sắp tới của VMware và VMW tăng 10%. (Đơn giản hóa, tôi biết)
warren

Câu trả lời:


5

Học sinh của tôi làm điều này như dự án lớp học của họ. Một vài đội đạt độ chính xác 70%, với các mẫu khá nhỏ, điều đó không tệ.

Giả sử bạn có một số dữ liệu như thế này:

Return Symbol News Text
-4%  DELL   Centegra and Dell Services recognized with Outsourcing Center's...
7%   MSFT   Rising Service Revenues Benefit VMWare
1%   CSCO   Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4%   GOOG   Summary Box: Google eyes more government deals
7%   AAPL   Sohu says 2nd-quarter net income rises 10 percent on higher...

Bạn muốn dự đoán sự trở lại dựa trên văn bản.

Điều này được gọi là Khai thác văn bản.

Những gì bạn làm cuối cùng là tạo ra một ma trận khổng lồ như thế này:

Return Centegra Rising Services Recognized...
-4%    0.23     0      0.11     0.34
7%     0        0.1    0.23     0
...

Điều đó có một cột cho mỗi từ duy nhất và một hàng cho mỗi lần trả lại và điểm số cho mỗi từ. Điểm thường là điểm TFIDF hoặc tần số tương đối của từ trong tài liệu.

Sau đó, bạn chạy hồi quy và xem liệu bạn có thể dự đoán từ nào dự đoán sự trở lại. Có lẽ bạn sẽ cần sử dụng PCA trước.

Sách: Nguyên tắc cơ bản của khai thác văn bản tiên đoán, Weiss

Phần mềm: RapidMiner với Plugin văn bản hoặc R

Bạn cũng nên thực hiện tìm kiếm trên Google Scholar và đọc thông tin chi tiết.

Bạn có thể xem loạt video khai thác văn bản của tôi ở đây


có vẻ như là một khởi đầu thực sự hứa hẹn :)
warren

1

Như trên, bạn cần một tập hợp các bài báo và phản hồi, và sau đó bạn đào tạo ví dụ. một mạng lưới thần kinh cho họ. RapidMiner sẽ cho phép bạn làm điều này nhưng có nhiều công cụ khác hiện có cho phép bạn thực hiện hồi quy kích thước này. Lý tưởng nhất là biến phản hồi của bạn sẽ nhất quán (nghĩa là% thay đổi sau 1 giờ chính xác hoặc% thay đổi sau 1 ngày chính xác, v.v.).

Bạn cũng có thể muốn áp dụng một số loại lọc hoặc phân loại cho các biến đào tạo của mình, tức là các từ trong bài viết. Điều này có thể đơn giản như lọc một số từ (ví dụ: giới từ, đại từ) hoặc phức tạp hơn như sử dụng cú pháp để chọn từ nào sẽ đi vào hồi quy. Lưu ý rằng bất kỳ bộ lọc nào bạn làm đều có nguy cơ sai lệch kết quả.

Một số người tại Đại học Arizona đã tạo ra một hệ thống thực hiện điều này - bài báo của họ ở trên acm ở đây và bạn có thể thấy nó thú vị. http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2 (bạn sẽ cần đăng ký để truy cập nếu bạn không ở trường đại học). Các tài liệu tham khảo cũng có thể giúp chỉ cho bạn đi đúng hướng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.