Tôi có ấn tượng rằng phần lớn những gì đang được thực hiện ở đây là cực kỳ heuristic. Trên thực tế, hầu hết mọi người dường như áp dụng điều này vào <120 ký tự của các tuyên bố trên twitter. Có lẽ kết quả (trong khi không được tính theo cách này) không tốt hơn nhiều so với việc đếm các từ "tích cực" và "tiêu cực" với thông tin vị trí litte ("A tốt hơn B" = dương cho A, âm cho B)
Sau đó, khi bạn thấy các công ty mua một nguồn cấp dữ liệu twitter đầy đủ (đó là bao nhiêu mbit mỗi giây?) Và tuyên bố sẽ phân tích tình cảm về điều này, điều này khiến tôi tự hỏi liệu có bất kỳ giá trị thống kê nào ở đây không. Không có gì ngạc nhiên, ví dụ như Yahoo đã thất bại nặng nề trong việc dự đoán các cuộc bầu cử cho Nam Carolina: http://www.totechreview.com/web/39487/
Mọi người cách để tự hào và Keen trên chỉ là ở tất cả các khả năng xử lý khối lượng dữ liệu, họ hoàn toàn dường như bỏ bê việc chứng thực đúng hiệu suất của chúng.
Xin lỗi để được bi quan này về tình trạng của nghệ thuật.