Tôi đang tìm cách biên dịch một tập hợp tình cảm cho các bài báo bằng nhiều ngôn ngữ (~ 100k mỗi lang. Cho một thử nghiệm học máy) trong đó mỗi bài viết được gắn nhãn tích cực, trung tính hoặc tiêu cực. Tôi đã tìm kiếm cao và thấp nhưng không thể tìm thấy bất cứ thứ gì như thế này có sẵn. Tôi đã có các bài báo tin tức trong mỗi ngôn ngữ.
Câu hỏi của tôi với cộng đồng là làm thế nào bạn đạt được điều này chính xác nhất có thể?
Lần đầu tiên tôi nhìn vào Mechanical Turk , nơi bạn có thể thuê người dán nhãn cho mỗi bài viết theo cách thủ công cho bạn. Và đây có thể là cách tốt nhất về phía trước nhưng đắt tiền .
Tiếp theo, tôi nghĩ về tất cả những thư viện phổ biến hiện có (một số người đã sử dụng Mechanical Turk) thực hiện phân tích tình cảm ( AFINN , Bing Liu , MPQA , VADER , TextBlob , v.v.)
- Ý tưởng tình cảm
Ý tưởng hiện tại của tôi là tôi chạy từng bài báo trên một vài trong số các thư viện này (ví dụ AFINN, sau đó là TextBlob, rồi VADER) và cho những bài viết thể hiện sự tích cực, tiêu cực, trung lập nhất trí mặc dù cả ba lib đều được chấp nhận vào kho văn bản. Điều đó có vẻ như là một quá trình xác minh khá mạnh mẽ và hợp lý?
- Ý tưởng ngôn ngữ
Vấn đề tiếp theo liên quan đến chính ngôn ngữ. 3 đường ống lib ở trên có thể được thực hiện bằng tiếng Anh mà không có vấn đề gì. Tuy nhiên, các thư viện này không đồng nhất hỗ trợ nhiều ngôn ngữ khác (Tây Ban Nha, Đức, Trung Quốc, Ả Rập, Pháp, Bồ Đào Nha, v.v.) Tôi đã suy nghĩ về việc làm những gì VADER gợi ý và lấy các câu chuyện tin tức bằng các ngôn ngữ không phải tiếng Anh và gửi chúng qua Google Dịch API để đưa chúng sang tiếng Anh và sau đó gửi chúng qua 3 đường dẫn lib hiện có ở trên. Tôi nhận ra rằng sẽ có một sự mất mát về ngữ nghĩa cho nhiều bài viết. Tuy nhiên, hy vọng của tôi là đủ bài viết sẽ dịch đủ tốt để một số người vượt qua 3 đường dẫn lib.
Tôi biết rằng việc dịch và gửi các bài báo qua đường ống tình cảm mù quáng này có thể mất 100 nghìn và mang lại kết quả 10 nghìn. Tôi ổn với điều đó. Sự chính xác và sau đó giá cả là mối quan tâm của tôi. Tôi có thể dễ dàng có được nhiều dữ liệu hơn.
Bạn sẽ làm gì có thể là một cách chính xác hơn để đạt được một tình cảm của các bài báo? Có một thực hành được sử dụng tốt nhất hiện có để lắp ráp một kho văn bản như thế này?