Để thử nghiệm, chúng tôi muốn sử dụng Biểu tượng cảm xúc được nhúng trong nhiều Tweet làm dữ liệu huấn luyện / sự thật cơ bản để phân tích định lượng đơn giản. Tweets thường không có cấu trúc để NLP hoạt động tốt.
Dù sao, có 722 Emoji trong Unicode 6.0 và có thể 250 khác sẽ được thêm vào Unicode 7.0.
Có một cơ sở dữ liệu (ví dụ như SentiWordNet) có chứa các chú thích tình cảm cho chúng không?
(Lưu ý rằng SentiWordNet không cho phép nhập nhằng nghĩa, quá xem xét ví dụ. Hài hước , đó không chỉ là tích cực: "thị hiếu này funny" có lẽ là không tích cực ... cùng sẽ tổ chức cho ;-)
ví dụ Nhưng tôi không nghĩ rằng đây là khó khăn hơn. cho Emoji hơn là những từ thông thường ...)
Ngoài ra, nếu bạn có kinh nghiệm sử dụng chúng để phân tích tình cảm, tôi rất muốn nghe.