Dữ liệu tình cảm cho Emoji


12

Để thử nghiệm, chúng tôi muốn sử dụng Biểu tượng cảm xúc được nhúng trong nhiều Tweet làm dữ liệu huấn luyện / sự thật cơ bản để phân tích định lượng đơn giản. Tweets thường không có cấu trúc để NLP hoạt động tốt.

Dù sao, có 722 Emoji trong Unicode 6.0 và có thể 250 khác sẽ được thêm vào Unicode 7.0.

Có một cơ sở dữ liệu (ví dụ như SentiWordNet) có chứa các chú thích tình cảm cho chúng không?

(Lưu ý rằng SentiWordNet không cho phép nhập nhằng nghĩa, quá xem xét ví dụ. Hài hước , đó không chỉ là tích cực: "thị hiếu này funny" có lẽ là không tích cực ... cùng sẽ tổ chức cho ;-)ví dụ Nhưng tôi không nghĩ rằng đây là khó khăn hơn. cho Emoji hơn là những từ thông thường ...)

Ngoài ra, nếu bạn có kinh nghiệm sử dụng chúng để phân tích tình cảm, tôi rất muốn nghe.


Đừng tin rằng một cái gì đó như thế này tồn tại, nhưng sẽ thích nó nếu bạn đặt một cái gì đó cho cái này!
indico

Erich Schubert, tôi đang tìm kiếm điều tương tự chính xác! Bạn có bất kỳ cơ hội để tìm một tài nguyên hữu ích cho nó?
saeed mehrabi

Câu trả lời:


4

Tổng cộng 972 biểu tượng cảm xúc không thực sự lớn đến mức không thể gắn nhãn thủ công, nhưng tôi nghi ngờ rằng chúng sẽ hoạt động như một sự thật nền tảng tốt. Các nguồn như Twitter chứa đầy sự mỉa mai, châm biếm và các thiết lập phức tạp khác trong đó các biểu tượng cảm xúc (như biểu tượng cảm xúc hoặc biểu tượng cảm xúc) có nghĩa là một cái gì đó khác với cách giải thích thông thường. Ví dụ, ai đó có thể viết "xxx lừa dối khách hàng của họ, và bây giờ họ đang tự lừa dối mình! Ha ha ha !: D". Đây chắc chắn là bình luận tiêu cực, nhưng tác giả rất vui khi thấy công ty xxx gặp rắc rối và do đó thêm biểu tượng cảm xúc tích cực. Những trường hợp này không thường xuyên, nhưng chắc chắn không phù hợp với sự thật nền tảng.

Cách tiếp cận phổ biến hơn nhiều là sử dụng biểu tượng cảm xúc như một hạt giống để thu thập tập dữ liệu thực tế . Ví dụ, trong bài báo này, các tác giả sử dụng biểu tượng cảm xúc và thẻ băm cảm xúc để lấy từ vựng của các từ hữu ích để phân loại thêm.


1
Thật ra tôi không đồng ý. Vì tác giả thích họ gặp rắc rối, đó là một tình cảm tích cực ở đó. Đó là một nhận xét tiêu cực về công ty, nhưng vẫn là một tình cảm tích cực của tác giả. Trong kịch bản đơn giản hơn này (tôi không nói đây là mục tiêu hoàn chỉnh), việc dự đoán biểu tượng cảm xúc mà người dùng sẽ thêm vào bài đăng của mình nghe có vẻ như là một nhiệm vụ hợp lý với tôi. Trong thực tế, bạn có thể xây dựng nhiều trường hợp biểu tượng cảm xúc sẽ rất cần thiết .. Hãy xem xét "Got f_cked :-)" như trái ngược với "Got f_cked :-(."
Erich Schubert

Trong trường hợp bạn cố gắng ước tính cảm xúc của người đó trái ngược với thái độ của người đó đối với một chủ đề, thì có, ví dụ này không hoạt động. Nhưng có nhiều người khác. Sarcasm là trường hợp phổ biến. Hãy xem xét câu "oh yeah, bạn là 'chủ nhân' thực sự;)". Con người có thể nắm bắt bối cảnh tiêu cực, nhưng biểu tượng cảm xúc tích cực sẽ chỉ ra cảm xúc tích cực. Nhưng tôi chưa thực sự hiểu điều đó: bạn có muốn trích xuất thông tin chủ quan từ các tweet hay chỉ dự đoán các biểu tượng cảm xúc có thể? Mặc dù chúng có vẻ giống nhau, nhưng nhiệm vụ thứ hai không thực sự là về phân tích tình cảm. Không trực tiếp, ít nhất.

Nụ cười "nháy mắt" thường không được coi là "tích cực", nhưng "mỉa mai" ... đó là lý do tại sao một từ điển tốt như SentiWordNet có ý nghĩa. Nếu bạn trông buồn cười trong SentiWordNet, thì cũng có nhiều hơn một nghĩa! sentiwordnet.isti.cnr.it/search.php?q=funny (Vì vậy, nó không nhỏ để chú thích chúng bằng tay, bởi vì nó không đơn giản như tích cực / tiêu cực, nhưng bạn nên làm như xác nhận interrater-thỏa thuận thông thường, vv)
Erich Schubert

Bây giờ tôi thấy ý tưởng của bạn. Nhưng tôi không thực sự nghĩ rằng nó sẽ hoạt động, chỉ vì (hầu hết) biểu tượng cảm xúc thực sự không giống như một công cụ dự đoán tốt cho tôi và bạn rõ ràng không muốn sử dụng các tính năng khác. Dù sao, đây chỉ là một ý kiến ​​dựa trên kinh nghiệm của tôi, chỉ có dữ liệu mới có thể đưa ra câu trả lời thực sự. Chúc may mắn!

Ai nói tôi không muốn sử dụng các tính năng khác? Nhưng đối với những điều này tôi đã thấy cơ sở dữ liệu ...
Erich Schubert

0

Tôi thấy repo Github này hữu ích (một khởi đầu tốt): https://github.com/wooorm/emoji-emotion Danh sách biểu tượng cảm xúc được xếp hạng cho hóa trị với một số nguyên giữa âm năm (âm) và cộng năm (dương).

Xem danh sách unicode-biểu tượng cảm xúc được hỗ trợ: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Lưu ý rằng một số biểu tượng cảm xúc nhận được các cực có thể gây nhầm lẫn, chẳng hạn như bị mắc kẹt_tunue_closes_eyes (0), do được sử dụng cho cả cảm xúc tích cực và tiêu cực.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.