Phân tích tình cảm Twitter: Phát hiện các tweet trung tính mặc dù chỉ đào tạo về các lớp tích cực và tiêu cực


7

Tôi là một người mới khi nói đến máy học. Tôi đang cố gắng để có được kinh nghiệm bằng cách phân tích các thuật toán học tập có giám sát khác nhau bằng thư viện scthon-learn của python. Tôi đang sử dụng bộ dữ liệu sentiment140 gồm 1,6 triệu tweet để phân tích tình cảm bằng nhiều thuật toán khác nhau.

Tôi không biết liệu đó có phải là một câu hỏi ngu ngốc không, nhưng tôi đã tự hỏi liệu có thể phân loại thành ba lớp (tích cực, tiêu cực và trung lập) khi bạn chỉ đào tạo qua hai lớp (tích cực và tiêu cực). Tập huấn luyện sentiment140 chỉ bao gồm hai lớp (tích cực và tiêu cực) trong tổng số 1,6 triệu tweet nhưng bộ kiểm tra của chúng bao gồm 500 tweet trên ba lớp (tích cực, tiêu cực và trung tính), vì vậy tôi phải suy nghĩ.

Vì vậy, điều này là có thể? Nếu có, làm thế nào để tôi tiến hành xác định các tweet trung tính? Theo trực giác, tôi có thể sử dụng để tìm xác suất có điều kiện của từng tweet được phân loại trong thử nghiệm được đặt trên mỗi lớp (sử dụng dự đoán_proba) và cho biết nếu nó trung tính nếu nó nằm dưới ngưỡng nhất định (dưới 0,7) cho cả hai lớp dương và âm . Đây có phải là con đường đúng đắn?


khi chỉ sentiment 140 training setbao gồm hai lớp, làm thế nào đến tập huấn luyện bao gồm ba lớp. Nó không rõ ràng.
yazhi

Nó thực sự là như vậy. Bạn có thể tải xuống kho từ liên kết và tự mình xem.
tedghosh

@tedghosh: Có lỗi nào trong câu của bạn không (trích dẫn mà blueSerpent đã trích dẫn)? Không có nghĩa gì, vì bạn mô tả tập huấn luyện hai lần theo hai cách không tương thích khác nhau. Là cái thứ hai thực sự là một bộ thử nghiệm ?
Neil Slater

@NeilSlater oops xin lỗi chỉ cần nhận ra lỗi của tôi bây giờ và chỉnh sửa câu hỏi. Bạn nói đúng, cái thứ hai là bộ thử nghiệm (500 tweet).
tedghosh

Câu trả lời:


3

Câu trả lời nhanh (và không thỏa mãn lắm) là "nó phụ thuộc" - cụ thể là nó phụ thuộc vào mô hình khái niệm cơ bản của bạn về cảm xúc con người là gì và nó thể hiện như thế nào trong hành vi bằng lời nói / bằng văn bản .

Là những gì bạn mô tả đặc điểm trung lập trong quan hệ với hóa trị tích cực và tiêu cực? Tài liệu có thể được đặt trên một số loại quy mô định lượng với trung tính kẹp giữa tích cực và tiêu cực? Vị trí này có hỗ trợ ngôn ngữ ít nhất là với các cụm từ đơn giản biểu thị các trạng thái hóa trị duy nhất ( giải pháp là { tuyệt vời > tốt > chấp nhận > nghèo > khủng khiếp }).

Như poster @dmb đã đề xuất, nếu đây là mô hình khái niệm của bạn, thì bạn có thể lập luận một cách hợp lý rằng sự trung lập rơi vào giữa pos / neg và tất cả những gì bạn phải làm là xác định ranh giới / mức cắt tối ưu . Do đó, bạn có thể gán trung tính cho trường hợp kiểm tra ngay cả khi trình phân loại không được đào tạo về trường hợp trung tính (mặc dù bạn cần một số cách để xác định các điểm ngắt này).

Nhưng những gì về trường hợp phức tạp hơn? Điều gì xảy ra khi bạn chuyển từ cấp độ của đơn vị phrasal sang các đơn vị cấp độ tình cảm và diễn ngôn lớn hơn? Làm thế nào bạn đánh giá câu " Tôi yêu táo nhưng ghét chuối "? Do các yếu tố tích cực và tiêu cực triệt tiêu lẫn nhau để tạo ra một trung tính? Bạn có thể dễ dàng thấy điều này lầy lội như thế nào khi chúng ta bắt đầu nói về các văn bản thực sự của con người. Theo ý kiến ​​của tôi, tôi không nghĩ rằng nó đặc biệt có ý nghĩa khi nói về điểm cảm xúc ở cấp độ tài liệu. Thay vào đó, tôi tin rằng mọi người thể hiện cảm xúc / tình cảm hướng vào một đối tượng riêng lẻ "Tôi ghét chuối" -> ghét (subj, obj) được kết hợp thành các cấu trúc ở cấp độ diễn ngôn.

Vì vậy, vâng, tôi nghĩ rằng bạn có thể bảo vệ hợp lý việc sử dụng đầu ra một danh mục trung lập nếu chỉ sử dụng pos / neg để đào tạo ... NHƯNG bạn sẽ cần phải chứng minh việc sử dụng các điểm cắt cụ thể cũng như xem xét cách xử lý các tài liệu dài hơn điều đó thể hiện nhiều cảm xúc (mâu thuẫn). Khóa học hành động ưa thích của tôi là để mọi người đọc và gắn nhãn tweet là pos, neg, neut và hỗn hợp (sau đó đảm bảo độ tin cậy liên mã hóa) để tạo dữ liệu đào tạo của tôi ... hãy để thuật toán thực hiện công việc khó khăn trong việc tìm kiếm điểm cắt các giá trị.


0

Nói kết quả của một mẫu là P(poSTôitTôive|Smộtmptôie)= =0,15P(negmộttTôive|Smộtmptôie)= =0,05, trái ngược với việc chỉ lấy nhóm xác suất cao hơn, bạn có thể đặt ngưỡng tối thiểu, giả sử là 0,3. Vì cả hai đều ở dưới mức này nên bạn phân loại nó là trung tính


1
Không nên P (pos | mẫu) + P (neg | mẫu) là 1?
stmax

Đúng vậy, bạn có thể phân loại nó thành trung tính chẳng hạn khi cả hai đều không quá 0,65
Jan van der Vegt

Nếu các phân loại riêng biệt được sử dụng để đào tạo cho các lớp tích cực và tiêu cực, thì P (pos | mẫu) + P (neg | mẫu) không cần phải là 1.
Bolaka

0

Điều này thực sự phụ thuộc vào mức độ toàn diện của một mô hình bạn sử dụng. Trong hầu hết các trường hợp, mô hình phân tích tình cảm khá đơn giản và dựa trên "túi từ". Trong trường hợp này, các mẫu tích cực và tiêu cực trong tập huấn luyện cho phép bạn, về cơ bản, khai thác cả những từ mang cảm xúc tích cực và tiêu cực.

Bây giờ hãy tưởng tượng bạn hoàn thành công việc này một cách hoàn hảo nhưng bạn có một số văn bản không chứa các từ tích cực cũng như tiêu cực. Văn bản này có thể được coi là trung tính.

Một trường hợp khác là khi văn bản chứa các từ tích cực và tiêu cực với số lượng bằng nhau. Có khả năng, điều này có nghĩa là văn bản chứa cả câu phủ định và câu tích cực. Hoặc có thể có những phủ định trong văn bản đảo ngược tình cảm của một số từ. Văn bản này có thể được coi là trung tính? Có lẽ. Nhưng các mô hình "túi từ" đơn giản không thể phân biệt trường hợp này với trường hợp trước.

Tất cả điều này có nghĩa là dữ liệu đào tạo chỉ chứa các mặt tích cực và tiêu cực vẫn có thể nhận ra các văn bản "trung lập". Nhưng bạn sẽ cần suy nghĩ cẩn thận về các tiêu chí trung lập có thể chấp nhận cho trường hợp sử dụng của bạn và về mô hình bạn sẽ sử dụng để bạn có được hành vi chính xác mà bạn muốn.

Để biết thêm thông tin về chủ đề này, bạn có thể muốn xem bài đăng trên blog này của một số đồng nghiệp và tôi đã viết về việc tạo bộ dữ liệu đào tạo và kiểm tra: https://blog.griddoperics.com/creating-training-and-test-data-sets -và chuẩn bị dữ liệu cho twitter-stream-tình cảm-phân tích-xã hội-phim-đánh giá

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.