Câu trả lời nhanh (và không thỏa mãn lắm) là "nó phụ thuộc" - cụ thể là nó phụ thuộc vào mô hình khái niệm cơ bản của bạn về cảm xúc con người là gì và nó thể hiện như thế nào trong hành vi bằng lời nói / bằng văn bản .
Là những gì bạn mô tả đặc điểm trung lập trong quan hệ với hóa trị tích cực và tiêu cực? Tài liệu có thể được đặt trên một số loại quy mô định lượng với trung tính kẹp giữa tích cực và tiêu cực? Vị trí này có hỗ trợ ngôn ngữ ít nhất là với các cụm từ đơn giản biểu thị các trạng thái hóa trị duy nhất ( giải pháp là { tuyệt vời > tốt > chấp nhận > nghèo > khủng khiếp }).
Như poster @dmb đã đề xuất, nếu đây là mô hình khái niệm của bạn, thì bạn có thể lập luận một cách hợp lý rằng sự trung lập rơi vào giữa pos / neg và tất cả những gì bạn phải làm là xác định ranh giới / mức cắt tối ưu . Do đó, bạn có thể gán trung tính cho trường hợp kiểm tra ngay cả khi trình phân loại không được đào tạo về trường hợp trung tính (mặc dù bạn cần một số cách để xác định các điểm ngắt này).
Nhưng những gì về trường hợp phức tạp hơn? Điều gì xảy ra khi bạn chuyển từ cấp độ của đơn vị phrasal sang các đơn vị cấp độ tình cảm và diễn ngôn lớn hơn? Làm thế nào bạn đánh giá câu " Tôi yêu táo nhưng ghét chuối "? Do các yếu tố tích cực và tiêu cực triệt tiêu lẫn nhau để tạo ra một trung tính? Bạn có thể dễ dàng thấy điều này lầy lội như thế nào khi chúng ta bắt đầu nói về các văn bản thực sự của con người. Theo ý kiến của tôi, tôi không nghĩ rằng nó đặc biệt có ý nghĩa khi nói về điểm cảm xúc ở cấp độ tài liệu. Thay vào đó, tôi tin rằng mọi người thể hiện cảm xúc / tình cảm hướng vào một đối tượng riêng lẻ "Tôi ghét chuối" -> ghét (subj, obj) được kết hợp thành các cấu trúc ở cấp độ diễn ngôn.
Vì vậy, vâng, tôi nghĩ rằng bạn có thể bảo vệ hợp lý việc sử dụng đầu ra một danh mục trung lập nếu chỉ sử dụng pos / neg để đào tạo ... NHƯNG bạn sẽ cần phải chứng minh việc sử dụng các điểm cắt cụ thể cũng như xem xét cách xử lý các tài liệu dài hơn điều đó thể hiện nhiều cảm xúc (mâu thuẫn). Khóa học hành động ưa thích của tôi là để mọi người đọc và gắn nhãn tweet là pos, neg, neut và hỗn hợp (sau đó đảm bảo độ tin cậy liên mã hóa) để tạo dữ liệu đào tạo của tôi ... hãy để thuật toán thực hiện công việc khó khăn trong việc tìm kiếm điểm cắt các giá trị.
sentiment 140 training set
bao gồm hai lớp, làm thế nào đến tập huấn luyện bao gồm ba lớp. Nó không rõ ràng.