Phân loại các cuộc hội thoại dựa trên nội dung


8

Tôi muốn có thể thiết kế một bộ phân loại có thể phân biệt giữa các loại cuộc trò chuyện khác nhau (không nhất thiết phải nói bất cứ điều gì về tâm trạng, sự chân thành hoặc kết quả, đó là một chút quá xa vời).

Ví dụ, để biết rằng trong số 50 mẫu hội thoại, 10 liên quan đến cả hai bên tìm kiếm thông tin về một sự kiện trong tương lai, 30 dường như không có mục tiêu và 10 liên quan đến một bên tìm kiếm thông tin từ một sự kiện khác trong quá khứ (thực sự thuật toán sẽ phân loại chúng là loại I, II hoặc III mà không liên quan đến hoàn cảnh thực tế).

Nói cách khác, thứ tự của các diễn giả sẽ quan trọng cùng với nội dung, có lẽ đã giúp ích bằng cách gieo mầm thuật toán với các từ khóa nhất định.

Có một hệ thống phân loại có thể thực hiện nhiệm vụ này với độ chính xác khá cao không?


1
để làm rõ, dữ liệu văn bản này, hay dữ liệu âm thanh?
tdc

1
@tdc Dữ liệu văn bản, xin lỗi
jonsca 17/212

Câu trả lời:


4

Đây là cách tôi sẽ tiếp cận nó. Bạn thực sự cần phải kiểm tra xem một văn bản thuộc lớp I hay III (nếu không nó sẽ là lớp II).

  • Đầu tiên, xác định một túi từ cho lớp I và III. Bạn có thể tự làm điều này
  • Đối với mỗi văn bản, hãy tính tf-idf cho các từ trong hai lớp này và tính tổng (lấy hai tổng).
  • Nếu một trong hai khoản tiền này vượt quá ngưỡng xác định trước thì nó thuộc về lớp đó.

Nếu bạn có một bộ dữ liệu học tập đủ lớn, bạn có thể dễ dàng tìm ra hai túi từ là gì, cũng như hai ngưỡng cho chúng.


Tôi vừa mới kiểm tra tf-idf khi đọc câu hỏi của bạn. Âm thanh đầy hứa hẹn.
jonsca
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.