Những thuật toán phân loại nào cần thử để phân loại dữ liệu văn bản thành 300 loại


8

Tôi có 40000 hàng dữ liệu văn bản của miền chăm sóc sức khỏe. Dữ liệu có một cột cho văn bản (2-5 câu) và một cột cho thể loại của nó. Tôi muốn phân loại nó thành 300 loại. Một số loại là độc lập trong khi một số có liên quan phần nào. Phân phối dữ liệu giữa các danh mục không đồng nhất, tức là một số danh mục (khoảng 40 trong số chúng) có ít dữ liệu hơn khoảng 2-3 hàng.

Tôi đang đính kèm xác suất đăng nhập của từng lớp / loại. (HOẶC phân phối các lớp học) ở đây. Lớp logarit trước của xác suất (phân phối dữ liệu lớp log)


2
Cần thêm thông tin. Mối quan hệ giữa các loại là gì? Là các thể loại loại trừ lẫn nhau? Có sự chồng chéo phân loại?
Ryan J. Smith

3
Chào mừng bạn đến với Khoa học dữ liệu! Hiện tại câu hỏi của bạn có chất lượng rất thấp. Bạn không thể mong đợi câu trả lời chất lượng mà không hỏi những câu hỏi được mô tả tốt. Vui lòng cung cấp thêm thông tin (mô tả tốt hơn về dữ liệu, nền tảng của bạn, ngôn ngữ lập trình, phương pháp nghiên cứu, v.v.).
Wojciech Walczak

Câu trả lời:


8

Nói chung, một điểm khởi đầu tốt cho các vấn đề như thế này là phân loại Naive Bayes (NB) bằng cách sử dụng một mô hình từ đơn giản. Dưới đây là một số slide mô tả NB như được áp dụng để xử lý ngôn ngữ tự nhiên . Không có gì đặc biệt lạ mắt về phương pháp này, nhưng nó khá dễ thực hiện và sẽ cho bạn một điểm khởi đầu để mở rộng từ đó.

Khi bạn đã tìm thấy một số kết quả ban đầu giả định tính độc lập giữa các tính năng và nhãn đầu ra của bạn, có lẽ bạn sẽ có cảm giác tốt hơn về nơi mô hình yếu. Từ thời điểm đó trở đi, bạn có thể áp dụng một số kỹ thuật tính năng (có thể là TF-IDF ) cũng như một số xử lý bài để xử lý các mẫu được gán cho các danh mục liên quan.


1
Tôi đánh giá cao câu trả lời của bạn và các tài liệu tham khảo ở đây, ngay cả khi câu hỏi mơ hồ. Nó thực sự hữu ích với tôi và có lẽ nhiều người cũng bị ướt chân. Cảm ơn! :)
Brian Topping

Cảm ơn, tôi đã bắt đầu làm việc với các vịnh ngây thơ và kỹ thuật nói chung. Còn điều gì khác ngoài những vịnh ngây thơ mà tôi nên thử không?
Alok Nayak

Chà, bạn vẫn chưa cung cấp rất nhiều chi tiết về chính dữ liệu hoặc chi tiết cụ thể về những gì bạn đã làm, vì vậy rất khó để đưa ra cho bạn các đề xuất cụ thể. Điều tốt nhất tôi có thể nói là xem xét kết hợp một số cấu trúc tuần tự vào mô hình của bạn và các tính năng thông qua việc sử dụng mô hình bigram hoặc markov / máy trạng thái hữu hạn.
Ryan J. Smith
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.