Xử lý dữ liệu văn bản đa dạng


7

Tôi hiện đang làm việc với một bộ dữ liệu với nhiều độ dài tài liệu - bất cứ nơi nào từ một từ đến một trang văn bản đầy đủ. Ngoài ra, cấu trúc ngữ pháp và cách sử dụng dấu câu thay đổi tùy theo từng tài liệu. Mục tiêu là phân loại các tài liệu đó thành một trong khoảng 10-15 loại. Tôi hiện đang sử dụng hồi quy sườn và hồi quy logistic cho tác vụ và CV cho các giá trị alpha của sườn núi. Các vectơ đặc trưng là ngrams tf-idf.

Gần đây tôi nhận thấy rằng các tài liệu dài hơn ít có khả năng được phân loại. Tại sao điều này có thể là trường hợp, và làm thế nào một người có thể "bình thường hóa" cho loại biến thể này? Như một câu hỏi tổng quát hơn, làm thế nào một người thường xử lý các tập dữ liệu đa dạng? Các tài liệu có nên được nhóm dựa trên các số liệu như độ dài tài liệu, sử dụng dấu câu, sự chặt chẽ về ngữ pháp, v.v. và sau đó được đưa qua các phân loại khác nhau không?


Bạn có thể làm rõ câu hỏi của bạn bằng cách xác định các mục tiêu của phân tích này? Bản chất của 10 đến 15 loại là gì? Là những danh mục bạn định nghĩa một tiên nghiệm hay chúng là các cụm được đề xuất bởi chính dữ liệu? Tôi thấy rằng câu hỏi của bạn tập trung vào việc chọn một quy trình chuyển đổi / mã hóa dữ liệu tốt hơn là các phương pháp phân tích dữ liệu (ví dụ: phân tích phân biệt, phân loại).
MrMeritology

1
Nếu tài liệu của bạn bao gồm từ một từ đến toàn bộ trang văn bản và bạn muốn có bất kỳ sự kết hợp nào giữa độ dài / loại tài liệu trong bất kỳ danh mục nào, thì bạn sẽ cần sử dụng một phương pháp mã hóa rất đơn giản như Bag of Words. Bất cứ điều gì phức tạp hơn (ví dụ như kiểu ngữ pháp) sẽ không mở rộng phạm vi đó.
MrMeritology

Câu trả lời:


5

Tôi không chắc chắn làm thế nào bạn đang áp dụng khung hồi quy để phân loại tài liệu. Cách tôi tiếp cận vấn đề là áp dụng cách tiếp cận phân loại phân biệt đối xử tiêu chuẩn, chẳng hạn như SVM.

Trong cách tiếp cận phân loại phân biệt, khái niệm tương tự hoặc khoảng cách nghịch giữa các điểm dữ liệu (tài liệu trong trường hợp này) là then chốt. May mắn thay cho các tài liệu, có một cách tiêu chuẩn để xác định độ tương tự cặp. Đây là thước đo tương tự cosine tiêu chuẩn , sử dụng chuẩn hóa độ dài tài liệu để tính đến các độ dài tài liệu khác nhau.

Do đó, thực tế mà nói, trong độ tương tự cosine, bạn sẽ làm việc với các trọng số tương đối được chuẩn hóa theo độ dài tài liệu và do đó độ đa dạng chiều dài tài liệu không phải là vấn đề chính trong tính toán tương tự.

Người ta cũng phải cẩn thận khi áp dụng idf ở trọng số hạn. Nếu số lượng tài liệu không lớn đáng kể, biện pháp idf có thể không chính xác về mặt thống kê, do đó thêm tiếng ồn vào trọng số hạn. Đó cũng là một thông lệ tiêu chuẩn để bỏ qua các từ dừng và dấu chấm câu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.