Tôi đang cố gắng phân loại tin nhắn thành các loại khác nhau bằng cách sử dụng một SVM. Tôi đã biên soạn một danh sách các từ / ký hiệu mong muốn từ tập huấn luyện.
Đối với mỗi vectơ đại diện cho một thông báo, tôi đặt hàng tương ứng thành 1
nếu từ đó hiện diện:
"kho" là: [mary, little, lamb, star, twinkle]
tin nhắn đầu tiên: "mary had a little lamb" -> [1 1 1 0 0]
tin nhắn thứ hai: "ngôi sao nhỏ lấp lánh" -> [0 1 0 1 1]
Tôi nghĩ rằng đây là thiết lập khá phổ biến với SVM, nhưng câu hỏi của tôi là, với hàng ngàn từ trong tập hợp, nếu chỉ có 1-2 từ cho mỗi tin nhắn thực sự hiển thị thì sao? Là sự phụ thuộc tuyến tính của tập các vectơ đào tạo của tôi sẽ ảnh hưởng xấu đến khả năng hội tụ của thuật toán?
flexmix
- mặc dù, tôi đã có "Tìm hiểu R" trên lịch của mình trong một vài năm nay!