Tôi làm việc trên khá nhiều mô hình thống kê, chẳng hạn như Mô hình Markov ẩn và Mô hình hỗn hợp Gaussian. Tôi thấy rằng việc đào tạo các mô hình tốt trong mỗi trường hợp này đòi hỏi một lượng lớn dữ liệu (> 20000 câu cho HMM) được lấy từ các môi trường tương tự như lần sử dụng cuối cùng. Câu hỏi của tôi là:
- Có một khái niệm về dữ liệu đào tạo "đủ" trong tài liệu không? Bao nhiêu dữ liệu đào tạo là "đủ tốt"?
- Làm cách nào tôi có thể tính được bao nhiêu câu cần thiết cho các mô hình "tốt" (mang lại độ chính xác nhận dạng tốt (> 80%)) được đào tạo?
- Làm thế nào để tôi biết nếu một mô hình đã được đào tạo đúng? Các hệ số trong mô hình sẽ bắt đầu biểu hiện các dao động ngẫu nhiên? Nếu vậy, làm thế nào để tôi phân biệt biến động ngẫu nhiên và thay đổi thực sự do cập nhật mô hình?
Xin vui lòng thử lại câu hỏi này trong trường hợp nó cần nhiều thẻ hơn.