Có một khái niệm về dữ liệu đủ điều kiện trên các mô hình thống kê đào tạo?

Tôi làm việc trên khá nhiều mô hình thống kê, chẳng hạn như Mô hình Markov ẩn và Mô hình hỗn hợp Gaussian. Tôi thấy rằng việc đào tạo các mô hình tốt trong mỗi trường hợp này đòi hỏi một lượng lớn dữ liệu (> 20000 câu cho HMM) được lấy từ các môi trường tương tự như lần sử dụng cuối cùng. Câu hỏi của tôi là:

Có một khái niệm về dữ liệu đào tạo "đủ" trong tài liệu không? Bao nhiêu dữ liệu đào tạo là "đủ tốt"?
Làm cách nào tôi có thể tính được bao nhiêu câu cần thiết cho các mô hình "tốt" (mang lại độ chính xác nhận dạng tốt (> 80%)) được đào tạo?
Làm thế nào để tôi biết nếu một mô hình đã được đào tạo đúng? Các hệ số trong mô hình sẽ bắt đầu biểu hiện các dao động ngẫu nhiên? Nếu vậy, làm thế nào để tôi phân biệt biến động ngẫu nhiên và thay đổi thực sự do cập nhật mô hình?

Xin vui lòng thử lại câu hỏi này trong trường hợp nó cần nhiều thẻ hơn.

modeling hidden-markov-model gaussian-mixture

— Sriram
nguồn

Bạn có thể cắt dữ liệu của mình thành các tập hợp con liên tiếp với 10%, 20%, 30%, ..., 100% dữ liệu của bạn và cho mỗi tập hợp con ước tính phương sai của độ chính xác của trình ước tính của bạn bằng cách sử dụng xác thực chéo hoặc bootstrapping. Nếu bạn có dữ liệu "đủ", việc vẽ các phương sai sẽ hiển thị một dòng đơn điệu giảm dần sẽ đạt đến một cao nguyên trước 100%: thêm nhiều dữ liệu không làm giảm độ chính xác của công cụ ước tính theo bất kỳ cách quan trọng nào.

— yêu tinh
nguồn

Tôi sẽ cố gắng mà. Nghe có vẻ thú vị. Cảm ơn!

— Sriram