Thuật ngữ tìm kiếm mà bạn đang tìm kiếm là "đường cong học tập", mang lại hiệu suất mô hình (trung bình) là chức năng của cỡ mẫu đào tạo.
Học đường cong phụ thuộc vào rất nhiều thứ, vd
- phương pháp phân loại
- độ phức tạp của phân loại
- các lớp được phân tách tốt như thế nào
. các giả định và lấy mẫu lại dữ liệu đã có của bạn).
Có hai khía cạnh về hiệu suất của bộ phân loại được đào tạo trên cỡ mẫu hữu hạn (như bình thường),n
- sai lệch, tức là trung bình một bộ phân loại được đào tạo trên mẫu đào tạo kém hơn so với phân loại được đào tạo về trường hợp đào tạo (điều này thường có nghĩa là học đường cong) vàn = ∞nn = ∞
- phương sai: một tập huấn đã cho gồm trường hợp có thể dẫn đến hiệu suất mô hình khá khác nhau.
Ngay cả với một vài trường hợp, bạn có thể may mắn và có được kết quả tốt. Hoặc bạn gặp xui xẻo và nhận được một phân loại thực sự xấu.
Như thường lệ, phương sai này giảm khi kích thước mẫu đào tạo .nn
n
Một khía cạnh khác mà bạn có thể cần phải tính đến là thường không đủ để đào tạo một trình phân loại tốt, nhưng bạn cũng cần chứng minh rằng trình phân loại là tốt (hoặc đủ tốt). Vì vậy, bạn cần lập kế hoạch kích thước mẫu cần thiết để xác nhận với độ chính xác nhất định. Nếu bạn cần đưa ra những kết quả này như một phần thành công trong số rất nhiều trường hợp thử nghiệm (ví dụ: độ chính xác / độ chính xác / độ nhạy / giá trị dự đoán dương của nhà sản xuất hoặc người tiêu dùng), và nhiệm vụ phân loại cơ bản là khá dễ dàng, điều này có thể cần nhiều trường hợp độc lập hơn là đào tạo một mô hình tốt.
Theo nguyên tắc thông thường, đối với đào tạo, kích thước mẫu thường được thảo luận liên quan đến độ phức tạp của mô hình (số trường hợp: số lượng biến thiên), trong khi giới hạn tuyệt đối về kích thước mẫu thử có thể được đưa ra cho độ chính xác cần thiết của phép đo hiệu suất.
Đây là một bài báo, nơi chúng tôi đã giải thích những điều này chi tiết hơn và cũng thảo luận về cách tạo ra các đường cong học tập:
Beleites, C. và Neugebauer, U. và Bocklitz, T. và Krafft, C. và Popp, J.: Lập kế hoạch cỡ mẫu cho các mô hình phân loại. Hậu môn Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
bản thảo được chấp nhận trên arXiv: 1211.1323
Đây là "lời trêu ghẹo", cho thấy một vấn đề phân loại dễ dàng (chúng tôi thực sự có một sự phân biệt dễ dàng như thế này trong vấn đề phân loại của chúng tôi, nhưng các lớp khác khó phân biệt hơn nhiều):

Chúng tôi đã không cố gắng ngoại suy thành các cỡ mẫu đào tạo lớn hơn để xác định cần thêm bao nhiêu trường hợp đào tạo, bởi vì kích thước mẫu thử là nút cổ chai của chúng tôi và kích thước mẫu đào tạo lớn hơn sẽ cho phép chúng tôi xây dựng các mô hình phức tạp hơn, vì vậy việc ngoại suy là nghi vấn. Đối với loại tập dữ liệu tôi có, tôi sẽ tiếp cận điều này lặp đi lặp lại, đo lường một loạt các trường hợp mới, cho thấy mức độ cải thiện của mọi thứ, đo lường nhiều trường hợp hơn, v.v.
Điều này có thể khác với bạn, nhưng bài báo chứa tài liệu tham khảo tài liệu cho các bài báo sử dụng phép ngoại suy đến cỡ mẫu cao hơn để ước tính số lượng mẫu cần thiết.