Tôi nhận ra câu hỏi này đã được hỏi hơn một năm trước, nhưng tôi nghĩ một khả năng là sử dụng phân rã phương sai để tính giới hạn thấp hơn về tỷ lệ lỗi.
Về cơ bản, tỷ lệ lỗi được viết dưới dạng tổng của ba số hạng, sai lệch, phương sai và sai số không thể sửa chữa. Một nguồn tốt để tìm hiểu về các thuật ngữ này là Giới thiệu về Học thống kê .
Giả sử rằng hàm thực sự (f( x )) nằm trong nhóm các chức năng mà mô hình học máy của chúng tôi có khả năng phù hợp và lấy giới hạn là lượng dữ liệu đào tạo chúng tôi có được đến vô cùng. Sau đó, nếu mô hình học máy của chúng tôi có số lượng tham số hữu hạn, cả sai lệch và phương sai sẽ bằng không. Vì vậy, lỗi thực tế sẽ chỉ đơn giản bằng lỗi không thể sửa chữa.
Ví dụ, giả sử dữ liệu thực của chúng ta là tuyến tính với nhiễu Gaussian:y~ N( a + b x ,σ2). Một trong những ước tính tối ưu rõ ràng là hồi quy tuyến tính,y^= =một^+b^xvà, khi chúng tôi thêm nhiều ví dụ đào tạo, các hệ số ước tính một^ và b^ Sẽ tiếp cận một và b, tương ứng. Vì vậy, lỗi tốt nhất (giả sử mất bình phương) mà chúng ta có thể hy vọng đạt được sẽ bằngσ2, lỗi cố hữu / nhiễu không thể khắc phục được liên quan đến chính việc tạo dữ liệu
Trong thực tế, tính toán lỗi không thể khắc phục là khó khăn (không thể?), Vì nó đòi hỏi kiến thức về quy trình thực sự để tạo dữ liệu. Nhưng, phê bình này cũng có thể áp dụng cho lỗi Bayes, vì điều đó đòi hỏi kiến thức về xác suất của lớp thực sự.