Giới hạn lý thuyết - lỗi hồi quy


7

Tỷ lệ lỗi Bayes là một ràng buộc về mặt lý thuyết xác định tỷ lệ lỗi thấp nhất có thể cho một vấn đề phân loại, được đưa ra một số dữ liệu. Tôi đã tự hỏi liệu một khái niệm tương đương tồn tại cho trường hợp thuật toán hồi quy. Mục đích của tôi là xác định lỗi của thuật toán hồi quy của tôi đến mức nào từ ràng buộc lý thuyết đó, như một cách để đánh giá tôi cách giải pháp tốt nhất có thể bao xa. Có cách nào để có được một ràng buộc của lỗi hồi quy thấp nhất cho một tập dữ liệu đã cho không?


1
Đâ là một câu hỏi tuyệt vời. Suy nghĩ ban đầu của tôi là R bình phương, cho bạn biết bao nhiêu biến thể được giải thích bằng hồi quy cho một tập hợp các tính năng nhất định. Vì tỷ lệ lỗi Bayes đưa ra một thống kê thấp hơn ràng buộc về lỗi có thể đạt được cho một vấn đề phân loại nhất định lựa chọn các tính năng liên quan. Mặc dù Tỷ lệ lỗi Bayes rất khó tính (ước tính), nhưng nó có tiện ích phổ quát tuyệt vời cho bất kỳ phân loại nào như bạn chỉ ra. Vì vậy, tôi bắt đầu nghĩ về Hồi quy Bayes và có vẻ như bạn đang tìm kiếm Mất Bayes.
AN6U5

1
Cảm ơn bạn vì câu trả lời. Tính toán của bình phương R đòi hỏi phải dự đoán, vì vậy tôi tự hỏi liệu một giới hạn lý thuyết của bình phương R có thể được ước tính hay không. Tôi đọc một bài báo về ước tính tỷ lệ lỗi Bayes bằng một nhóm các phân loại; có lẽ một cái gì đó tương tự có thể được áp dụng cho R bình phương (chỉ là một suy nghĩ ngẫu nhiên ở đây). Tôi không quen thuộc với hồi quy Bayes. Tôi sẽ kiểm tra mà ra.
Pablo Suau

Câu trả lời:


2

Tôi nhận ra câu hỏi này đã được hỏi hơn một năm trước, nhưng tôi nghĩ một khả năng là sử dụng phân rã phương sai để tính giới hạn thấp hơn về tỷ lệ lỗi.

Về cơ bản, tỷ lệ lỗi được viết dưới dạng tổng của ba số hạng, sai lệch, phương sai và sai số không thể sửa chữa. Một nguồn tốt để tìm hiểu về các thuật ngữ này là Giới thiệu về Học thống kê .

Giả sử rằng hàm thực sự (f(x)) nằm trong nhóm các chức năng mà mô hình học máy của chúng tôi có khả năng phù hợp và lấy giới hạn là lượng dữ liệu đào tạo chúng tôi có được đến vô cùng. Sau đó, nếu mô hình học máy của chúng tôi có số lượng tham số hữu hạn, cả sai lệch và phương sai sẽ bằng không. Vì vậy, lỗi thực tế sẽ chỉ đơn giản bằng lỗi không thể sửa chữa.

Ví dụ, giả sử dữ liệu thực của chúng ta là tuyến tính với nhiễu Gaussian:y~N(một+bx,σ2). Một trong những ước tính tối ưu rõ ràng là hồi quy tuyến tính,y^= =một^+b^xvà, khi chúng tôi thêm nhiều ví dụ đào tạo, các hệ số ước tính một^b^ Sẽ tiếp cận mộtb, tương ứng. Vì vậy, lỗi tốt nhất (giả sử mất bình phương) mà chúng ta có thể hy vọng đạt được sẽ bằngσ2, lỗi cố hữu / nhiễu không thể khắc phục được liên quan đến chính việc tạo dữ liệu

Trong thực tế, tính toán lỗi không thể khắc phục là khó khăn (không thể?), Vì nó đòi hỏi kiến ​​thức về quy trình thực sự để tạo dữ liệu. Nhưng, phê bình này cũng có thể áp dụng cho lỗi Bayes, vì điều đó đòi hỏi kiến ​​thức về xác suất của lớp thực sự.


Cảm ơn bạn đã trả lời. Tôi nghĩ rằng nó có nhiều ý nghĩa.
Pablo Suau

0

Vâng, đó sẽ là tổng bình phương khoảng cách của biến trả lời từ đường hồi quy thực hoặc hồi quy thực tế (miễn là bạn biết điều đó).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.