Tôi đã thấy nhiều nơi họ có bộ dữ liệu đầu vào / đầu ra nơi đầu tiên họ tạo một đường hồi quy tuyến tính, sửa lỗi sai lệch và sau đó chỉ sử dụng dữ liệu đó cho mô hình của họ. Tôi đã không nhận được sự điều chỉnh sai lệch này là gì?
Tôi đã thấy nhiều nơi họ có bộ dữ liệu đầu vào / đầu ra nơi đầu tiên họ tạo một đường hồi quy tuyến tính, sửa lỗi sai lệch và sau đó chỉ sử dụng dữ liệu đó cho mô hình của họ. Tôi đã không nhận được sự điều chỉnh sai lệch này là gì?
Câu trả lời:
Mặc dù tuyên bố vấn đề không đủ chính xác để biết chính xác loại chỉnh sửa thiên vị mà bạn đang đề cập đến, tôi nghĩ rằng tôi có thể nói về nó trong thuật ngữ chung. Đôi khi một người ước tính có thể bị sai lệch. Điều này chỉ có nghĩa là mặc dù nó có thể là một công cụ ước tính tốt, giá trị trung bình hoặc dự kiến của nó không chính xác bằng tham số. Sự khác biệt giữa giá trị trung bình của công cụ ước tính và giá trị tham số thực được gọi là độ lệch. Khi một công cụ ước tính được biết là sai lệch, đôi khi, bằng cách khác, có thể ước tính độ lệch và sau đó sửa đổi công cụ ước tính bằng cách trừ đi độ lệch ước tính từ ước tính ban đầu. Thủ tục này được gọi là hiệu chỉnh sai lệch. Nó được thực hiện với mục đích cải thiện dự toán. Trong khi nó sẽ làm giảm sự thiên vị, nó cũng sẽ làm tăng phương sai.
Một ví dụ điển hình về hiệu chỉnh sai lệch thành công là ước tính hiệu chỉnh sai lệch bootstrap của tỷ lệ lỗi phân loại. Ước tính tái lập tỷ lệ lỗi có độ lệch lạc quan lớn khi cỡ mẫu nhỏ. Bootstrap được sử dụng để ước tính độ lệch của ước tính tái cấu trúc và vì ước tính tái cấu trúc đánh giá thấp tỷ lệ lỗi, ước tính sai lệch được thêm vào ước tính tái định vị để lấy ước tính sai lệch bootstrap của tỷ lệ lỗi. Khi cỡ mẫu nhỏ hơn 30 hoặc ít hơn kết hợp cả hai lớp trong một vấn đề hai lớp, một số dạng ước tính bootstrap nhất định (đặc biệt là ước tính 632) cung cấp các ước tính chính xác hơn về tỷ lệ lỗi so với xác thực chéo một lần (rất giống nhau ước tính gần như không thiên vị về tỷ lệ lỗi).