Ý nghĩa của lỗi kiểm tra có điều kiện so với lỗi kiểm tra dự kiến ​​trong xác thực chéo


8

Sách giáo khoa của tôi về xác nhận chéo là Các yếu tố của học thống kê của Hastie et al. (Tái bản lần 2). Trong phần 7.10.1 và 7.12, họ nói về sự khác biệt giữa lỗi kiểm tra có điều kiện và thử nghiệm dự kiến lỗi Ở đây là tập dữ liệu huấn luyện, là hàm mất, là mô hình được đào tạo trên . là kỳ vọng.E τ [ E ( X * , Y * ) [ L ( Y , f ( X ) ) | τ ] ] . τ L f τ E

E(X*,Y*)[L(Y,f^(X))|τ]
Eτ[E(X*,Y*)[L(Y,f^(X))|τ]].
τLf^τE

Họ giải thích rằng CV chỉ ước tính lỗi kiểm tra dự kiến ​​tốt.

Câu hỏi của tôi là, có bất kỳ lý do tại sao chúng ta sẽ quan tâm đến lỗi kiểm tra có điều kiện?

Lý do duy nhất tôi có thể nghĩ đến là chúng tôi muốn trả lời câu hỏi 'Nếu Chúa đặt bộ dữ liệu trên bàn, nhưng chỉ cho phép chúng tôi lấy 1 nhà để phù hợp với mô hình của chúng tôi, chúng tôi nên chọn cái nào?'n

Câu trả lời:


5

Tôi nghĩ rằng bạn có thể hiểu nhầm lỗi kiểm tra có điều kiện. Điều này có thể là do Hastie, Friedman và Tibshirani (HFT) không nhất quán trong thuật ngữ của họ, đôi khi gọi khái niệm tương tự này là "lỗi kiểm tra", "lỗi tổng quát hóa", "lỗi dự đoán trên tập kiểm tra độc lập", "lỗi điều kiện thực sự" hoặc "lỗi kiểm tra thực tế".

τ

Một khi điều đó chìm vào, câu hỏi thực sự là tại sao người ta nên quan tâm đến lỗi kiểm tra dự kiến! (HFT cũng gọi đây là "lỗi dự đoán dự kiến".) Sau tất cả, đó là mức trung bình trên tất cả các loại bộ huấn luyện mà bạn thường không bao giờ sử dụng. (Nhân tiện, có vẻ như HFT có ý định trung bình trên các tập huấn luyện có kích thước cụ thể trong việc xác định lỗi kiểm tra dự kiến, nhưng họ không bao giờ nói điều này rõ ràng.)

Lý do là lỗi kiểm tra dự kiến ​​là một đặc tính cơ bản hơn của thuật toán học tập, vì nó trung bình trên các mức độ mơ hồ về việc bạn có gặp may mắn hay không với tập huấn luyện cụ thể của mình.

Như bạn đã đề cập, HFT hiển thị các ước tính CV dự kiến ​​lỗi kiểm tra tốt hơn so với ước tính lỗi kiểm tra có điều kiện. Điều này thật may mắn nếu bạn đang so sánh các thuật toán học máy, nhưng thật không may nếu bạn muốn biết mô hình cụ thể mà bạn phù hợp với một bộ đào tạo cụ thể sẽ hoạt động tốt như thế nào.


τ

1
Theo trực giác, nó có ý nghĩa với tôi rằng CV không quá lớn đối với lỗi kiểm tra có điều kiện vì toàn bộ quy trình dựa trên việc thay đổi dữ liệu đào tạo của bạn. (Để ước tính tốt nhất về lỗi kiểm tra có điều kiện, bạn cần có một bộ kiểm tra riêng.) Nhưng thật công bằng khi hỏi tại sao những thay đổi nhỏ đối với tập huấn luyện liên quan đến LOOCV lại đặc biệt đủ cho việc này.
Kodiologist

@amoeba bạn nói gì đó khiến tôi chú ý. LOOCV dường như là một cách trực tiếp hơn để ước tính lỗi có điều kiện so với CV gấp 10 lần. Nhưng thực tế, trang 255 của cuốn sách HTF, từ bài tập mô phỏng, cho thấy CV 10 lần là cách tốt hơn để ước tính lỗi có điều kiện. Tôi nghĩ điều này vẫn còn làm tôi lo lắng
Chamberlain Foncha

0

Tôi đang suy nghĩ về cùng một đoạn văn và tôi cũng tự hỏi bao giờ tôi sẽ quan tâm đến lỗi kiểm tra có điều kiện. Hơn nữa, theo như tôi có thể hiểu thì chúng phải giống nhau một cách không có triệu chứng: đối với tập huấn luyện và kiểm tra rất lớn, việc phân tách tập huấn luyện / kiểm tra chính xác sẽ không còn dẫn đến các ước tính lỗi kiểm tra có điều kiện khác nhau. Như bạn có thể thấy trong Hastie et al. đặt các ví dụ của họ về điều kiện - sự khác biệt dự kiến ​​luôn dựa trên số lượng quan sát tương đối nhỏ, mà nếu tôi hiểu điều này chính xác là lý do tại sao các lỗi kiểm tra có điều kiện và dự kiến ​​trông khác nhau trong các biểu đồ.

Cuốn sách đề cập rằng lỗi kiểm tra dự kiến ​​trung bình trên tính ngẫu nhiên trong tập huấn luyện, trong khi lỗi kiểm tra (có điều kiện) thì không. Bây giờ khi nào tôi muốn có sự không chắc chắn liên quan đến phân vùng tập huấn / kiểm tra cụ thể nào tôi thực hiện? Câu trả lời của tôi là tôi thường không bao giờ quan tâm đến việc chứa đựng sự không chắc chắn này vì đây không phải là điều tôi quan tâm khi thực hiện đánh giá mô hình: Khi đánh giá chất lượng dự đoán của một mô hình tôi muốn biết nó như thế nào giá vé sẽ cho biết dự báo thời tiết ngày mai. Thời tiết ngày mai có liên quan đến dữ liệu tổng thể của tôi khá nhiều vì dữ liệu thử nghiệm của tôi có liên quan đến dữ liệu đào tạo của tôi - vì vậy tôi tính một lỗi kiểm tra có điều kiện để đánh giá mô hình của mình. Tuy nhiên, thời tiết ngày mai có liên quan đến dữ liệu tổng thể của tôi không giống như một bộ kiểm tra cụ thể có liên quan đến tập huấn luyện cụ thể tương ứng, nhưng tập kiểm tra trung bình có liên quan như thế nào đến tập huấn luyện trung bình. Vì vậy, tôi có được phân vùng tập huấn / kiểm tra tiếp theo và nhận được một lỗi kiểm tra có điều kiện khác. Tôi làm điều này nhiều lần (ví dụ như trong xác thực chéo K-Fold) - sự thay đổi trong các lỗi kiểm tra điều kiện riêng lẻ tính trung bình - và tôi còn lại với lỗi kiểm tra dự kiến; mà, một lần nữa, là tất cả những gì tôi có thể nghĩ đến muốn có được. trong xác thực chéo K-Fold) - sự thay đổi trong các lỗi kiểm tra có điều kiện riêng lẻ tính trung bình - và tôi còn lại với lỗi kiểm tra dự kiến; mà, một lần nữa, là tất cả những gì tôi có thể nghĩ đến muốn có được. trong xác thực chéo K-Fold) - sự thay đổi trong các lỗi kiểm tra có điều kiện riêng lẻ tính trung bình - và tôi còn lại với lỗi kiểm tra dự kiến; mà, một lần nữa, là tất cả những gì tôi có thể nghĩ đến muốn có được.

Đặt khác nhau, trong các biểu đồ lỗi kiểm tra / lỗi kiểm tra dự kiến ​​trong Hastie và cộng sự, chúng tôi có ý tưởng về hiệu quả của trình ước lượng mô hình: nếu các lỗi kiểm tra có điều kiện được phân tán rộng rãi xung quanh lỗi kiểm tra dự kiến ​​thì đây là dấu hiệu của trình ước tính là không hiệu quả, trong khi ít thay đổi trong các lỗi kiểm tra có điều kiện sẽ chỉ ra một công cụ ước tính hiệu quả hơn, với số lượng quan sát.

Điểm mấu chốt: Tôi có thể bị nhầm lẫn ở đây, và tôi rất vui khi được sửa chữa điều này, nhưng khi tôi thấy nó tại thời điểm đó, khái niệm về lỗi kiểm tra có điều kiện là một nỗ lực đáng ngờ trong việc đánh giá tính hợp lệ của mô hình bên ngoài thông qua việc cho phép bản thân chỉ được đào tạo / bắn thử phân vùng. Đối với các mẫu lớn, lần chụp đơn này phải tương đương với các lỗi kiểm tra theo phương pháp trung bình trên nhiều ảnh chụp phân vùng thử nghiệm / phân vùng, tức là lỗi kiểm tra dự kiến. Đối với các mẫu nhỏ có sự khác biệt xảy ra, số đo quan tâm thực tế dường như là mong đợi và không phải là lỗi kiểm tra có điều kiện.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.