Là xác thực chéo là vô dụng trừ khi các giả thuyết được lồng nhau?


7

Nếu tôi tạo nhiều mô hình ngẫu nhiên (hoàn toàn không xem xét dữ liệu) trong cài đặt hồi quy chỉ bằng cách gán ngẫu nhiên các giá trị hệ số và sau đó đánh giá các mô hình này qua tập dữ liệu với số liệu lỗi và chọn mô hình tốt nhất dựa trên số liệu lỗi này tôi vẫn sẽ chạy vào quá mức?

Cuối cùng, chúng tôi sẽ kết thúc với giải pháp OLS (xem bình luận). Nếu đây là trường hợp Xác thực chéo khác với thủ tục này như thế nào? Ví dụ: trong cài đặt hồi quy Ridge hoặc Lasso, tôi vẫn đang tạo ra một loạt các mô hình (được lập chỉ mục bởi ) và đánh giá chúng trên phân đoạn dữ liệu chưa thấy và chọn mô hình tốt nhất.λ

Dường như với tôi, CV hoạt động tốt với các phương pháp chính quy hóa tiêu chuẩn như Ridge và Lasso là do các mô hình đã thử được lồng vào nhau một chút (tức là Ridge được sắp xếp theo độ phức tạp của Rademacher). Do đó, nguyên tắc tối thiểu hóa rủi ro cấu trúc bắt đầu. Nếu không, CV có vẻ như là một nỗ lực cuối cùng. Nếu chúng ta sử dụng xác nhận chéo để so sánh một loạt các mô hình không liên quan, chúng ta sẽ kết thúc với kịch bản tạo mô hình ngẫu nhiên mà tôi đã mô tả ở trên.

Trong khuôn khổ Tối thiểu hóa rủi ro cấu trúc, ví dụ như trong SVM, người ta sẽ khắc phục lỗi và giảm độ phức tạp của mô hình. Vậy làm thế nào để CV thực sự đạt được hiệu quả tương tự khi áp dụng kết hợp với các phương pháp chính quy? Làm gì khi mô hình so sánh không được lồng nhau?


4
Tạo các mô hình ngẫu nhiên và chọn một mô hình có ít lỗi nhất là không có triệu chứng (nếu bạn làm điều này đủ lâu) tương đương với hồi quy OLS vì giải pháp OLS giảm thiểu lỗi bình phương.
amip

@CagdasOzgenc: điều này giống như những con khỉ gõ Shakespeare / Kinh thánh / bất cứ văn bản nào bạn chọn: nếu bạn tạo ra nhiều mô hình ngẫu nhiên, cuối cùng giải pháp bình phương nhỏ nhất sẽ nằm trong số đó. Cuối cùng, thậm chí một chuỗi lần giải pháp bình phương nhỏ nhất của các trường hợp kiểm tra CV . Và sau đó sẽ được chọn [nếu bạn sử dụng lỗi bình phương làm tiêu chí hiệu suất]. k
cbeleites không hài lòng với SX

Học tính năng ngẫu nhiên cũng là một điều (xem mạng Liên kết chức năng Vector ngẫu nhiên, mà Máy học cực đoan gây tranh cãi có nguồn gốc từ).
Bọ lửa

1
Tiền đề của câu hỏi này là rất khó hiểu. CV đôi khi có thể không hiệu quả, nhưng tôi không thấy (1) các chế độ thất bại của nó có liên quan gì đến các giả thuyết lồng nhau và không phức tạp hoặc độ phức tạp của Rademacher, hoặc (2) so sánh các mô hình không lồng nhau có liên quan gì so sánh các mô hình được tạo ngẫu nhiên.
Paul

@Paul Giả định ngầm đằng sau CV là số lượng giả thuyết được so sánh là thấp. Nếu chúng ta có rất nhiều mô hình để so sánh thì nó sẽ phù hợp hơn. Thông thường trong cài đặt Sườn núi, chúng ta có nhiều cài đặt lambda, do đó có khá nhiều giả thuyết. Tuy nhiên, lý do nó hoạt động trong kịch bản này là vì các giả thuyết được lồng vào nhau.
Cagdas Ozgenc

Câu trả lời:


6

Logic của tôi cho tôi biết câu trả lời là có.

Và, như @amoeba đã chỉ ra: logic của bạn là đúng.

Xác thực chéo khác với thủ tục này như thế nào? CV tự nó không có gì để làm với quá mức của bạn. CV chỉ là một sơ đồ làm thế nào để giữ lại các trường hợp độc lập để kiểm tra một số mô hình.

Lưu ý rằng nếu bạn chọn một mô hình dựa trên kết quả CV, quy trình chọn mô hình này (bao gồm cả CV) thực sự là một phần trong quá trình đào tạo của bạn .

Bạn cần thực hiện xác nhận độc lập (đúng hơn là xác minh) mô hình cuối cùng đó (mà bạn có thể sử dụng lại một CV khác làm chiến lược để duy trì các trường hợp độc lập với đào tạo - xem xác thực chéo) để có được ước tính đáng tin cậy về mô hình đó hiệu suất khái quát hóa.

Để nhắc lại: vấn đề không phải là CV, vấn đề là tối ưu hóa mô hình dựa trên dữ liệu (lựa chọn).

Từ quan điểm này, việc tạo mô hình ngẫu nhiên trong lý thuyết sẽ phù hợp ít hơn một hồi quy bị phạt vì đánh giá của tôi là trên một phân đoạn dữ liệu lớn hơn.

Điều này tôi không hiểu: tại sao kích thước dữ liệu không nhìn thấy sẽ khác nhau?

Có một cái gì đó trong thủ tục CV bằng cách nào đó giảm thiểu vấn đề thử nghiệm nhiều?

Không.

Thuộc tính duy nhất của CV giúp kiểm tra nhiều lần so với một lần phân tách là CV cuối cùng sẽ kiểm tra tất cả các trường hợp có sẵn và do đó có độ không đảm bảo phương sai nhỏ hơn do số lượng các trường hợp được kiểm tra hạn chế. Tuy nhiên, điều này sẽ không giúp được nhiều so với việc giới hạn không gian tìm kiếm (nghĩa là hạn chế số lượng so sánh).


Khi không có nhiều dữ liệu đào tạo phù hợp với một mô hình thông qua xác nhận chéo là hợp lý. Tôi nghĩ rằng sự đánh đổi giữa việc sử dụng tất cả dữ liệu để khớp hoặc tiết kiệm một phần chỉ để xác nhận không phải là sự cắt giảm rõ ràng trong nhiều trường hợp
Nat

@Nat: khi không có nhiều dữ liệu đào tạo, tôi khuyên bạn nên sử dụng kiến ​​thức miền chuyên gia càng nhiều càng tốt và cố gắng tránh mọi điều chỉnh dựa trên dữ liệu bằng xác thực chéo (hoặc phân tách đơn nội bộ): một vài trường hợp có nghĩa là ước tính CV không chắc chắn, điều này sẽ cản trở việc tối ưu hóa. CV là tốt hơn so với một phân chia duy nhất, nhưng nó không thể làm việc thần kỳ.
cbeleites không hài lòng với SX

Lựa chọn mô hình không hướng dữ liệu sẽ trông như thế nào? Có phải giống như ra quyết định không dựa trên dữ liệu? Nếu tôi giảm thiểu MSE là dữ liệu đó? Nếu tôi giảm thiểu MSPE thì sao?
Nat

1
@Nat: Ví dụ về lựa chọn mô hình không dựa trên dữ liệu: Quyết định xử lý trước và cũng có thể mô hình phức tạp bằng kiến ​​thức về ứng dụng, chẳng hạn như: các quy trình tạo dữ liệu và thông tin cần lấy, thông tin khác hoặc các yếu tố gây nhiễu bị liên lụy. Giảm thiểu lỗi là do dữ liệu: bạn giảm thiểu một số lỗi bạn quan sát được trong dữ liệu có sẵn của mình. Điều này là cần thiết để phù hợp với các tham số mô hình, nhưng theo kinh nghiệm của tôi, tôi thường có thể giới hạn số lượng được gọi là siêu đường kính / giới hạn không gian tìm kiếm siêu tham số. (Tôi thường <100 trường hợp)
cbeleites không hài lòng với SX

3

EDIT: Điều chỉnh hoặc chọn một mô hình dựa trên xác thực chéo về cơ bản là cố gắng giảm thiểu lỗi dự đoán (ví dụ: lỗi dự đoán bình phương trung bình). Bạn chọn một mô hình có điều kiện trên một số tập hợp con của dữ liệu đầu vào và dự đoán đầu ra ở các vị trí bên trái. Theo trực giác, đó là một dự đoán bởi vì bạn đang đánh giá mô hình ở ngoài các vị trí mẫu. Câu hỏi của bạn là điều gì xảy ra nếu bộ mô hình ứng cử viên của bạn độc lập với dữ liệu đầu vào (nghĩa là bạn không sử dụng bất kỳ dữ liệu nào khi tạo mô hình ngẫu nhiên).

Giả định này không khác biệt so với bất kỳ quy trình lắp mô hình nào khác. Ví dụ: nếu tôi bắt đầu với một mô hình được tham số hóa và các tham số có thể là bất kỳ số thực nào, thì tôi cũng có một bộ mô hình ứng cử viên vô hạn. Cả hai chúng ta vẫn cần chọn mô hình tốt nhất từ ​​tập hợp các mô hình có thể bằng cách giảm thiểu một số số liệu lỗi. Do đó, cả hai lựa chọn mô hình của chúng tôi đều có điều kiện trên một số dữ liệu đào tạo (có thể là tập hợp con của tất cả dữ liệu đào tạo nếu sử dụng xác thực chéo). Bạn không chỉ định số liệu lỗi vì vậy hãy giả sử đó là lỗi bình phương trung bình (MSE). Tôi chọn tham số mô hình và do đó mô hình của tôi sử dụng một số quy trình hộp đen giả sử số liệu MSE có điều kiện trên dữ liệu đào tạo. Bạn chọn mô hình của mình từ nhóm mô hình ngẫu nhiên giả sử có số liệu MSE có điều kiện về dữ liệu đào tạo.

Chúng ta có chọn cùng một mô hình không? Nó phụ thuộc vào việc bạn bắt đầu với các bộ mô hình ứng cử viên khác nhau.

Chúng ta có quá phù hợp với dữ liệu không? Nó phụ thuộc vào tập hợp các mô hình ứng cử viên mà chúng tôi đã bắt đầu và dữ liệu đào tạo.

Chúng ta có biết chúng ta quá phù hợp với dữ liệu? Nếu chúng tôi xác nhận chéo thì chúng tôi có thể kiểm tra lỗi dự đoán.

TRẢ LỜI GỐC: Theo nghĩa rộng, có một số tín hiệu trong dữ liệu và một số nhiễu. Khi chúng ta tập luyện quá sức, chúng ta cơ bản phù hợp với tiếng ồn.

Trong xác thực chéo, chúng tôi bỏ qua các phần dữ liệu khi khớp và đánh giá lỗi khi dự đoán các điểm bị bỏ sót. Nó tương tự như việc có dữ liệu huấn luyện và kiểm tra ở chỗ chúng tôi đang đo lỗi do lỗi mẫu. Mô hình phải khái quát tốt bất kể điểm nào bị bỏ qua. Nếu chúng ta phù hợp với tiếng ồn, mô hình sẽ không khái quát tốt. Tập hợp các mô hình mà chúng tôi đang so sánh có thể không bao gồm các mô hình cố gắng nội suy một điểm dữ liệu khi nó bị bỏ qua khỏi dữ liệu huấn luyện. Nếu mô hình hoạt động theo cách này (ví dụ: hành vi ngẫu nhiên để cải thiện sự phù hợp) thì có khả năng chúng tôi không có quy trình điều chỉnh mô hình chung hợp lý và xác thực chéo không thể giúp chúng tôi.

Nếu bạn có một bộ mô hình vô hạn và một lượng thời gian vô hạn thì tôi đoán theo lý thuyết bạn có thể tạo ra một mô hình tốt hoặc tốt hơn bất kỳ mô hình nào được tạo thông qua bất kỳ quy trình nào khác. Làm thế nào bạn sẽ biết mô hình từ bộ vô hạn của bạn mặc dù? Nếu đó là mô hình nội suy dữ liệu đào tạo, thì có, nó sẽ phù hợp khi dữ liệu đào tạo bị nhiễu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.