Là xác nhận chéo đủ để ngăn chặn quá mức?


17

Nếu tôi có dữ liệu và tôi chạy phân loại (giả sử rừng ngẫu nhiên trên dữ liệu này) với xác thực chéo (giả sử 5 lần), tôi có thể kết luận rằng không có phương pháp nào phù hợp trong phương pháp của mình không?

Câu trả lời:


20

Không có gì. Tuy nhiên, xác nhận chéo giúp bạn đánh giá bằng bao nhiêu phương pháp của bạn.

Chẳng hạn, nếu dữ liệu huấn luyện của bạn R bình phương của hồi quy là 0,50 và bình phương R có giá trị chéo là 0,48, bạn hầu như không có bất kỳ quá mức nào và bạn cảm thấy tốt. Mặt khác, nếu bình phương R có giá trị chéo chỉ là 0,3 ở đây, thì một phần đáng kể của hiệu suất mô hình của bạn xuất phát do quá mức và không phải từ các mối quan hệ thực sự. Trong trường hợp như vậy, bạn có thể chấp nhận hiệu suất thấp hơn hoặc thử các chiến lược mô hình hóa khác nhau với ít quá mức.


8
Tôi nghĩ rằng câu trả lời này là đúng về tinh thần, nhưng tôi không đồng ý với đặc tính của sự phù hợp quá mức trong đoạn thứ hai. Tôi không tin rằng sự phù hợp xảy ra khi lỗi tàu - lỗi kiểm tra> một số ràng buộc, thay vào đó, tôi sẽ mô tả sự phù hợp là tình huống làm tăng độ phức tạp của mô hình có xu hướng tăng lỗi giữ ngoài. Yêu cầu rằng các lỗi đào tạo và kiểm tra của bạn là tương đương nhau thường sẽ dẫn đến các mô hình rất kém .
Matthew Drury

7

Xác nhận chéo là một kỹ thuật tốt, nhưng không hoàn hảo, để giảm thiểu sự phù hợp quá mức.

Xác thực chéo sẽ không hoạt động tốt với dữ liệu bên ngoài nếu dữ liệu bạn có không đại diện cho dữ liệu bạn sẽ cố gắng dự đoán!

Đây là hai tình huống cụ thể khi xác nhận chéo có sai sót:

  • Bạn đang sử dụng quá khứ để dự đoán tương lai: thường là một giả định lớn để cho rằng các quan sát trong quá khứ sẽ đến từ cùng một dân số có cùng phân phối như các quan sát trong tương lai. Xác thực chéo trên một tập dữ liệu được rút ra từ quá khứ sẽ không bảo vệ chống lại điều này.
  • Có sự sai lệch trong dữ liệu bạn thu thập: dữ liệu bạn quan sát khác một cách có hệ thống với dữ liệu bạn không quan sát. Ví dụ, chúng tôi biết về sự thiên vị của người trả lời ở những người chọn thực hiện một cuộc khảo sát.

3
Có dữ liệu của bạn không phải là một đại diện nghèo của dân số thực sự thường được coi là một vấn đề riêng biệt của sự phù hợp. Tất nhiên, đúng là xác nhận chéo không giải quyết chúng.
Vách đá AB

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.