Kỹ thuật phát hiện quá mức


9

Tôi đã có một cuộc phỏng vấn việc làm cho một vị trí khoa học dữ liệu. Trong cuộc phỏng vấn, tôi được hỏi tôi phải làm gì để đảm bảo người mẫu không bị thừa. Câu trả lời đầu tiên của tôi là sử dụng xác nhận chéo để đánh giá hiệu suất của mô hình. Tuy nhiên, người phỏng vấn nói rằng ngay cả xác nhận chéo cũng có thể xác định hoàn toàn thừa. Sau đó, tôi đã đề cập đến việc thường xuyên, nhưng người phỏng vấn nói rằng điều này có thể giúp giảm quá mức (mà tôi đồng ý), nhưng không phát hiện ra nó. Có các kỹ thuật khác có thể được sử dụng để đảm bảo rằng một mô hình không bị thừa?



Tôi không chắc đây có phải là chính xác những gì bạn muốn không, John Langford trong url này mô tả nguồn gốc của quá mức và kỹ thuật khắc phục.
wolfe

Câu trả lời:


7

Tôi tin rằng khi hỏi về việc phù hợp quá mức, người phỏng vấn đang tìm kiếm "câu trả lời trong sách giáo khoa" trong khi bạn đã đi vài bước sau đó.

Một triệu chứng của sự phù hợp quá mức là hiệu suất phân loại trên tập tàu tốt hơn so với hiệu suất trên bộ kiểm tra. Tôi gọi câu trả lời này là "câu trả lời trong sách giáo khoa" vì đây là câu trả lời chung và gần đúng hợp lý.

Lưu ý rằng câu trả lời này có nhiều kết thúc mở. Ví dụ, bao nhiêu sự khác biệt là quá mức? . Ngoài ra, sự khác biệt về hiệu suất giữa các bộ dữ liệu không nhất thiết là do quá mức. Mặt khác, quá mức, sẽ không nhất thiết dẫn đến sự khác biệt đáng kể về hiệu suất trên hai bộ dữ liệu.

Xác thực chéo là một kỹ thuật để đánh giá hiệu suất của người học (ví dụ: cây quyết định) trên dữ liệu mà nó không thấy trước đây. Tuy nhiên, quá mức đề cập đến một mô hình cụ thể (ví dụ: nếu "F1" thì không phải là "f2" dự đoán True). Nó sẽ cho bạn thấy xu hướng của người học là quá phù hợp với dữ liệu này nhưng sẽ không trả lời liệu mô hình cụ thể của bạn có bị quá mức hay không.

Để trang bị quá mức, mô hình sẽ cần sự phức tạp và đó là sự trợ giúp thường xuyên. Nó giới hạn (hoặc giao dịch tắt) sự phức tạp của mô hình. Lưu ý rằng một nguồn quá mức khác là kích thước tập hợp giả thuyết (có thể được coi là số lượng mô hình có thể). Quyết định trước để sử dụng một bộ giả thuyết bị hạn chế là một cách khác để tránh tình trạng thừa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.