Sử dụng xác nhận chéo lồng nhau


14

Trang Scikit Learn trên Lựa chọn Mô hình đề cập đến việc sử dụng xác thực chéo lồng nhau:

>>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas),
  ...                    n_jobs=-1)  
>>> cross_validation.cross_val_score(clf, X_digits, y_digits)

Hai vòng xác thực chéo được thực hiện song song: một vòng theo công cụ ước tính GridSearchCV để đặt gamma và vòng còn lại bằng cross_val_score để đo hiệu suất dự đoán của công cụ ước tính. Điểm số kết quả là ước tính không thiên vị của điểm dự đoán trên dữ liệu mới.

Từ những gì tôi hiểu, clf.fitsẽ sử dụng xác thực chéo để xác định gamma tốt nhất. Trong trường hợp đó, tại sao chúng ta cần sử dụng cv lồng nhau như đã nêu ở trên? Ghi chú đề cập rằng cv lồng nhau tạo ra "ước tính không thiên vị" của điểm dự đoán. Đó không phải là trường hợp với clf.fit?

Ngoài ra, tôi không thể có được ước tính tốt nhất của clf từ cross_validation.cross_val_score(clf, X_digits, y_digits)thủ tục. Bạn có thể vui lòng tư vấn làm thế nào có thể được thực hiện?

Câu trả lời:


18

C

GC Cawley và NLC Talbot, Quá phù hợp trong lựa chọn mô hình và sai lệch lựa chọn tiếp theo trong đánh giá hiệu suất, Tạp chí Nghiên cứu Máy học, 2010. Nghiên cứu, tập. 11, trang 2079-2107, tháng 7 năm 2010 ( http://jmlr.org/ con / vololume11 / cawley10a / cawley10a.pdf )

Có thể tìm thấy lý do sai lệch với các ví dụ minh họa và đánh giá thử nghiệm trong bài viết, nhưng về cơ bản, đó là nếu tiêu chí đánh giá hiệu suất được sử dụng theo bất kỳ cách nào để đưa ra lựa chọn về mô hình, thì những lựa chọn đó dựa trên (i) những cải tiến thực sự trong hiệu suất khái quát hóa và (ii) các đặc thù thống kê của mẫu dữ liệu cụ thể mà tiêu chí đánh giá hiệu suất được đánh giá. Nói cách khác, sự thiên vị phát sinh vì có thể (tất cả quá dễ dàng) để phù hợp với lỗi xác thực chéo khi điều chỉnh các tham số siêu.


5

Với một bộ kiểm tra được tổ chức sẽ clf.fittạo ra một ước tính không thiên vị trong khi xác thực chéo được lồng với việc cross_val_scoretạo ra một số ước tính không thiên vị. Ưu điểm của xác thực chéo lồng nhau là đánh giá tốt hơn về hiệu suất thực sự bằng cách sử dụng dữ liệu mà thuật toán chưa thấy. Đánh giá tốt hơn bởi vì bạn nhận được, ví dụ, ba điểm kiểm tra với cv lồng nhau thay vì chỉ một.

Câu trả lời cho câu hỏi thứ hai của bạn liên quan đến các ước tính tốt nhất là hiện tại (v0,14) không thể có được các tham số của các mô hình được trang bị bằng cách sử dụng cv lồng nhau cross_val_score. Xem câu trả lời của tôi ở đây với một ví dụ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.