Tại sao tôi không thể sử dụng Bộ kiểm tra làm Bộ xác thực


8

Tôi tìm thấy ở đâu đó rằng bộ kiểm tra không được sử dụng làm bộ xác nhận. Tại sao?

Bộ xác nhận được thực hiện khi các tham số mô hình được cố định và việc học chỉ xảy ra thông qua backprop trên lô đào tạo.

Vậy tại sao tôi không thể sử dụng dữ liệu thử nghiệm làm dữ liệu xác nhận?


8
Khách hàng của tôi vừa gửi quảng cáo bằng bốn màu phong bì khác nhau, 1000 màu mỗi màu. Lợi nhuận của phong bì màu cam là 12 trên 1000, trong khi lợi nhuận của ba màu còn lại nằm trong khoảng từ 8 đến 11 trên 1000. Do đó, mô hình của tôi dự đoán rằng phong bì màu cam có được lợi nhuận tốt nhất. Tôi sẽ chứng minh đây là một mô hình tốt bằng cách áp dụng nó vào dữ liệu của mình: đúng vậy, nó đúng 100%; lợi nhuận là tốt nhất trên phong bì màu cam. Bây giờ tôi có thể xuất bản cuốn sách tiếp thị của mình khi biết lời khuyên của nó đã được chứng minh thống kê. (Đây là một ví dụ thực tế từ một cuốn sách thực sự.)
whuber

4
Bạn có thể xác định cách bạn đang sử dụng cụm từ "bộ kiểm tra" & "bộ xác thực" không? (Những người khác nhau có nghĩa là những thứ khác nhau bởi những điều này.) Bạn cũng có một 'bộ đào tạo'? Làm thế nào để dữ liệu kết thúc trong các bộ khác nhau? V.v.
gung - Phục hồi Monica

@gung 1000 dữ liệu đào tạo, 1000 dữ liệu kiểm tra. Tôi huấn luyện mô hình, sau mỗi kỷ nguyên tôi thử mô hình trên dữ liệu xác nhận = dữ liệu thử nghiệm. Một thay thế là 950 dữ liệu đào tạo, 50 dữ liệu xác nhận, sau mỗi kỷ nguyên tôi thử mô hình trên dữ liệu xác nhận. Sự khác biệt ở đây là gì?
John77

@ john77 Tôi nghĩ câu trả lời của tôi giải thích sự khác biệt là gì - để đánh giá cách mô hình sẽ thực hiện trên dữ liệu mới mà bạn cần sử dụng dữ liệu chưa được sử dụng để phát triển mô hình (ví dụ: khi quyết định ngừng đào tạo)
seanv507

Câu trả lời:


7

Tôi cho rằng bạn đã hiểu tại sao hiệu suất trên tập huấn luyện không đại diện cho hiệu suất thực tế của mô hình được đào tạo: quá mức. Các thông số bạn học được trong quá trình đào tạo được tối ưu hóa cho tập huấn luyện. Nếu bạn không cẩn thận, bạn có thể tối ưu hóa quá mức các tham số, dẫn đến một mô hình thực sự, thực sự tốt trên tập huấn luyện, nhưng không khái quát hóa để hoàn toàn không nhìn thấy dữ liệu trong thế giới thực.

Vấn đề là, trong thực tế, "tham số" của phương pháp đào tạo không phải là điều duy nhất bạn cần chỉ định cho một ví dụ học tập. Bạn cũng có siêu âm. Bây giờ, các siêu đường kính đó có thể là một phần rõ ràng của sự phù hợp mô hình (như tốc độ học tập), nhưng bạn cũng có thể xem các lựa chọn khác là "siêu đường kính": bạn chọn một SVM hoặc mạng thần kinh? Nếu bạn thực hiện dừng sớm, tại điểm nào bạn dừng lại?

Cũng giống như việc quá mức các tham số trên tập huấn luyện, bạn có thể điều chỉnh quá mức các siêu đường kính cho tập xác thực . Ngay sau khi bạn sử dụng kết quả của phương thức trên bộ xác thực để thông báo cho cách bạn thực hiện mô hình hóa, giờ đây bạn có cơ hội vượt quá mức kết hợp với tập hợp xác thực + tập xác thực. Có lẽ bộ xác nhận cụ thể này làm tốt hơn với một SVM so với trường hợp chung.

Đó là lý do chính khiến mọi người tách ra các bộ kiểm tra và xác nhận. Nếu bạn sử dụng một bộ trong quá trình điều chỉnh mô hình của mình - ngay cả ở mức "hmm, phương pháp đó không hoạt động tốt lắm, có lẽ tôi nên thử ..." - kết quả bạn nhận được trên bộ đó sẽ không thể hiện đầy đủ về tổng quát kết quả bạn sẽ có được trên dữ liệu hoàn toàn mới. Đó là lý do tại sao bạn giữ ra một phần nhỏ của dữ liệu đến rất kết thúc, quá khứ điểm mà bạn đang thực hiện bất kỳ quyết định phải làm gì.


5

Tôi sẽ dính vào mạng lưới thần kinh. Lưu ý rằng một số người trao đổi xác nhận và thử nghiệm thiết lập xung quanh.

Trong mạng lưới thần kinh, bạn đào tạo cho đến khi hiệu suất của bạn trên bộ xác nhận bắt đầu trở nên tồi tệ hơn ('ngừng đào tạo'). Do đó, các trọng số đang bị ảnh hưởng bởi bộ xác nhận (chỉ không thông qua backprop).

Bây giờ bạn kiểm tra mạng của mình với dữ liệu hoàn toàn mới (bộ kiểm tra) chưa được sử dụng trong quy trình xây dựng mô hình. Cách tiếp cận tương tự này cũng được áp dụng khi chọn siêu âm, ví dụ: mức bỏ học / tham số chính quy L2, v.v.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.