Mô hình cuối cùng (sẵn sàng sản xuất) nên được đào tạo về dữ liệu hoàn chỉnh hay chỉ trên tập huấn luyện?


23

Giả sử tôi đã đào tạo một số mô hình trên tập huấn luyện, chọn mô hình tốt nhất bằng cách sử dụng bộ xác thực chéo và hiệu suất được đo trên tập kiểm tra. Vì vậy, bây giờ tôi có một mô hình tốt nhất cuối cùng. Tôi có nên đào tạo lại nó trên tất cả dữ liệu có sẵn hoặc giải pháp tàu chỉ được đào tạo trên tập huấn luyện không? Nếu sau này thì sao?

CẬP NHẬT: Như @ P.Windridge đã lưu ý, vận chuyển một mô hình được đào tạo lại về cơ bản có nghĩa là vận chuyển một mô hình mà không cần xác nhận. Nhưng chúng tôi có thể báo cáo hiệu suất của bộ kiểm tra và sau đó kiểm tra lại mô hình trên dữ liệu hoàn chỉnh, mong muốn hiệu suất sẽ tốt hơn - bởi vì chúng tôi sử dụng mô hình tốt nhất của chúng tôi cộng với nhiều dữ liệu hơn. Những vấn đề có thể phát sinh từ phương pháp như vậy?


Bạn đang làm việc trong một môi trường quy định bên ngoài? (nghĩa là có thể bạn phải gửi mô hình đã được xác thực và câu hỏi của bạn chỉ là giả thuyết, nhưng dù sao nó cũng đáng để thảo luận :)). Chỉnh sửa: ok Tôi thấy bạn đã chỉnh sửa bài viết của bạn.
P.Windridge

Bạn có tin rằng dữ liệu kiểm tra của bạn là đại diện cho dân số / bao gồm một phần dân số không có trong mẫu nhà phát triển không? Là mẫu phát triển ban đầu của bạn bị thiếu theo một cách nào đó?
P.Windridge

@ P.Windridge tốt, câu hỏi của tôi chỉ là giả thuyết. Về nhận xét thứ hai của bạn, tôi tin rằng không ai nên mong đợi một kỹ sư sẽ đào tạo một mô hình tốt trong khi cung cấp cho anh ta dữ liệu không thể hiện được.
Yurii

1
Tôi không thể tưởng tượng nhiều tình huống khi bạn gửi một mô hình mà không có xác nhận. Tôi muốn xem xét giảm kích thước của mẫu thử nghiệm (theo nó vẫn đủ lớn để xác nhận!). Một cuộc thảo luận thú vị hơn có thể là về ưu / nhược điểm của / lựa chọn / mô hình dựa trên / tất cả / dữ liệu, sau đó huấn luyện nó bằng cách sử dụng mẫu phụ, sau đó xác nhận phần còn lại.
P.Windridge

1
Câu hỏi tương tự = stats.stackexchange.com/questions/174026/ , mặc dù tôi nghĩ rằng nó có thể sử dụng nhiều cuộc thảo luận hơn
P.Windridge

Câu trả lời:


15

Bạn hầu như sẽ luôn có được một mô hình tốt hơn sau khi hoàn thiện toàn bộ mẫu. Nhưng như những người khác đã nói bạn không có xác nhận. Đây là một lỗ hổng cơ bản trong phương pháp phân tách dữ liệu. Dữ liệu không chỉ phân tách một cơ hội bị mất để mô hình trực tiếp sự khác biệt mẫu trong một mô hình tổng thể, mà còn không ổn định trừ khi toàn bộ mẫu của bạn có thể lớn hơn 15.000 đối tượng. Đây là lý do tại sao 100 lần lặp lại xác thực chéo 10 lần là cần thiết (tùy thuộc vào kích thước mẫu) để đạt được độ chính xác và ổn định, và tại sao bootstrap để xác thực nội bộ mạnh mẽ thậm chí còn tốt hơn. Bootstrap cũng cho thấy mức độ khó khăn và tùy tiện của nhiệm vụ lựa chọn tính năng.

Tôi đã mô tả các vấn đề với xác nhận 'bên ngoài' một cách chi tiết hơn tại Biostatistic trong Phần nghiên cứu y sinh 10.11.


Thuật ngữ trong lĩnh vực của tôi (hóa học phân tích) sẽ xem xét bất kỳ sự phân tách dữ liệu bạn làm tại (trước) bắt đầu đào tạo rất nhiều xác nhận nội bộ . Xác nhận bên ngoài sẽ bắt đầu ở đâu đó giữa thực hiện nghiên cứu xác nhận chuyên dụng và thử nghiệm vòng.
cbeleites hỗ trợ Monica

0

Bạn không cần phải đào tạo lại. Khi bạn báo cáo kết quả của mình, bạn luôn báo cáo kết quả dữ liệu kiểm tra vì chúng cho hiểu rõ hơn nhiều. Bằng cách thiết lập dữ liệu thử nghiệm, chúng ta có thể thấy chính xác hơn một mô hình có khả năng thực hiện tốt như thế nào trên dữ liệu ngoài mẫu.


4
Chúng tôi có thể báo cáo hiệu suất của bộ kiểm tra và sau đó kiểm tra lại mô hình trên dữ liệu hoàn chỉnh, mong muốn hiệu suất sẽ tốt hơn - bởi vì chúng tôi sử dụng chế độ tốt nhất cộng với nhiều dữ liệu hơn. Có một lỗ hổng trong lý luận của tôi?
Yurii

Vâng, nếu sau khi kiểm tra, bạn thu thập thêm dữ liệu thì bạn có thể phân tách lại dữ liệu, đào tạo lại nó, sau đó kiểm tra lại và sau đó báo cáo kết quả kiểm tra từ kiểm tra lại.
Umar

6
Bằng cách không ước tính trên toàn bộ mẫu, bạn đã từ bỏ cơ hội hiệu quả cao hơn. Điều này là không chính đáng. Tôi cũng đồng ý với nhận xét của Yuri trên.
Richard Hardy

@RichardHardy, có gì sai trong nhận xét của tôi?
Umar

Nó đánh vần trong bình luận cuối cùng của tôi. Bằng cách không sử dụng tất cả các dữ liệu để ước tính mô hình, bạn đã cho thấy hiệu quả khả dụng cao nhất. Tại sao làm điều đó?
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.