Khi xây dựng mô hình hồi quy bằng cách sử dụng các bộ mô hình hóa / xác thực riêng biệt, nó có phù hợp với việc tuần hoàn lại dữ liệu xác nhận không?


13

Giả sử tôi đã phân chia 80/20 giữa các quan sát mô hình hóa / xác nhận. Tôi đã điều chỉnh mô hình cho tập dữ liệu mô hình hóa và tôi cảm thấy thoải mái với lỗi mà tôi thấy trên tập dữ liệu xác thực. Trước khi tôi đưa ra mô hình của mình để ghi điểm các quan sát trong tương lai, có phù hợp để kết hợp xác thực lại với dữ liệu mô hình để có được ước tính tham số cập nhật trên dữ liệu 100% không? Tôi đã nghe hai quan điểm về điều này:

  1. Xác nhận mà tôi đã thực hiện là xác thực cấu trúc mô hình, tức là tập hợp các yếu tố dự đoán và biến đổi mà tôi đã áp dụng. Không có nghĩa là để lại 20% dữ liệu của tôi trên bàn khi tôi có thể sử dụng dữ liệu đó để cập nhật các ước tính của mình.

  2. Xác nhận mà tôi đã thực hiện một phần là xác thực các ước tính tham số mà tôi đã tính trên tập dữ liệu mô hình của mình. Nếu tôi cập nhật sự phù hợp với mô hình, tôi đã thay đổi các ước tính và tôi không còn có cách khách quan để kiểm tra hiệu suất của mô hình được cập nhật.

Tôi đã luôn theo dõi đối số # 1, nhưng gần đây tôi đã nghe nhiều người tranh luận # 2. Tôi muốn xem những gì người khác nghĩ về điều này. Bạn đã thấy bất kỳ cuộc thảo luận tốt trong các tài liệu hoặc ở nơi khác về chủ đề này?

Câu trả lời:


6

Phương án 1 là phương án đúng. Bạn có thể thêm bộ dữ liệu xác nhận để cập nhật các tham số của mô hình.

Đó là câu trả lời. Bây giờ hãy để chúng tôi thảo luận về nó. Thực tế là những gì bạn đã làm là tùy chọn 1. ở trên sẽ rõ ràng hơn nếu bạn thực hiện xác thực chéo gấp đôi của bootstrapping (và bạn nên làm điều đó - không rõ ràng từ câu hỏi của bạn).

Trong 5 lần xác thực chéo, bạn chia dữ liệu bạn có thành 5 bộ ngẫu nhiên có kích thước bằng nhau. Hãy để chúng tôi gọi chúng là A, B, C, D và E. Sau đó, bạn tìm hiểu các tham số của mô hình của bạn (của chính mô hình) trong 4 bộ, giả sử A, B, C và D, và kiểm tra nó hoặc xác nhận nó trong mô hình thứ năm E. (Điều này bạn đã làm). Nhưng sau đó, bạn chọn một bộ khác làm thử nghiệm / xác nhận (giả sử D) và tìm hiểu bằng cách sử dụng 4 bộ khác (A, B, C và E). Kiểm tra nó trên D, lặp lại.

Lỗi bạn mô hình dự đoán của bạn là lỗi trung bình của 5 bài kiểm tra - và bạn có một số hiểu biết về cách lỗi dự đoán phụ thuộc vào các bộ kiểm tra và học tập. Trong trường hợp tốt nhất, tất cả 5 biện pháp lỗi đều tương tự nhau và bạn có thể chắc chắn rằng mô hình của bạn sẽ hoạt động ở mức đó trong tương lai.

Nhưng mô hình gì ?? Đối với mỗi bộ học tập, bạn sẽ có một tham số khác nhau cho mô hình. Học với A, B, C, D tạo ra một bộ tham số P1, học với A, B, C, E, bộ tham số P2, tối đa P5. Không ai trong số họ là mô hình của bạn.

Những gì bạn đã kiểm tra là lỗi dự kiến ​​của một quy trình xây dựng mô hình , quy trình mà bạn đã tuân theo khi tập học là A, B, C, D và khi đó là A, B, C, E, v.v. Là thủ tục này tạo ra một mô hình với lỗi dự kiến.

Vậy mô hình cuối cùng là gì? Đây là ứng dụng của quy trình trong tất cả các dữ liệu bạn có sẵn (A, B, C, D và E). Một mô hình mới với bộ tham số P0 mà bạn chưa từng tạo trước đây, bạn không có dữ liệu để kiểm tra nó (vì bạn đã "sử dụng" tất cả dữ liệu để xác định tham số P0) và bạn có một kỳ vọng hợp lý rằng nó sẽ thực hiện trong tương lai dữ liệu như các mô hình khác (P1, P2 ...) được xây dựng bằng quy trình tương tự đã làm.

Điều gì xảy ra nếu bạn không thực hiện xác thực chéo hoặc bootstrap (bootstrap có phần phức tạp hơn để giải thích - tôi bỏ qua cuộc thảo luận này)? Điều gì sẽ xảy ra nếu bạn chỉ thực hiện một phân tách học tập / xác nhận và một thước đo lỗi. Sau đó, đối số 2. có thể đúng một chút nhưng bạn có một vấn đề lớn hơn - bạn chỉ có một thước đo lỗi của mô hình và bạn không biết mức độ phụ thuộc của lỗi đó vào dữ liệu được sử dụng để xác thực nó. Có thể, do may mắn, bộ xác nhận 20% của bạn đặc biệt dễ dự đoán. Không thực hiện nhiều biện pháp lỗi, sẽ rất rủi ro khi cho rằng tỷ lệ lỗi dự kiến ​​của mô hình dự đoán của bạn sẽ giữ nguyên cho dữ liệu trong tương lai.

Đó là "rủi ro lớn hơn"? Giả sử rằng lỗi đó về cơ bản vẫn giống với dữ liệu trong tương lai hoặc giả sử rằng việc thêm nhiều dữ liệu để tìm hiểu mô hình của bạn theo một cách nào đó sẽ "làm hỏng" mô hình và tăng tỷ lệ lỗi trong tương lai? Tôi thực sự không biết làm thế nào để trả lời điều này, nhưng tôi sẽ nghi ngờ về các mô hình trở nên tồi tệ hơn với nhiều dữ liệu hơn ....

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.