Đào tạo, kiểm tra, xác nhận trong một vấn đề phân tích sinh tồn


14

Tôi đã duyệt các chủ đề khác nhau ở đây, nhưng tôi không nghĩ câu hỏi chính xác của mình đã được trả lời.

Tôi có bộ dữ liệu ~ 50.000 sinh viên và thời gian bỏ học. Tôi sẽ thực hiện hồi quy mối nguy theo tỷ lệ với một số lượng lớn các đồng biến tiềm năng. Tôi cũng sẽ thực hiện hồi quy logistic khi bỏ học / ở lại. Mục tiêu chính sẽ là dự đoán cho các nhóm mới của sinh viên, nhưng chúng tôi không có lý do gì để tin rằng họ sẽ thay đổi nhiều so với đoàn hệ năm ngoái.

Thông thường, tôi không có dữ liệu xa xỉ như vậy và thực hiện mô hình phù hợp với một số hình phạt, nhưng lần này tôi nghĩ tách các tập dữ liệu thử nghiệm và đào tạo int và sau đó thực hiện lựa chọn biến trên tập huấn luyện; sau đó sử dụng tập dữ liệu thử nghiệm để ước tính các tham số và khả năng dự đoán.

Đây có phải là một chiến lược tốt? Nếu không, cái gì tốt hơn?

Trích dẫn chào mừng nhưng không cần thiết.

Câu trả lời:


8

Với tần suất kết quả tương tự tôi đã thấy rằng việc chia tách dữ liệu có thể hoạt động nếu . Và nó cung cấp một ước tính không thiên vị về hiệu suất mô hình, xử phạt đúng cách cho lựa chọn mô hình (nếu bạn thực sự cần lựa chọn mô hình; hình phạt vẫn có nhiều khả năng dẫn đến một mô hình tốt hơn) nếu bạn chỉ sử dụng mẫu thử nghiệm một lần. NHƯNG không sử dụng mẫu thử cho bất kỳ ước tính lại các tham số. Việc phân tách dữ liệu dựa trên mô hình được xây dựng bằng cách sử dụng mẫu đào tạo để được đưa vào "đóng băng sâu" và áp dụng cho mẫu thử mà không cần điều chỉnh.n>20,000


Cảm ơn. Bạn có đề nghị 80-20 không? 90-10? Thứ gì khác? Bất kỳ tài liệu tham khảo về điều này?
Peter Flom - Tái lập Monica

2
Tôi đã không theo kịp các tài liệu về cấu hình phân chia tối ưu. Nhưng một số nguyên tắc chung áp dụng. Đối với mẫu xác thực, bạn cần đủ lớn để bạn có thể ước tính đường chuẩn hiệu chỉnh với độ chính xác cao, sau đó bạn cần thấy rằng những gì còn lại là quá đủ để phù hợp với mô hình đáng tin cậy (sử dụng tỷ lệ 20: 1 của sự kiện: ứng cử viên thông số nếu bạn không phạt). n
Frank Harrell

3

Bản thân tôi đã xem bài báo này cho nhiệm vụ tương tự là xác thực chéo dự đoán sinh tồn. Các bit tốt bắt đầu ở Chương 2.


Điều này dường như để so sánh 5 lần với ước tính dựa trên mô hình CV (và nó kết luận rằng 5 lần là tốt hơn). Nhưng tôi quan tâm hơn đến việc chỉ chia dữ liệu thành 2 phần và sử dụng một phần để xác thực phần còn lại.
Peter Flom - Tái lập Monica

1
Việc tôi đã tìm thấy từ điều này, và tại sao ban đầu tôi bị thu hút bởi bài báo này, là cách đối phó với kiểm duyệt trong các dự đoán sinh tồn, tức là sử dụng chức năng mất gì (mặc dù đọc lại câu hỏi của bạn, bạn có thể không kiểm duyệt).
Cam.Davidson.Pilon

Tôi có kiểm duyệt và luận án rất thú vị, nhưng tôi không nghĩ là câu trả lời cho câu hỏi của tôi.
Peter Flom - Tái lập Monica

1

Tôi đã tìm thấy bài báo này không chỉ trả lời câu hỏi của tôi, mà còn cung cấp một phương pháp để tìm ra sự phân chia tối ưu cho các tập dữ liệu cụ thể. Tôi đã tìm thấy điều này nhờ vào việc sử dụng thuật ngữ "cấu hình phân tách tối ưu" của @FrankHarrell mà sau đó tôi đã Googled.


2
Peter Tôi nghĩ rằng bài báo đã sử dụng một quy tắc chấm điểm không đúng. Kết quả khác nhau có thể thu được khi sử dụng quy tắc chấm điểm thích hợp. Ngoài ra, bài báo không đề cập đến "sự biến động" của phân tích. Với tổng kích thước mẫu nhỏ được xem xét ở đó, việc lặp lại quy trình sử dụng phân tách ngẫu nhiên khác nhau sẽ dẫn đến các mô hình khác nhau và độ chính xác khác nhau nhiều so với lần phân tách đầu tiên. Tôi thấy đó là điều không mong muốn.
Frank Harrell

@FrankHarrell: Tôi thấy quan điểm của bạn và đó thực sự là một điểm rất tốt. Sau đó, bạn khuyên bạn nên làm gì? Peform Monte Carlo chạy các phần tách xe lửa / kiểm tra và sau đó trên mỗi lần chạy làm ix k-Folds CV (hoặc bootstrapping)? Nhưng sau đó, điều này sẽ làm ô nhiễm toàn bộ tập dữ liệu .... Tôi thấy không có giải pháp nào tốt hơn là tìm một cách thích hợp để phân chia tập dữ liệu thành tập hợp thử nghiệm (tiêu chí sẽ là gì?) Tôi chỉ không thể sử dụng tất cả tập dữ liệu để huấn luyện và xác nhận (sử dụng CV hoặc khởi động) các mô hình (từ đó một (hoặc một số) sẽ được sử dụng để dự đoán các giá trị đầu ra không xác định dựa trên một số dữ liệu đầu vào).
jpcgandre

Tôi đã giải quyết rằng trong bài viết bạn chỉ cần đặt trên một trang chủ đề khác.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.