Tôi có nên xáo trộn lại dữ liệu của mình?


9

Chúng tôi có một bộ mẫu sinh học khá đắt tiền để có được. Chúng tôi đặt các mẫu này thông qua một loạt các thử nghiệm để tạo dữ liệu được sử dụng để xây dựng mô hình dự đoán. Với mục đích này, chúng tôi đã chia các mẫu cho các bộ huấn luyện (70%) và thử nghiệm (30%). Chúng tôi đã tạo thành công một mô hình và áp dụng nó vào bộ thử nghiệm để phát hiện ra rằng hiệu suất "thấp hơn tối ưu". Các nhà thực nghiệm hiện muốn cải thiện các thử nghiệm sinh học để tạo ra một mô hình tốt hơn. Với điều kiện là chúng tôi không thể có được các mẫu mới, bạn có đề nghị chúng tôi xáo trộn lại các mẫu để tạo các bộ đào tạo và xác nhận mới hoặc để gắn bó với bộ phận ban đầu. (Chúng tôi không có bất kỳ dấu hiệu nào cho thấy bộ phận này là một vấn đề).


1
Làm thế nào bạn phân chia dữ liệu? Ngẫu nhiên, bằng tay, hoặc một số phương pháp khác? Mặc dù, trong thực tế, phần về "mô hình được tạo thành công" là phần lớn hơn của vấn đề. Trước khi thực hiện những việc đắt tiền, bạn nên xem liệu bạn có đang sử dụng loại mô hình phù hợp hay không, nếu bạn quá phù hợp với dữ liệu đào tạo của mình và liệu bạn có dữ liệu phù hợp cho những gì bạn đang cố gắng dự đoán hay không.
Wayne

BTW, tôi đã quên bật chế độ yếm thế trước khi "tạo mô hình thành công"
DavidDong

Câu trả lời:


12

Vì bạn đã sử dụng một mẫu nắm giữ, tôi sẽ nói bạn nên giữ nó và xây dựng các mô hình mới của bạn trên cùng một mẫu đào tạo để tất cả các mô hình sẽ xem xét cùng mối quan hệ giữa các tính năng. Ngoài ra, nếu bạn thực hiện lựa chọn tính năng, các mẫu phải được bỏ qua trước bất kỳ giai đoạn lọc nào; nghĩa là, lựa chọn tính năng phải được đưa vào vòng xác thực chéo.

Đáng chú ý, có nhiều phương thức mạnh hơn so với phân tách 0,67 / 0,33 cho lựa chọn mô hình, cụ thể là xác thực chéo k-gấp hoặc bỏ qua một lần. Xem ví dụ: Các yếu tố của học thống kê (§7.10, tr. 240-248), www.modelselection.org hoặc Một khảo sát về các quy trình xác thực chéo để lựa chọn mô hình của Arlot và Celisse (yêu cầu nền toán học nâng cao hơn).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.