Tôi có một bộ dữ liệu với khoảng 5.000 tính năng / đồng biến thường tương quan và phản hồi nhị phân. Dữ liệu được đưa cho tôi, tôi đã không thu thập nó. Tôi sử dụng Lasso và tăng cường độ dốc để xây dựng mô hình. Tôi sử dụng xác nhận chéo, lồng nhau. Tôi báo cáo 40 hệ số lớn nhất (tuyệt đối) của Lasso và 40 tính năng quan trọng nhất trong các cây được tăng cường độ dốc (không có gì đặc biệt về 40; nó dường như là một lượng thông tin hợp lý). Tôi cũng báo cáo phương sai của các đại lượng này qua các nếp gấp và số lần lặp của CV.
Tôi loại các nàng thơ về các tính năng "quan trọng", không đưa ra tuyên bố nào về giá trị p hoặc quan hệ nhân quả hay bất cứ điều gì, mà thay vào đó coi quá trình này là một loại --- mặc dù không hoàn hảo và loại ngẫu nhiên --- hiểu biết về một số hiện tượng.
Giả sử tôi đã thực hiện tất cả điều này một cách chính xác (ví dụ, thực hiện xác thực chéo chính xác, được chia tỷ lệ cho lasso), cách tiếp cận này có hợp lý không? Có vấn đề với, ví dụ, nhiều thử nghiệm giả thuyết, phân tích bài hoc, phát hiện sai? Hay những vấn đề khác?
Mục tiêu
Dự đoán xác suất của một sự kiện bất lợi
- Trước hết, hãy ước tính xác suất chính xác
- Nhỏ hơn - như một kiểm tra vệ sinh, nhưng cũng có thể tiết lộ một số dự đoán mới có thể được điều tra thêm, kiểm tra các hệ số và quan trọng như đã đề cập ở trên.
Khách hàng
- Các nhà nghiên cứu quan tâm đến việc dự đoán sự kiện này và những người cuối cùng phải sửa chữa sự kiện nếu nó xảy ra
Những gì tôi muốn họ ra khỏi nó
Cung cấp cho họ khả năng dự đoán sự kiện, nếu họ muốn lặp lại quy trình mô hình hóa, như được mô tả, với dữ liệu của riêng họ.
Làm sáng tỏ những dự đoán bất ngờ. Ví dụ, nó có thể chỉ ra rằng một cái gì đó hoàn toàn bất ngờ là dự đoán tốt nhất. Do đó, các nhà tạo mẫu ở nơi khác có thể cân nhắc nghiêm túc hơn đối với người dự đoán.