Dữ liệu tương quan, chiều cao và các tính năng hàng đầu / hiệp phương sai được phát hiện; thử nghiệm nhiều giả thuyết?


9

Tôi có một bộ dữ liệu với khoảng 5.000 tính năng / đồng biến thường tương quan và phản hồi nhị phân. Dữ liệu được đưa cho tôi, tôi đã không thu thập nó. Tôi sử dụng Lasso và tăng cường độ dốc để xây dựng mô hình. Tôi sử dụng xác nhận chéo, lồng nhau. Tôi báo cáo 40 hệ số lớn nhất (tuyệt đối) của Lasso và 40 tính năng quan trọng nhất trong các cây được tăng cường độ dốc (không có gì đặc biệt về 40; nó dường như là một lượng thông tin hợp lý). Tôi cũng báo cáo phương sai của các đại lượng này qua các nếp gấp và số lần lặp của CV.

Tôi loại các nàng thơ về các tính năng "quan trọng", không đưa ra tuyên bố nào về giá trị p hoặc quan hệ nhân quả hay bất cứ điều gì, mà thay vào đó coi quá trình này là một loại --- mặc dù không hoàn hảo và loại ngẫu nhiên --- hiểu biết về một số hiện tượng.

Giả sử tôi đã thực hiện tất cả điều này một cách chính xác (ví dụ, thực hiện xác thực chéo chính xác, được chia tỷ lệ cho lasso), cách tiếp cận này có hợp lý không? Có vấn đề với, ví dụ, nhiều thử nghiệm giả thuyết, phân tích bài hoc, phát hiện sai? Hay những vấn đề khác?

Mục tiêu

Dự đoán xác suất của một sự kiện bất lợi

  • Trước hết, hãy ước tính xác suất chính xác
  • Nhỏ hơn - như một kiểm tra vệ sinh, nhưng cũng có thể tiết lộ một số dự đoán mới có thể được điều tra thêm, kiểm tra các hệ số và quan trọng như đã đề cập ở trên.

Khách hàng

  • Các nhà nghiên cứu quan tâm đến việc dự đoán sự kiện này và những người cuối cùng phải sửa chữa sự kiện nếu nó xảy ra

Những gì tôi muốn họ ra khỏi nó

  • Cung cấp cho họ khả năng dự đoán sự kiện, nếu họ muốn lặp lại quy trình mô hình hóa, như được mô tả, với dữ liệu của riêng họ.

  • Làm sáng tỏ những dự đoán bất ngờ. Ví dụ, nó có thể chỉ ra rằng một cái gì đó hoàn toàn bất ngờ là dự đoán tốt nhất. Do đó, các nhà tạo mẫu ở nơi khác có thể cân nhắc nghiêm túc hơn đối với người dự đoán.


Nó sẽ hữu ích để biết ý định ở đây là gì. Bạn đã làm những điều này, tại sao? Ai là người tiêu dùng, và bạn muốn họ thoát ra khỏi phân tích là gì?
Matthew Drury

Câu trả lời:


2

Không có vấn đề với độ chính xác của các dự đoán. Sự không chắc chắn trong dự đoán của bạn được ước tính tốt bằng cách xác định giá trị chéo. Có thể một điều lưu ý là nếu bạn kiểm tra nhiều cài đặt tham số, thì bạn đánh giá quá cao độ chính xác, vì vậy bạn nên sử dụng bộ xác thực để ước tính độ chính xác của mô hình cuối cùng. Ngoài ra, dữ liệu của bạn phải đại diện cho dữ liệu mà bạn sẽ thực hiện dự đoán.

Điều này rõ ràng với bạn, và cần phải rõ ràng với người đọc, rằng những người dự đoán của bạn không phải là nguyên nhân gây ra hiệu ứng, họ chỉ là những người dự đoán tạo ra một dự đoán tốt và hoạt động tốt theo kinh nghiệm. Mặc dù tôi hoàn toàn đồng ý với sự thận trọng của bạn, việc suy ra bất kỳ nguyên nhân nào từ dữ liệu quan sát là vấn đề trong mọi trường hợp. Những thứ như tầm quan trọng và những khái niệm "hợp lệ" trong các nghiên cứu được thiết kế tốt, có kiểm soát và bên ngoài chúng chỉ là những công cụ mà bạn và những người khác nên giải thích một cách khôn ngoan và thận trọng. Có thể có các nguyên nhân phổ biến, hiệu ứng giả, mặt nạ và những thứ khác xảy ra trong hồi quy tuyến tính bình thường với khoảng tin cậy được báo cáo, cũng như trong mô hình Lasso, cũng như trong mô hình cây tăng cường độ dốc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.