Tôi nghĩ rằng đây là một câu hỏi rất hay; nó đi vào trọng tâm của "vấn đề" nhiều thử nghiệm gây tranh cãi về các lĩnh vực từ dịch tễ học đến kinh tế lượng. Rốt cuộc, làm thế nào chúng ta có thể biết liệu tầm quan trọng mà chúng ta tìm thấy có phải là giả hay không? Làm thế nào đúng là mô hình đa biến của chúng tôi?
Về phương pháp kỹ thuật để bù đắp khả năng xuất bản các biến nhiễu, tôi sẽ đồng ý với 'whuber' rằng sử dụng một phần mẫu của bạn làm dữ liệu huấn luyện và phần còn lại làm dữ liệu thử nghiệm là một ý tưởng tốt. Đây là một cách tiếp cận được thảo luận trong tài liệu kỹ thuật, vì vậy nếu bạn dành thời gian có lẽ bạn có thể tìm ra một số hướng dẫn tốt cho thời điểm và cách sử dụng nó.
Nhưng để tấn công trực tiếp hơn vào triết lý của nhiều thử nghiệm, tôi khuyên bạn nên đọc các bài viết tôi tham khảo dưới đây, một số trong đó hỗ trợ cho việc điều chỉnh cho nhiều thử nghiệm thường có hại (chi phí điện năng), không cần thiết và thậm chí có thể là sai lầm logic . Tôi cho một người không tự động chấp nhận tuyên bố rằng khả năng của chúng tôi để điều tra một người dự đoán tiềm năng bị giảm đáng kể bởi cuộc điều tra của người khác. Các gia đình khôn ngoan Loại 1 tỷ lệ lỗi có thể tăng lên khi chúng tôi bao gồm nhiều yếu tố dự báo trong một mô hình nhất định, nhưng chừng nào chúng ta không vượt qua giới hạn của kích thước mẫu của chúng tôi, khả năng loại 1 lỗi đối với từng cá nhândự đoán là không đổi; và kiểm soát lỗi gia đình không làm sáng tỏ biến số cụ thể nào là nhiễu và biến nào không. Tất nhiên, cũng có những phản biện đồng thời.
Vì vậy, miễn là bạn giới hạn danh sách các biến tiềm năng của mình với các biến hợp lý (nghĩa là sẽ có đường dẫn đến kết quả), thì nguy cơ giả mạo đã được xử lý khá tốt.
Tuy nhiên, tôi sẽ nói thêm rằng một mô hình dự đoán không liên quan đến "giá trị thật" của các yếu tố dự đoán của nó như là một mô hình nguyên nhân ; có thể có rất nhiều bối rối trong mô hình, nhưng miễn là chúng tôi giải thích một mức độ lớn của phương sai thì chúng tôi không quá quan tâm. Điều này làm cho công việc dễ dàng hơn, ít nhất là theo một nghĩa.
Chúc mừng
Brenden, Tư vấn thống kê sinh học
PS: bạn có thể muốn thực hiện hồi quy Poisson bằng 0 cho dữ liệu bạn mô tả, thay vì hai hồi quy riêng biệt.
- Perneger, TV Có gì sai với các điều chỉnh Bonferroni . BMJ 1998; 316: 1236
- Cook, RJ & Farewell, VT Xem xét đa dạng trong thiết kế và phân tích các thử nghiệm lâm sàng . Tạp chí của Hiệp hội Thống kê Hoàng gia , sê-ri A 1996; Tập 159, Số 1: 93-110
- Rothman, KJ Không cần điều chỉnh cho nhiều so sánh . Dịch tễ học 1990; Tập 1, số 1: 43-46
- Marshall, JR Data nạo vét và đáng chú ý . Dịch tễ học 1990; Tập 1, số 1: 5-7
- Các điều chỉnh của Greenland, S. & Robins, JM Empirical-Bayes cho nhiều so sánh đôi khi rất hữu ích . Dịch tễ học 1991; Tập 2, số 4: 244-251