Khi nào bạn có thể sử dụng tiêu chí dựa trên dữ liệu để chỉ định mô hình hồi quy?


20

Tôi đã nghe nói rằng khi nhiều đặc tả mô hình hồi quy (giả sử, trong OLS) được coi là khả năng của một tập dữ liệu, điều này gây ra nhiều vấn đề so sánh và giá trị p và khoảng tin cậy không còn đáng tin cậy. Một ví dụ cực đoan về điều này là hồi quy từng bước.

Khi nào tôi có thể sử dụng chính dữ liệu để giúp chỉ định mô hình và khi nào thì đây không phải là cách tiếp cận hợp lệ? Bạn luôn cần phải có một lý thuyết dựa trên vấn đề để hình thành mô hình?

Câu trả lời:


9

Các kỹ thuật lựa chọn biến, nói chung (cho dù từng bước, lùi, tiến, tất cả các tập hợp con, AIC, v.v.), tận dụng các mẫu ngẫu nhiên hoặc ngẫu nhiên trong dữ liệu mẫu không tồn tại trong dân số. Thuật ngữ kỹ thuật cho điều này là quá phù hợp và nó đặc biệt có vấn đề với các bộ dữ liệu nhỏ, mặc dù nó không dành riêng cho chúng. Bằng cách sử dụng quy trình chọn các biến dựa trên mức độ phù hợp nhất, tất cả các biến thể ngẫu nhiên trông giống như phù hợp trong mẫu cụ thể này sẽ góp phần vào các ước tính và sai số chuẩn. Đây là một vấn đề cho cả dự đoán và giải thích mô hình.

Cụ thể, r-squared quá cao và ước tính tham số bị sai lệch (chúng quá xa 0), lỗi tiêu chuẩn cho các tham số quá nhỏ (và do đó giá trị p và khoảng xung quanh các tham số quá nhỏ / hẹp).

Tuyến phòng thủ tốt nhất chống lại các vấn đề này là xây dựng các mô hình một cách chu đáo và bao gồm các dự đoán có ý nghĩa dựa trên lý thuyết, logic và kiến ​​thức trước đó. Nếu một quy trình lựa chọn biến là cần thiết, bạn nên chọn một phương pháp xử phạt các ước tính tham số (phương pháp thu nhỏ) bằng cách điều chỉnh các tham số và lỗi tiêu chuẩn để giải thích cho sự phù hợp quá mức. Một số phương pháp thu nhỏ phổ biến là Hồi quy độ dốc, Hồi quy góc tối thiểu hoặc Lasso. Ngoài ra, xác nhận chéo bằng cách sử dụng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra hoặc tính trung bình mô hình có thể hữu ích để kiểm tra hoặc giảm các tác động của việc khớp quá mức.

Harrell là một nguồn tuyệt vời để thảo luận chi tiết về những vấn đề này. Mitchell (2001). "Chiến lược mô hình hồi quy."


Chấp nhận, một thời gian dài sau đó! Cảm ơn về tổng quan chi tiết này về các vấn đề kỹ thuật và tôi sẽ xem cuốn sách của Mitchell.
Statisfilities

7

Trong bối cảnh khoa học xã hội nơi tôi đến, vấn đề là bạn có quan tâm đến (a) dự đoán hay (b) kiểm tra một câu hỏi nghiên cứu tập trung. Nếu mục đích là dự đoán thì phương pháp tiếp cận dữ liệu là phù hợp. Nếu mục đích là để kiểm tra một câu hỏi nghiên cứu tập trung thì điều quan trọng là phải xem xét mô hình hồi quy nào kiểm tra cụ thể câu hỏi của bạn.

Ví dụ: nếu nhiệm vụ của bạn là chọn một tập hợp các bài kiểm tra lựa chọn để dự đoán hiệu suất công việc, thì mục đích nào đó có thể được xem là một trong những dự đoán tối đa về hiệu suất công việc. Vì vậy, cách tiếp cận theo hướng dữ liệu sẽ hữu ích.

Ngược lại nếu bạn muốn hiểu vai trò tương đối của các biến nhân cách và biến khả năng trong việc ảnh hưởng đến hiệu suất, thì cách tiếp cận so sánh mô hình cụ thể có thể phù hợp hơn.

Thông thường khi khám phá các câu hỏi nghiên cứu tập trung, mục đích là làm sáng tỏ điều gì đó về các quá trình nguyên nhân cơ bản đang hoạt động trái ngược với việc phát triển một mô hình với dự đoán tối ưu.

Khi tôi đang trong quá trình phát triển các mô hình về quy trình dựa trên dữ liệu cắt ngang, tôi sẽ cảnh giác: (a) bao gồm các dự đoán về mặt lý thuyết có thể được coi là hậu quả của biến kết quả. Ví dụ, niềm tin của một người rằng họ là một người biểu diễn tốt là một người dự đoán tốt về hiệu suất công việc, nhưng có khả năng điều này ít nhất một phần là do thực tế là họ đã quan sát hiệu suất của chính họ. (b) bao gồm một số lượng lớn các yếu tố dự đoán đều phản ánh cùng một hiện tượng cơ bản. Ví dụ, bao gồm 20 mặt hàng tất cả đo lường sự hài lòng với cuộc sống theo những cách khác nhau.

Vì vậy, các câu hỏi nghiên cứu tập trung phụ thuộc nhiều vào kiến ​​thức cụ thể của miền. Điều này có lẽ đi một số cách để giải thích tại sao các phương pháp tiếp cận dựa trên dữ liệu thường ít được sử dụng trong khoa học xã hội.


4

Tôi không nghĩ có thể thực hiện Bonferoni hoặc các hiệu chỉnh tương tự để điều chỉnh lựa chọn biến trong hồi quy vì tất cả các thử nghiệm và các bước liên quan đến lựa chọn mô hình đều không độc lập.

Một cách tiếp cận là xây dựng mô hình bằng cách sử dụng một bộ dữ liệu và suy luận về một bộ dữ liệu khác. Điều này được thực hiện trong việc dự báo tất cả thời gian chúng tôi có một bộ huấn luyện và một bộ thử nghiệm. Nó không phổ biến trong các lĩnh vực khác, có lẽ vì dữ liệu rất quý giá nên chúng tôi muốn sử dụng mọi quan sát đơn lẻ để lựa chọn mô hình và suy luận. Tuy nhiên, như bạn lưu ý trong câu hỏi của bạn, nhược điểm là suy luận thực sự sai lệch.

Có nhiều tình huống mà một cách tiếp cận dựa trên lý thuyết là không thể vì không có lý thuyết phát triển tốt. Trong thực tế, tôi nghĩ rằng điều này là phổ biến hơn nhiều so với các trường hợp lý thuyết cho thấy một mô hình.


4

Richard Berk có một bài báo gần đây, nơi ông chứng minh thông qua mô phỏng các vấn đề của việc rình mò dữ liệu và suy luận thống kê như vậy. Như Rob đề xuất, nó có nhiều vấn đề hơn là chỉ đơn giản là sửa chữa cho nhiều bài kiểm tra giả thuyết.

Suy luận thống kê sau khi lựa chọn mô hình của: Richard Berk, Lawrence Brown, Linda Zhao Tạp chí tội phạm định lượng, số. 26, số 2. (ngày 1 tháng 6 năm 2010), trang 217-236.

Phiên bản PDF tại đây


(+1) Cảm ơn vì liên kết! Bạn có thể quan tâm đến câu hỏi liên quan này, stats.stackexchange.com/questions/3200/ . Hãy đóng góp.
chl

@chl, tôi không nghĩ rằng tôi có thể thêm bất cứ điều gì vào câu trả lời đã xuất sắc cho câu hỏi đó. Tôi thực sự nghĩ rằng câu trả lời của Brendan rất sâu sắc bởi vì tôi nghi ngờ người đăng ban đầu thực sự quan tâm đến suy luận nguyên nhân không chỉ là dự đoán dựa trên bối cảnh của câu hỏi.
Andy W

Vâng, tôi đã nghĩ về câu trả lời của anh ấy. Tôi đã khởi xướng một phản xạ về vấn đề nạo vét dữ liệu (không chính xác về các vấn đề lựa chọn mô hình / biến hoặc suy luận nguyên nhân), nhưng cho đến nay vẫn nhận được một vài phản hồi. Nếu bạn muốn thêm ý tưởng của riêng mình, sẽ rất thú vị: stats.stackexchange.com/questions/3252/ (
chl

2

Nếu tôi hiểu đúng câu hỏi của bạn, hơn câu trả lời cho vấn đề của bạn là sửa các giá trị p tương ứng với số lượng giả thuyết.

Ví dụ: hiệu chỉnh Holm-Bonferoni, trong đó bạn sắp xếp giả thuyết (= các mô hình khác nhau của bạn) theo giá trị p của chúng và từ chối những giá trị có ap samller hơn (giá trị p / chỉ số mong muốn).

Thông tin thêm về chủ đề có thể được tìm thấy trên Wikipedia


1
Bạn có thể muốn đọc câu trả lời này cho một câu hỏi riêng biệt và xem tại sao điều chỉnh giá trị p theo cách như vậy có thể không phải là giải pháp tốt nhất, stats.stackexchange.com/questions/3200/iêu
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.