Giảm thiểu sai lệch trong mô hình giải thích, tại sao? (Giải thích hoặc để dự đoán về Galit Shmueli's)


15

Câu hỏi này tham khảo bài viết của Galit Shmueli "Để giải thích hoặc dự đoán" .

Cụ thể, trong phần 1.5, "Giải thích và Dự đoán là khác nhau", Giáo sư Shmueli viết:

Trong mô hình giải thích, trọng tâm là giảm thiểu sai lệch để có được biểu diễn chính xác nhất của lý thuyết cơ bản.

Điều này đã làm tôi bối rối mỗi lần tôi đọc bài báo. Theo nghĩa nào thì việc giảm thiểu sai lệch trong ước tính sẽ thể hiện chính xác nhất lý thuyết cơ bản?

Tôi cũng đã xem giáo sư Shmueli nói chuyện ở đây , được đưa ra tại JMP Discovery Summit 2017, và cô nói:

... những thứ giống như mô hình co rút, quần thể, bạn sẽ không bao giờ nhìn thấy chúng. Bởi vì những mô hình đó, theo thiết kế, giới thiệu sự thiên vị để giảm sự thiên vị / phương sai tổng thể. Đó là lý do tại sao họ sẽ không ở đó, nó không có ý nghĩa lý thuyết để làm điều đó. Tại sao bạn sẽ làm cho mô hình của bạn thiên vị về mục đích?

Điều này không thực sự làm sáng tỏ câu hỏi của tôi, chỉ đơn giản là khôi phục yêu cầu mà tôi không hiểu.

Nếu lý thuyết có nhiều tham số và chúng ta có dữ liệu ít ỏi để ước tính chúng, lỗi ước tính sẽ bị chi phối bởi phương sai. Tại sao nó không phù hợp để sử dụng thủ tục ước lượng sai lệch như hồi quy sườn (dẫn đến ước tính sai lệch của phương sai thấp hơn) trong tình huống này?


1
Câu hỏi hay! +1 Tôi đã hỏi một câu hỏi liên quan tại stats.stackexchange.com/questions/204386/ trên
Adrian

@Adrian Đó là một câu hỏi hay, được hỏi nhiều. Tôi cũng muốn thấy một câu trả lời thấu đáo cho câu hỏi đó!
Matthew Drury

Câu trả lời:


6

Đây thực sự là một câu hỏi lớn, đòi hỏi một chuyến đi vào thế giới của việc sử dụng các mô hình thống kê trong nghiên cứu khoa học xã hội và kinh tế học (từ những gì tôi đã thấy, các nhà thống kê ứng dụng và các nhà khai thác dữ liệu làm công việc mô tả hoặc dự đoán thường không giải quyết sai lệch của hình thức này). Thuật ngữ "thiên vị" mà tôi đã sử dụng trong bài báo là những gì các nhà kinh tế lượng và nhà khoa học xã hội coi là mối nguy hiểm nghiêm trọng để suy ra nguyên nhân từ các nghiên cứu thực nghiệm. Nó đề cập đến sự khác biệt giữa mô hình thống kê của bạn và mô hình lý thuyết nhân quả làm nền tảng cho nó . Một thuật ngữ liên quan là "đặc tả mô hình", một chủ đề được dạy rất nhiều về kinh tế lượng do tầm quan trọng của "xác định chính xác mô hình hồi quy của bạn" (liên quan đến lý thuyết) khi mục tiêu của bạn là giải thích nguyên nhân. Xembài viết Wikipedia về Đặc điểm kỹ thuật cho một mô tả ngắn gọn. Một vấn đề sai chính tả lớn là dưới đặc điểm kỹ thuật , được gọi là "Xu hướng biến đổi bị bỏ qua" (OVB), trong đó bạn bỏ qua một biến giải thích từ hồi quy nên có (theo lý thuyết) - đây là một biến có tương quan với biến phụ thuộc và với ít nhất một trong các biến giải thích. Xem mô tả gọn gàng này ) giải thích ý nghĩa của loại sai lệch này là gì. Từ quan điểm lý thuyết, OVB gây hại cho khả năng suy luận nhân quả của bạn từ mô hình.

Trong phần phụ lục của bài viết của tôi để giải thích hay dự đoán? có một ví dụ cho thấy làm thế nào một mô hình chưa được xác định ("sai") đôi khi có thể có sức mạnh dự đoán cao hơn. Nhưng bây giờ hy vọng bạn có thể thấy lý do tại sao điều đó mâu thuẫn với mục tiêu của một "mô hình giải thích nguyên nhân tốt".


2
Tôi nghĩ rằng vẫn còn nhiều nhầm lẫn về các mô hình dự đoán và giải thích. Tôi đã phỏng vấn với một nhà khoa học dữ liệu tại một công ty bảo hiểm lớn và hỏi liệu họ có xây dựng các mô hình dự đoán hoặc giải thích trong nhóm của mình không. Anh ấy nói "nó không thực sự quan trọng" - tôi không nghĩ anh ấy biết sự khác biệt.
RobertF
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.