Tôi là một sinh viên kinh tế với một số kinh nghiệm về kinh tế lượng và R. Tôi muốn biết liệu có bao giờ tình huống chúng ta nên đưa vào một biến trong hồi quy mặc dù nó không có ý nghĩa thống kê?
Tôi là một sinh viên kinh tế với một số kinh nghiệm về kinh tế lượng và R. Tôi muốn biết liệu có bao giờ tình huống chúng ta nên đưa vào một biến trong hồi quy mặc dù nó không có ý nghĩa thống kê?
Câu trả lời:
Vâng!
Đó là một hệ số là không thể phân biệt về mặt thống kê từ zero làm không ngụ ý rằng hệ số thực sự là không, mà hệ số là không thích hợp. Rằng một hiệu ứng không vượt qua một số điểm cắt tùy ý cho ý nghĩa thống kê không có nghĩa là người ta không nên cố gắng kiểm soát nó.
Nói chung, vấn đề trong tay và thiết kế nghiên cứu của bạn nên hướng dẫn những gì cần bao gồm như hồi quy.
Và làm không thực hiện việc này như một danh sách đầy đủ. Không khó để có thêm hàng tấn ...
Một tình huống mà điều này thường xảy ra là một hồi quy với các hiệu ứng cố định .
Giả sử bạn có dữ liệu bảng và muốn ước tính trong mô hình:
Ước tính mô hình này với bình phương tối thiểu thông thường trong đó được coi là hiệu ứng cố định tương đương với việc chạy bình phương tối thiểu thông thường với một biến chỉ báo cho từng cá nhân . i
Dù sao, điểm quan trọng là các biến (tức là các hệ số trên các biến chỉ báo) thường được ước tính kém. Bất kỳ hiệu ứng cố định riêng lẻu i thường không có ý nghĩa thống kê. Nhưng bạn vẫn bao gồm tất cả các biến chỉ báo trong hồi quy nếu bạn đang tính đến các hiệu ứng cố định.
(Lưu ý thêm rằng hầu hết các gói thống kê thậm chí sẽ không cung cấp cho bạn các lỗi tiêu chuẩn cho các hiệu ứng cố định riêng lẻ khi bạn sử dụng các phương thức tích hợp. Bạn không thực sự quan tâm đến tầm quan trọng của các hiệu ứng cố định riêng lẻ. Bạn có thể quan tâm đến ý nghĩa tập thể của chúng .)
Nếu bạn phù hợp với đa thức bậc với một số đường cong, bạn hầu như luôn bao gồm các điều khoản đa thức bậc thấp hơn.
Ví dụ: nếu bạn đang lắp một đa thức bậc 2, bạn sẽ chạy:
Thông thường sẽ rất kỳ quái khi buộc và thay vào đó chạy y i = b 0 + b 2 x 2 i + ϵ i
nhưng sinh viên cơ học Newton sẽ có thể tưởng tượng các ngoại lệ.
Giả sử bạn đang ước tính mô hình AR (p), bạn cũng sẽ bao gồm các điều khoản bậc thấp hơn. Ví dụ: đối với AR (2) bạn sẽ chạy:
Và sẽ thật kỳ quái khi chạy:
Như @NickCox đề cập, các thuật ngữ và tương tự có xu hướng đi cùng nhau. Để biết thêm về điều đó, xem ví dụ như bài báo này .tội lỗi
Bạn muốn bao gồm các biến bên phải khi có lý do tốt về lý thuyết để làm như vậy.
Và như các câu trả lời khác ở đây và trên StackExchange thảo luận, lựa chọn biến theo từng bước có thể tạo ra nhiều vấn đề thống kê.
Điều quan trọng là phải phân biệt giữa:
Trong trường hợp sau, việc lập luận hệ số không thành vấn đề. Nó có thể chỉ đơn giản là được đo lường kém.
Vâng, có. Bất kỳ biến nào có thể tương quan với biến trả lời của bạn theo một cách có ý nghĩa, thậm chí ở mức không đáng kể về mặt thống kê, có thể gây nhiễu cho hồi quy của bạn nếu không bao gồm. Điều này được gọi là thiếu xác thực và dẫn đến các ước tính tham số không chính xác như chúng có thể.
https://onlinecferences.science.psu.edu/stat501/node/328
Từ trên:
Một mô hình hồi quy không được xác định rõ (kết quả 2) nếu phương trình hồi quy bị thiếu một hoặc nhiều biến dự báo quan trọng. Tình huống này có lẽ là trường hợp xấu nhất, bởi vì một mô hình chưa được xác định mang lại hệ số hồi quy sai lệch và dự đoán sai lệch của phản hồi. Đó là, trong việc sử dụng mô hình, chúng ta sẽ luôn đánh giá thấp hoặc đánh giá quá cao độ dốc dân số và phương tiện dân số. Để làm cho vấn đề xấu thậm chí còn tồi tệ hơn, lỗi bình phương trung bình MSE có xu hướng đánh giá quá cao σ², do đó mang lại khoảng tin cậy rộng hơn mức cần thiết.
Thông thường bạn không bao gồm hoặc loại trừ các biến cho hồi quy tuyến tính vì tầm quan trọng của chúng. Bạn bao gồm chúng bởi vì bạn cho rằng các biến được chọn là các yếu tố dự đoán (tốt) của tiêu chí hồi quy. Nói cách khác, lựa chọn dự đoán dựa trên lý thuyết.
Không đáng kể về thống kê trong hồi quy tuyến tính có thể có nghĩa là hai điều (trong đó tôi biết):
Một lý do hợp lệ để loại trừ các yếu tố dự đoán không đáng kể là bạn đang tìm kiếm tập hợp con nhỏ nhất của các yếu tố dự đoán giải thích phương sai tiêu chí hoặc hầu hết. Nếu bạn đã tìm thấy nó kiểm tra lý thuyết của bạn.
Trong kinh tế lượng, điều này xảy ra trái và phải. Ví dụ: nếu bạn đang sử dụng các hình nộm theo mùa hàng quý quý 2, quý 3 và quý 4, điều thường xảy ra là một nhóm có ý nghĩa, nhưng một số trong số chúng không có ý nghĩa riêng lẻ. Trong trường hợp này bạn thường giữ tất cả chúng.
CẬP NHẬT: Một ví dụ phổ biến khác là dự báo. Kinh tế lượng thường được dạy từ quan điểm suy luận trong các bộ phận kinh tế. Trong viễn cảnh suy luận, rất nhiều sự chú ý là về giá trị p và tầm quan trọng, bởi vì bạn đang cố gắng hiểu nguyên nhân gây ra cái gì và vân vân. Trong dự báo, không có nhiều sự nhấn mạnh vào công cụ này, bởi vì tất cả những gì bạn quan tâm là mô hình có thể dự báo biến quan tâm tốt đến mức nào.
Điều này tương tự như các ứng dụng học máy, btw, đang tiến vào kinh tế gần đây. Bạn có thể có một mô hình với tất cả các biến quan trọng không dự báo tốt. Trong ML, nó thường được liên kết với cái gọi là "quá khớp". Rõ ràng có rất ít sử dụng mô hình như vậy trong dự báo.
Bạn đang hỏi hai câu hỏi khác nhau:
Chỉnh sửa: điều này đúng với bài viết gốc, nhưng có thể không còn đúng sau khi chỉnh sửa.
Về Q1, tôi nghĩ nó ở biên giới quá rộng. Có rất nhiều câu trả lời có thể, một số đã được cung cấp. Một ví dụ nữa là khi xây dựng các mô hình để dự báo (xem nguồn trích dẫn bên dưới để được giải thích).
Về quý 2, ý nghĩa thống kê không phải là một tiêu chí hợp lý để xây dựng mô hình. Rob J. Hyndman viết như sau trong bài đăng trên blog của mình "Các bài kiểm tra thống kê để lựa chọn biến" :
Ý nghĩa thống kê thường không phải là một cơ sở tốt để xác định liệu một biến có nên được đưa vào một mô hình hay không, mặc dù thực tế là nhiều người nên biết sử dụng chúng tốt hơn cho mục đích này. <...> Kiểm tra thống kê được thiết kế để kiểm tra các giả thuyết, không chọn các biến.
Cũng lưu ý rằng bạn thường có thể tìm thấy một số biến có ý nghĩa thống kê hoàn toàn là tình cờ (cơ hội được kiểm soát bởi sự lựa chọn của bạn về mức ý nghĩa). Quan sát rằng một biến có ý nghĩa thống kê là không đủ để kết luận rằng biến đó thuộc về mô hình.
Tôi sẽ thêm một chữ "có". Tôi đã luôn được dạy - và tôi đã cố gắng vượt qua - rằng sự cân nhắc chính trong lựa chọn đồng biến là kiến thức tên miền, không phải số liệu thống kê. Trong thống kê sinh học, ví dụ, nếu tôi đang mô hình hóa một số kết quả về sức khỏe trên các cá nhân, sau đó không có vấn đề gì các hồi quy nói, bạn sẽ cần một số lập luận darn tốt đối với tôi là không bao gồm tuổi tác, chủng tộc, và quan hệ tình dục trong mô hình.
Nó cũng phụ thuộc vào mục đích của mô hình của bạn. Nếu mục đích đạt được sự hiểu biết tốt hơn về những yếu tố nào liên quan nhất đến kết quả của bạn, thì việc xây dựng một mô hình tuyệt vời có một số ưu điểm. Nếu bạn quan tâm đến dự đoán, và không quá nhiều về sự hiểu biết, thì việc loại bỏ các đồng biến có thể là một mối quan tâm nhỏ hơn.
(Cuối cùng, nếu bạn dự định sử dụng số liệu thống kê để lựa chọn biến, hãy xem Frank Harrell nói gì về chủ đề này - http://www.stata.com/support/faqs/statistic/stepwise-regression-probols/ và cuốn sách Chiến lược mô hình hóa hồi quy của ông . Tóm lại, vào thời điểm bạn sử dụng các chiến lược dựa trên thống kê từng bước hoặc tương tự để chọn các dự đoán tốt nhất, thì bất kỳ thử nghiệm nào về "những dự đoán tốt này?" đều sai lệch khủng khiếp - tất nhiên chúng ' lại là những người dự đoán tốt, bạn đã chọn chúng trên cơ sở đó và do đó, giá trị p cho những dự đoán đó là sai.)
Điều duy nhất mà kết quả của "không đáng kể về thống kê" thực sự nói là, ở mức độ đã chọn của lỗi Loại I, chúng ta thậm chí không thể biết được tác động của biến hồi quy lên biến phụ thuộc là dương hay âm (xem bài này).
Vì vậy, nếu chúng ta giữ biến hồi quy này, bất kỳ cuộc thảo luận nào về tác động của chính nó đối với biến phụ thuộc sẽ không có bằng chứng thống kê để sao lưu nó.
Nhưng thất bại ước tính này không nói rằng bộ hồi quy không thuộc về mối quan hệ cấu trúc, nó chỉ nói rằng với tập dữ liệu cụ thể, chúng tôi không thể xác định chắc chắn dấu hiệu của hệ số của nó.
Vì vậy, về nguyên tắc, nếu có các lập luận lý thuyết hỗ trợ sự hiện diện của nó, thì nên sử dụng biến hồi quy.
Các câu trả lời khác ở đây cung cấp các mô hình / tình huống cụ thể mà các biến hồi quy như vậy được giữ trong đặc tả, ví dụ câu trả lời đề cập đến mô hình dữ liệu bảng hiệu ứng cố định.
Bạn có thể bao gồm một biến quan tâm đặc biệt nếu đó là trọng tâm của nghiên cứu, ngay cả khi không có ý nghĩa thống kê. Ngoài ra, trong thống kê sinh học, ý nghĩa lâm sàng thường khác với ý nghĩa thống kê.