Khi nào nên bao gồm một biến trong hồi quy mặc dù nó không có ý nghĩa thống kê?


37

Tôi là một sinh viên kinh tế với một số kinh nghiệm về kinh tế lượng và R. Tôi muốn biết liệu có bao giờ tình huống chúng ta nên đưa vào một biến trong hồi quy mặc dù nó không có ý nghĩa thống kê?


1
Trong nghiên cứu y học, bạn sẽ bao gồm nó nếu nó liên quan đến các tương tác định tính. Xem tác phẩm của Lacey Gunter mà tôi đã tham khảo ở đây trước đây. Ngoài ra cuốn sách của Chakraborty và Moodie được xuất bản bởi Springer vào năm 2013. Tiêu đề là Phương pháp thống kê cho các chế độ điều trị năng động: Học tập củng cố, suy luận nguyên nhân và Y học cá nhân hóa.
Michael R. Chernick

11
Cũng xem xét rằng ý nghĩa thống kê là hoàn toàn tùy ý. Có ý nghĩa gì? 0,05? 0,1? 0,001? Nếu nền tảng lý thuyết tồn tại để bao gồm một người dự đoán, đó là lý do đủ để giữ nó.
Ashe

2
Khi bạn nói "không có ý nghĩa thống kê" bạn có nhận ra rằng đó là mức độ tự tin 5%, đó là một sự lựa chọn tùy ý? (Và càng có nhiều biến, bạn phải chịu nhiều vấn đề kiểm tra).
smci

1
@smci 0,05 = 5% mức ý nghĩa tương ứng với mức độ tin cậy 95%, đủ lý do để tránh trộn lẫn các thuật ngữ trong cùng một câu. Vì có các quy trình quan trọng mà không có khoảng tin cậy trong tầm nhìn, nên thường dễ sử dụng nhất cho bất kỳ thuật ngữ nào thích hợp hơn. Các ngoại lệ là khi bạn đang giải thích liên kết ở cấp độ giới thiệu.
Nick Cox

Câu trả lời:


30

Vâng!

Đó là một hệ số là không thể phân biệt về mặt thống kê từ zero làm không ngụ ý rằng hệ số thực sự là không, mà hệ số là không thích hợp. Rằng một hiệu ứng không vượt qua một số điểm cắt tùy ý cho ý nghĩa thống kê không có nghĩa là người ta không nên cố gắng kiểm soát nó.

Nói chung, vấn đề trong tay và thiết kế nghiên cứu của bạn nên hướng dẫn những gì cần bao gồm như hồi quy.

Một số ví dụ nhanh:

Và làm không thực hiện việc này như một danh sách đầy đủ. Không khó để có thêm hàng tấn ...

1. Hiệu ứng cố định

Một tình huống mà điều này thường xảy ra là một hồi quy với các hiệu ứng cố định .

Giả sử bạn có dữ liệu bảng và muốn ước tính trong mô hình:b

yit=bxit+ui+ϵit

Ước tính mô hình này với bình phương tối thiểu thông thường trong đó được coi là hiệu ứng cố định tương đương với việc chạy bình phương tối thiểu thông thường với một biến chỉ báo cho từng cá nhân . iuii

Dù sao, điểm quan trọng là các biến (tức là các hệ số trên các biến chỉ báo) thường được ước tính kém. Bất kỳ hiệu ứng cố định riêng lẻu iuiui thường không có ý nghĩa thống kê. Nhưng bạn vẫn bao gồm tất cả các biến chỉ báo trong hồi quy nếu bạn đang tính đến các hiệu ứng cố định.

(Lưu ý thêm rằng hầu hết các gói thống kê thậm chí sẽ không cung cấp cho bạn các lỗi tiêu chuẩn cho các hiệu ứng cố định riêng lẻ khi bạn sử dụng các phương thức tích hợp. Bạn không thực sự quan tâm đến tầm quan trọng của các hiệu ứng cố định riêng lẻ. Bạn có thể quan tâm đến ý nghĩa tập thể của chúng .)

2. Các chức năng đi cùng nhau ...

(a) Lắp đường cong đa thức (mũ chóp @NickCox trong phần bình luận)

Nếu bạn phù hợp với đa thức bậc với một số đường cong, bạn hầu như luôn bao gồm các điều khoản đa thức bậc thấp hơn.k

Ví dụ: nếu bạn đang lắp một đa thức bậc 2, bạn sẽ chạy:

yi=b0+b1xi+b2xi2+ϵi

Thông thường sẽ rất kỳ quái khi buộc và thay vào đó chạy y i = b 0 + b 2 x 2 i + ϵ ib1=0

yi=b0+b2xi2+ϵi

nhưng sinh viên cơ học Newton sẽ có thể tưởng tượng các ngoại lệ.

(b) Mô hình AR (p):

Giả sử bạn đang ước tính mô hình AR (p), bạn cũng sẽ bao gồm các điều khoản bậc thấp hơn. Ví dụ: đối với AR (2) bạn sẽ chạy:

yt=b0+b1yt1+b2yt2+ϵt

Và sẽ thật kỳ quái khi chạy:

yt=b0+b2yt2+ϵt

(c) Hàm lượng giác

Như @NickCox đề cập, các thuật ngữ và tương tự có xu hướng đi cùng nhau. Để biết thêm về điều đó, xem ví dụ như bài báo này .tội lỗicossin

Rộng hơn...

Bạn muốn bao gồm các biến bên phải khi có lý do tốt về lý thuyết để làm như vậy.

Và như các câu trả lời khác ở đây và trên StackExchange thảo luận, lựa chọn biến theo từng bước có thể tạo ra nhiều vấn đề thống kê.

Điều quan trọng là phải phân biệt giữa:

  • một hệ số không thể phân biệt thống kê từ 0 với sai số chuẩn nhỏ .
  • một hệ số không thể phân biệt thống kê từ 0 với sai số chuẩn lớn .

Trong trường hợp sau, việc lập luận hệ số không thành vấn đề. Nó có thể chỉ đơn giản là được đo lường kém.


uibuiuiui

5
Một số câu trả lời rất hay tuy nhiên đã chồng chéo lên nhau quá nhiều, vì vậy tôi sẽ giới hạn các ví dụ của mình để nhận xét ở đây. Phù hợp đa thức : phổ biến nhất, một bậc hai hầu như luôn luôn phải được trang bị bởi một hành động kép của các điều khoản tuyến tính và bình phương. Ngay cả khi chỉ có một thuật ngữ có ý nghĩa ở cấp độ thông thường, hiệu ứng chung của chúng là chìa khóa. Các yếu tố dự đoán lượng giác Tương tự, sin và cos thường thuộc về nhau ngay cả khi người ta không đủ điều kiện ở cấp độ thông thường. Hành vi kép nên được trang bị như vậy.
Nick Cox

2
@NickCox Vì đây là wiki cộng đồng và quan điểm của bạn liên quan trực tiếp đến vấn đề được nêu ra ở đây, tôi nghĩ rằng nhận xét của bạn sẽ xứng đáng được chỉnh sửa thành câu trả lời tại một thời điểm thích hợp. Theo quan điểm của tôi, điều đó quá quan trọng, mặc dù tôi nghĩ rằng bạn đúng rằng đó không phải là một câu trả lời tự do
Silverfish

@Silverfish Matthew được chào đón để sao chép nó. Tuy nhiên, có vẻ như một chút tự phụ đối với tôi để chỉnh sửa nó.
Nick Cox

1
@NickCox Haha, tôi không quan tâm. :) Tôi đã thêm đề xuất của bạn và cảm thấy thoải mái để chỉnh sửa!.
Matthew Gunn

14

Vâng, có. Bất kỳ biến nào có thể tương quan với biến trả lời của bạn theo một cách có ý nghĩa, thậm chí ở mức không đáng kể về mặt thống kê, có thể gây nhiễu cho hồi quy của bạn nếu không bao gồm. Điều này được gọi là thiếu xác thực và dẫn đến các ước tính tham số không chính xác như chúng có thể.

https://onlinecferences.science.psu.edu/stat501/node/328

Từ trên:

Một mô hình hồi quy không được xác định rõ (kết quả 2) nếu phương trình hồi quy bị thiếu một hoặc nhiều biến dự báo quan trọng. Tình huống này có lẽ là trường hợp xấu nhất, bởi vì một mô hình chưa được xác định mang lại hệ số hồi quy sai lệch và dự đoán sai lệch của phản hồi. Đó là, trong việc sử dụng mô hình, chúng ta sẽ luôn đánh giá thấp hoặc đánh giá quá cao độ dốc dân số và phương tiện dân số. Để làm cho vấn đề xấu thậm chí còn tồi tệ hơn, lỗi bình phương trung bình MSE có xu hướng đánh giá quá cao σ², do đó mang lại khoảng tin cậy rộng hơn mức cần thiết.


4
Điều đó không hoàn toàn đúng. Để trở thành một biến gây nhiễu, nó cần phải tạo ra biến được giải thích (các) biến giải thích. Nếu các biến quan tâm giải thích gây ra biến số và nó ảnh hưởng đến kết quả, thì đó là biến can thiệp và bạn không nên kiểm soát nó (trừ khi bạn muốn phân tách tổng hiệu ứng).
Maarten Buis

1
Đây là một cuộc thảo luận rất không đầy đủ về chủ đề kiểm soát gây nhiễu. Tương quan với kết quả không phải là điều kiện đủ để gây nhiễu và có thể dẫn đến việc xác định sai các mô hình nguyên nhân bằng cách kiểm soát các chất trung gian: Điều này dẫn đến ngụy biện như "cai thuốc lá không làm giảm nguy cơ mắc bệnh tim mạch sau khi kiểm soát canxi động mạch vành (CAC)". CAC là cách chính mà hút thuốc mang lại cho bạn bệnh tim. Xem Nhân quả của Pearl, tái bản lần 2, chương 3 phần 3.
AdamO

Hãy chỉnh sửa. Tôi không nghĩ anh ấy đang tìm kiếm chiều sâu trong câu trả lời, xin lỗi nếu sự ngắn gọn của tôi dẫn đến sự thiếu chính xác.
đôi

11

Thông thường bạn không bao gồm hoặc loại trừ các biến cho hồi quy tuyến tính vì tầm quan trọng của chúng. Bạn bao gồm chúng bởi vì bạn cho rằng các biến được chọn là các yếu tố dự đoán (tốt) của tiêu chí hồi quy. Nói cách khác, lựa chọn dự đoán dựa trên lý thuyết.

Không đáng kể về thống kê trong hồi quy tuyến tính có thể có nghĩa là hai điều (trong đó tôi biết):

  1. Các dự đoán không đáng kể không liên quan đến các tiêu chí. Loại trừ họ nhưng hãy nhớ rằng sự không đáng kể không chứng minh rằng họ không liên quan. Kiểm tra lý thuyết của bạn.
  2. Các dự báo là không đáng kể bởi vì chúng có thể được thể hiện như là một chức năng của các dự đoán khác. Tập hợp các yếu tố dự đoán sau đó được gọi là multollinear. Điều này không làm cho những người dự đoán "xấu" theo bất kỳ ý nghĩa nào nhưng lại dư thừa.

Một lý do hợp lệ để loại trừ các yếu tố dự đoán không đáng kể là bạn đang tìm kiếm tập hợp con nhỏ nhất của các yếu tố dự đoán giải thích phương sai tiêu chí hoặc hầu hết. Nếu bạn đã tìm thấy nó kiểm tra lý thuyết của bạn.


[P] redictors của tiêu chí hồi quy ? Bạn có thể muốn viết lại điều này.
Richard Hardy

8

Trong kinh tế lượng, điều này xảy ra trái và phải. Ví dụ: nếu bạn đang sử dụng các hình nộm theo mùa hàng quý quý 2, quý 3 và quý 4, điều thường xảy ra là một nhóm có ý nghĩa, nhưng một số trong số chúng không có ý nghĩa riêng lẻ. Trong trường hợp này bạn thường giữ tất cả chúng.

yxzzxz

CẬP NHẬT: Một ví dụ phổ biến khác là dự báo. Kinh tế lượng thường được dạy từ quan điểm suy luận trong các bộ phận kinh tế. Trong viễn cảnh suy luận, rất nhiều sự chú ý là về giá trị p và tầm quan trọng, bởi vì bạn đang cố gắng hiểu nguyên nhân gây ra cái gì và vân vân. Trong dự báo, không có nhiều sự nhấn mạnh vào công cụ này, bởi vì tất cả những gì bạn quan tâm là mô hình có thể dự báo biến quan tâm tốt đến mức nào.

Điều này tương tự như các ứng dụng học máy, btw, đang tiến vào kinh tế gần đây. Bạn có thể có một mô hình với tất cả các biến quan trọng không dự báo tốt. Trong ML, nó thường được liên kết với cái gọi là "quá khớp". Rõ ràng có rất ít sử dụng mô hình như vậy trong dự báo.


1
Điều này có vẻ hơi phóng đại ở một số điểm. Ví dụ, rõ ràng ngay cả với tôi là một người không phải là nhà kinh tế từ sách giáo khoa, dự báo đã được dạy rộng rãi cho các nhà kinh tế trong ít nhất vài thập kỷ. Liệu có sự gia tăng "gần đây" (có nghĩa là chính xác không?) Là một điểm tinh tế hơn mà tôi để lại cho người trong cuộc.
Nick Cox

@NickCox, đồng ý, có vẻ như không có dự báo nào trong chương trình giảng dạy, điều đó không đúng.
Aksakal

7

Bạn đang hỏi hai câu hỏi khác nhau:

  1. Khi nào có ý nghĩa thống kê không quan trọng?
  2. Khi nào chúng ta nên bao gồm một biến trong hồi quy mặc dù nó không có ý nghĩa thống kê?

Chỉnh sửa: điều này đúng với bài viết gốc, nhưng có thể không còn đúng sau khi chỉnh sửa.


Về Q1, tôi nghĩ nó ở biên giới quá rộng. Có rất nhiều câu trả lời có thể, một số đã được cung cấp. Một ví dụ nữa là khi xây dựng các mô hình để dự báo (xem nguồn trích dẫn bên dưới để được giải thích).


Về quý 2, ý nghĩa thống kê không phải là một tiêu chí hợp lý để xây dựng mô hình. Rob J. Hyndman viết như sau trong bài đăng trên blog của mình "Các bài kiểm tra thống kê để lựa chọn biến" :

Ý nghĩa thống kê thường không phải là một cơ sở tốt để xác định liệu một biến có nên được đưa vào một mô hình hay không, mặc dù thực tế là nhiều người nên biết sử dụng chúng tốt hơn cho mục đích này. <...> Kiểm tra thống kê được thiết kế để kiểm tra các giả thuyết, không chọn các biến.

Cũng lưu ý rằng bạn thường có thể tìm thấy một số biến có ý nghĩa thống kê hoàn toàn là tình cờ (cơ hội được kiểm soát bởi sự lựa chọn của bạn về mức ý nghĩa). Quan sát rằng một biến có ý nghĩa thống kê là không đủ để kết luận rằng biến đó thuộc về mô hình.


4

Tôi sẽ thêm một chữ "có". Tôi đã luôn được dạy - và tôi đã cố gắng vượt qua - rằng sự cân nhắc chính trong lựa chọn đồng biến là kiến ​​thức tên miền, không phải số liệu thống kê. Trong thống kê sinh học, ví dụ, nếu tôi đang mô hình hóa một số kết quả về sức khỏe trên các cá nhân, sau đó không có vấn đề các hồi quy nói, bạn sẽ cần một số lập luận darn tốt đối với tôi là không bao gồm tuổi tác, chủng tộc, và quan hệ tình dục trong mô hình.

Nó cũng phụ thuộc vào mục đích của mô hình của bạn. Nếu mục đích đạt được sự hiểu biết tốt hơn về những yếu tố nào liên quan nhất đến kết quả của bạn, thì việc xây dựng một mô hình tuyệt vời có một số ưu điểm. Nếu bạn quan tâm đến dự đoán, và không quá nhiều về sự hiểu biết, thì việc loại bỏ các đồng biến có thể là một mối quan tâm nhỏ hơn.

(Cuối cùng, nếu bạn dự định sử dụng số liệu thống kê để lựa chọn biến, hãy xem Frank Harrell nói gì về chủ đề này - http://www.stata.com/support/faqs/statistic/stepwise-regression-probols/ và cuốn sách Chiến lược mô hình hóa hồi quy của ông . Tóm lại, vào thời điểm bạn sử dụng các chiến lược dựa trên thống kê từng bước hoặc tương tự để chọn các dự đoán tốt nhất, thì bất kỳ thử nghiệm nào về "những dự đoán tốt này?" đều sai lệch khủng khiếp - tất nhiên chúng ' lại là những người dự đoán tốt, bạn đã chọn chúng trên cơ sở đó và do đó, giá trị p cho những dự đoán đó là sai.)


1
R2

4

Điều duy nhất mà kết quả của "không đáng kể về thống kê" thực sự nói là, ở mức độ đã chọn của lỗi Loại I, chúng ta thậm chí không thể biết được tác động của biến hồi quy lên biến phụ thuộc là dương hay âm (xem bài này).

Vì vậy, nếu chúng ta giữ biến hồi quy này, bất kỳ cuộc thảo luận nào về tác động của chính nó đối với biến phụ thuộc sẽ không có bằng chứng thống kê để sao lưu nó.

Nhưng thất bại ước tính này không nói rằng bộ hồi quy không thuộc về mối quan hệ cấu trúc, nó chỉ nói rằng với tập dữ liệu cụ thể, chúng tôi không thể xác định chắc chắn dấu hiệu của hệ số của nó.

Vì vậy, về nguyên tắc, nếu có các lập luận lý thuyết hỗ trợ sự hiện diện của nó, thì nên sử dụng biến hồi quy.

Các câu trả lời khác ở đây cung cấp các mô hình / tình huống cụ thể mà các biến hồi quy như vậy được giữ trong đặc tả, ví dụ câu trả lời đề cập đến mô hình dữ liệu bảng hiệu ứng cố định.


Tại sao kéo "mức độ tự tin" vào một cuộc thảo luận có ý nghĩa? Tôi thường xuyên đọc những điều quái dị trong các văn bản và bài báo kém như "đáng kể ở mức độ tin cậy 99%". Chắc chắn có một mối quan hệ giữa các ý tưởng, nhưng bạn không cần từ ngữ này (ở cấp tiểu học gây nhầm lẫn nhiều như nó giải thích).
Nick Cox

@Nick Cox Bạn có một điểm. Tôi đã thay đổi nó thành "Lỗi loại I".
Alecos Papadopoulos

1

Bạn có thể bao gồm một biến quan tâm đặc biệt nếu đó là trọng tâm của nghiên cứu, ngay cả khi không có ý nghĩa thống kê. Ngoài ra, trong thống kê sinh học, ý nghĩa lâm sàng thường khác với ý nghĩa thống kê.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.