Mối quan hệ giữa bình phương R và giá trị p trong hồi quy là gì?


17

tl; dr - đối với hồi quy OLS, bình phương R cao hơn cũng có nghĩa là giá trị P cao hơn? Cụ thể cho một biến giải thích duy nhất (Y = a + bX + e) ​​nhưng cũng sẽ được quan tâm để biết cho n nhiều biến giải thích (Y = a + b1X + ... bnX + e).

Bối cảnh - Tôi đang thực hiện hồi quy OLS trên một loạt các biến và đang cố gắng phát triển dạng hàm giải thích tốt nhất bằng cách tạo một bảng chứa các giá trị bình phương R giữa các biến đổi tuyến tính, logarit, v.v., biến đổi của từng biến giải thích (độc lập) và biến phản ứng (phụ thuộc). Điều này trông hơi giống:

Tên biến - dạng biểu mẫu-- --ln (biến) - khai thác (biến) - ... vv

Biến 1 ------- R bình phương ---- R bình phương ---- R bình phương -
... vv ...

Tôi tự hỏi nếu R bình phương là phù hợp hoặc nếu giá trị P sẽ tốt hơn. Có lẽ có một số mối quan hệ, vì một mối quan hệ quan trọng hơn sẽ ngụ ý khả năng giải thích cao hơn, nhưng không chắc chắn nếu điều đó là đúng theo một cách nghiêm ngặt.


5
Cũng cần quan tâm: R ^ 2 hữu ích hay nguy hiểm? .
whuber

Câu trả lời:


15

Câu trả lời là không, không có mối quan hệ thường xuyên như vậy giữa và giá trị p hồi quy tổng thể, bởi vì R 2 phụ thuộc nhiều vào phương sai của các biến độc lập như nó phụ thuộc vào phương sai của phần dư (mà nó nghịch đảo tỷ lệ thuận) và bạn có thể tự do thay đổi phương sai của các biến độc lập bằng số tiền tùy ý.R2R2

Ví dụ, xem xét bất kỳ tập hợp dữ liệu đa biến nào với i lập chỉ mục các trường hợp và giả sử rằng tập hợp các giá trị của biến độc lập đầu tiên, { x i 1 } , có tối đa duy nhất x * tách ra khỏi giá trị cao thứ hai bởi một lượng dương ε . Áp dụng một phép biến đổi phi tuyến tính của biến đầu tiên gửi tất cả các giá trị nhỏ hơn((xi1,xi2,,xip,yi))i{xi1}xϵ đến phạm vi [ 0 , 1 ] và gửi x * tự đối với một số giá trị lớn M » 1 . Đối với bất kỳ ví dụ M này có thể được thực hiện bởi một chuyển đổi Box-Cox (quy mô) phù hợp x một ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , ví dụ, vì vậy chúng tôi không nói về bất cứ điều gì lạ hoặc "bệnh lý." Sau đó, như Mxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))Mphát triển lớn tùy ý, tiếp cận 1 gần như bạn muốn, bất kể mức độ phù hợp là bao nhiêu, bởi vì phương sai của phần dư sẽ bị giới hạn trong khi phương sai của biến độc lập đầu tiên tỷ lệ thuận với M 2 .R21M2


Thay vào đó, bạn nên sử dụng độ tốt của các thử nghiệm độ phù hợp (trong số các kỹ thuật khác) để chọn một mô hình phù hợp trong khám phá của bạn: bạn nên quan tâm đến tính tuyến tính của độ phù hợp và độ đồng nhất của phần dư. Và đừng lấy bất kỳ giá trị p nào từ hồi quy kết quả dựa trên niềm tin: chúng sẽ gần như vô nghĩa sau khi bạn trải qua bài tập này, bởi vì cách giải thích của chúng giả định rằng sự lựa chọn biểu thị các biến độc lập không phụ thuộc vào giá trị của biến phụ thuộc ở tất cả, đó là rất nhiều không phải là trường hợp ở đây.


10

Câu trả lời này không trực tiếp giải quyết câu hỏi trung tâm; không có gì nhiều hơn một số thông tin bổ sung quá dài cho một bình luận.

Tôi chỉ ra điều này bởi vì nghi ngờ kinh tế lượng sẽ không nghi ngờ gì khi gặp thông tin này, hoặc một cái gì đó giống như nó ở một thời điểm nào đó (nói rằng R 2 liên quan) và tự hỏi liệu thông tin trong các câu trả lời khác ở đây có sai không - nhưng tôi nghĩ nó trả tiền để được rõ ràng về những gì đang xảy ra.FR2

Có một mối quan hệ dưới một tập hợp hoàn cảnh cụ thể; nếu bạn giữ số lượng quan sát và số lượng dự đoán cố định cho một mô hình nhất định, thực tế là đơn điệu trong R 2 , kể từ đóFR2

F=R2/(k1)(1R2)/(Nk)

(Nếu bạn chia tử số và mẫu số cho và kéo các hằng số trong k ra, bạn có thể thấy rằng 1 / F 1 / R 2 - 1 nếu bạn giữ Nk không đổi.)R2k1/F1/R21Nk

Vì đối với df cố định và giá trị p có liên quan đơn điệu, R 2 và giá trị p cũng liên quan đơn điệu.FR2p

Nhưng thay đổi hầu hết mọi thứ về mô hình và mối quan hệ đó không giữ được hoàn cảnh thay đổi.

Ví dụ: việc thêm một điểm làm cho lớn hơn và loại bỏ một điểm làm cho nó nhỏ hơn nhưng thực hiện có thể tăng hoặc giảm R 2 , do đó, có vẻ như FR 2 không nhất thiết phải di chuyển cùng nhau nếu bạn thêm hoặc xóa dữ liệu. Thêm một biến giảm ( N - k ) / ( k - 1 ) nhưng tăng R 2 (và ngược lại), do đó, một lần nữa, R 2 không nhất thiết liên quan đến(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2 khi bạn làm điều đó.F

Rõ ràng, một khi bạn so sánh p -values trên mô hình với những đặc điểm khác nhau, mối quan hệ này không nhất thiết phải giữ, như whuber chứng minh trong trường hợp biến đổi phi tuyến.R2p


Tôi không đồng ý với bạn, nhưng có vẻ như bạn đang trả lời một câu hỏi khác với tôi. Phải mất một số đọc, nhưng tôi đã kết luận rằng câu hỏi hỏi về mối quan hệ nào, nếu có, giữ giữa R 2 khi các biến độc lập (caeteris paribus) được biến đổi phi tuyến. Chỉ khi các biến đó không thay đổi - hoặc, nhiều nhất, biến đổi tuyến tính giữa chúng - chúng ta mới có thể nói bất cứ điều gì về mối quan hệ như vậy. Đó là một phần ý nghĩa mà tôi nghĩ rằng vòng loại của bạn "cho một mô hình nhất định" phải được hiểu. pR2
whuber

Tôi đang trả lời một câu hỏi khác nhau; và tôi tin rằng giải thích của bạn về ý nghĩa là chính xác. Tôi đã lo lắng hơn rằng một vấn đề như vấn đề mà tôi nêu ra sẽ dẫn đến sự nhầm lẫn nếu không được giải thích. Tất cả các điểm của bạn giữ, theo sự hiểu biết của tôi. (Thực tế bây giờ tôi lo ngại rằng có lẽ câu trả lời của tôi không phục vụ để làm rõ, như tôi đã hy vọng, nhưng chỉ gây nhầm lẫn vấn đề. Bạn có nghĩ rằng có một sửa đổi phù hợp sẽ giúp nó không? Tôi có nên xóa nó không?)
Glen_b -Reinstate Monica

Tôi ghét nhìn thấy nó bị xóa, Glen. Nếu bạn có ý định thực hiện thay đổi, hãy xem xét rõ ràng hơn chỉ ra khía cạnh nào của vấn đề này mà bạn đang viết ( ví dụ , ý nghĩa chính xác của "mô hình đã cho" và ý kiến ​​của bạn về các mô hình có "đặc điểm khác nhau"). Đây là tinh thần (hợp tác, không quan trọng) trong đó tôi đưa ra nhận xét của mình.
whuber

Tôi không cảm thấy bị chỉ trích bởi bạn - bạn dường như đang làm rõ và không có gì hơn - nhưng nhu cầu về nó làm nổi bật sự không phù hợp trong câu trả lời tôi đã quan tâm trước khi bạn nhận xét. Sự mơ hồ của 'các đặc điểm khác nhau' là bởi vì đó là một điều khá chung chung - khác nhau nhiều thứ (tôi thậm chí còn đưa ra các ví dụ đơn giản như xóa một điểm hoặc thêm một biến để minh họa cách một người cần thay đổi) có thể tạo ra mối quan hệ đơn điệu đó bốc hơi. Tôi sẽ suy nghĩ về những gì tôi có thể nói nhiều hơn.
Glen_b -Reinstate Monica

F

3

"đối với hồi quy OLS, bình phương R cao hơn cũng có nghĩa là giá trị P cao hơn phải không? Cụ thể cho một biến giải thích duy nhất (Y = a + bX + e)"

R2FtR2ptR2

|t|=R2(1R2)(n2)

nR2t

"nhưng cũng sẽ được quan tâm để biết cho n nhiều biến giải thích (Y = a + b1X + ... bnX + e)."

Fn

Bối cảnh - Tôi đang thực hiện hồi quy OLS trên một loạt các biến và đang cố gắng phát triển dạng hàm giải thích tốt nhất (...)

R2

R2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.