Các hệ số tiêu chuẩn hóa trong hồi quy tuyến tính có thể được sử dụng để ước tính không?


9

Tôi đang cố gắng diễn giải kết quả của một bài báo, nơi họ áp dụng nhiều hồi quy để dự đoán các kết quả khác nhau. Tuy nhiên, '(các hệ số B được tiêu chuẩn hóa được xác định là trong đó là người phụ thuộc biến và là một công cụ dự đoán) được báo cáo dường như không khớp với được báo cáo :β x 1 = B x 1S D x 1β yx1R2βx1=Bx1SDx1SDyyx1R2

nhập mô tả hình ảnh ở đây

Mặc dù là -0,83, -0,29, -0,16, -0,43, 0,25 và -0,29, được báo cáo chỉ là 0,20.R 2βR2

Ngoài ra, ba yếu tố dự đoán: cân nặng, BMI và% chất béo là đa cộng tuyến, tương quan với r = 0,8-0,9 với nhau trong giới tính.

Là giá trị đáng tin cậy với những 's, hoặc là không có mối quan hệ trực tiếp giữa ' s và ? beta beta R 2R2ββR2

Ngoài ra, các vấn đề với các yếu tố dự báo đa hướng có ảnh hưởng đến của yếu tố dự đoán thứ tư (VO2max), tương quan với r = 0,4 với ba biến đã nói ở trên không?β


Là gì trong bối cảnh này? Một hệ số beta (hồi quy chuẩn)? Hay cái gì khác? Nếu vậy thì họ thực sự không thể nói bất cứ điều gì bạn nhận được là một cách giải thích về độ lệch chuẩn. Thực tế là hệ số ngụ ý các hiệu ứng lớn, không hàm ý giá trị caoR 2βR2
Repmat

1
ß là viết tắt của hệ số b tiêu chuẩn. Đối với trường hợp 1 dự đoán ß bằng với pearson's r, liên quan trực tiếp đến bình phương R, tuy nhiên trong trường hợp đa biến này, tại sao ß cao lại có nghĩa là bình phương R cao?
Sakari Jukarainen

2
Không, trong một trường hợp hồi quy không bằng tương quan của Pearson: . Mối quan hệ giữa s và không đơn giản. β = Cov ( y , x )ββR2β=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy

5
@RichardHardy Tôi nghi ngờ rằng sự nhầm lẫn là Sakari định nghĩa là hệ số hồi quy chuẩn hóa . Trong một hồi quy tuyến tính hai biến hệ số hồi quy ( trong ký hiệu Sakari của) là , nơi là mối tương quan và độ lệch chuẩn. Để chuẩn hóa hệ số hồi quy, chúng ta chia hệ số với độ lệch chuẩn của và nhân với độ lệch chuẩn đó của , do đó chỉ còn lại mối tương quan. Vậy là Sakari đúng. b r x y s yβb rsyxrxysysxrsyx
Maarten Buis

Tôi vẫn không thấy lý do tại sao bạn coi điều này là sai? Nếu có một số thống kê tóm tắt trong bài báo, bạn chỉ cần kiểm tra nếu các số cộng lại. Bạn thậm chí đã cung cấp công thức để làm như vậy. Bạn không thể kết luận, đơn giản là vì các hiệu ứng rất lớn trong các thuật ngữ abosulte, rằng các mô hình thực hiện tốt công việc giải thích phương sai trong y.
Trả lời

Câu trả lời:


17

Việc giải thích hình học của hồi quy bình phương tối thiểu thông thường cung cấp cái nhìn sâu sắc cần thiết.

Hầu hết những gì chúng ta cần biết có thể được nhìn thấy trong trường hợp hai biến hồi quy và với phản hồi . Các hệ số được tiêu chuẩn hóa, hoặc "betas" phát sinh khi cả ba vectơ được chuẩn hóa theo một độ dài chung (mà chúng ta có thể coi là sự thống nhất). Do đó, và là các vectơ đơn vị trong mặt phẳng - chúng nằm trên vòng tròn đơn vị - và là một vectơ đơn vị trong không gian Euclide ba chiều chứa mặt phẳng đó. Giá trị được trang bị là hình chiếu trực giao (vuông góc) của lên . Vìx 2 y x 1 x 2 E 2 y E 3 y y E 2 R 2 yx1x2yx1x2E2yE3y^yE2R2đơn giản là độ dài bình phương của , chúng ta thậm chí không cần hình dung cả ba chiều: tất cả thông tin chúng ta cần có thể được vẽ trong mặt phẳng đó.y^

Hồi quy trực giao

Tình huống đẹp nhất là khi các biến hồi quy là trực giao, như trong hình đầu tiên.

Hình 1, hiển thị các biến hồi quy và $ \ hat y $ dưới dạng vectơ trong mặt phẳng.

Trong phần này và phần còn lại của các hình, tôi sẽ liên tục vẽ đĩa đơn vị màu trắng và các biến hồi quy dưới dạng mũi tên đen. sẽ luôn chỉ trực tiếp sang phải. Mũi tên đỏ dày mô tả các thành phần của theo hướng và : đó là, và . Độ dài của là bán kính của vòng tròn màu xám mà nó nằm trên đó - nhưng hãy nhớ rằng lày x 1 x 2 β 1 x 1 β 2 x 2 y R 2x1y^x1x2β1x1β2x2y^R2 hình vuông có độ dài đó.

Các lý Pythagore khẳng định

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

Bởi vì Định lý Pythagore giữ ở bất kỳ số lượng kích thước nào, lý do này khái quát cho bất kỳ số lượng hồi quy nào, mang lại kết quả đầu tiên của chúng tôi:

Khi các biến hồi quy là trực giao, bằng tổng bình phương của betas.R2

Một hệ quả tất yếu là khi chỉ có một biến hồi quy - hồi quy đơn biến-- là bình phương của độ dốc chuẩn.R2

Tương quan

Các hồi quy tương quan âm gặp nhau ở các góc lớn hơn một góc phải.

Hình 2, cho thấy các hồi quy tương quan nghịch

Rõ ràng trong hình ảnh này là tổng bình phương của betas lớn hơn . Điều này có thể được chứng minh bằng đại số bằng cách sử dụng Định luật Cosines hoặc bằng cách làm việc với giải pháp ma trận của các phương trình bình thường.R2

Bằng cách làm cho hai biến hồi quy gần như song song, chúng ta có thể định vị gần gốc (đối với gần ) trong khi nó tiếp tục có các thành phần lớn theo hướng và . Do đó, không có giới hạn đối với nhỏ như thế nào .y^R20x1x2R2

Nhân vật

Hãy tưởng niệm kết quả rõ ràng này, khái quát thứ hai của chúng tôi:

Khi các biến hồi quy tương quan, có thể nhỏ hơn tùy ý so với tổng bình phương của betas.R2

Tuy nhiên, đây không phải là một mối quan hệ phổ quát, như con số tiếp theo chứng minh.

Hình 3, cho thấy các hồi quy tương quan nghịch nhưng betas có các dấu hiệu ngược lại.

Bây giờ hoàn toàn vượt quá tổng bình phương của betas. Bằng cách vẽ hai biến hồi quy gần nhau và giữ giữa chúng, chúng ta có thể làm cho betas cả hai tiếp cận , ngay cả khi gần bằng . Phân tích sâu hơn có thể yêu cầu một số đại số: Tôi đưa nó lên dưới đây.R2y^1/2R21

Tôi để nó theo trí tưởng tượng của bạn để xây dựng các ví dụ tương tự với các hồi quy tương quan tích cực, do đó gặp nhau ở các góc độ.

Lưu ý rằng những kết luận này không đầy đủ: có giới hạn về mức độ có thể được so sánh với tổng bình phương của betas. Cụ thể, bằng cách kiểm tra các khả năng một cách cẩn thận, bạn có thể kết luận (cho một hồi quy với hai biến hồi quy) rằngR2

Khi các biến hồi quy có tương quan dương và các betas có một dấu hiệu chung hoặc khi các biến hồi quy có tương quan nghịch và các betas có các dấu hiệu khác nhau, phải lớn nhất bằng tổng bình phương của betas. R2


Kết quả đại số

Nói chung, hãy để các biến hồi quy là (vectơ cột) và phản hồi là . Tiêu chuẩn hóa có nghĩa là (a) mỗi trực giao với vectơ và (b) chúng có độ dài đơn vị:x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

Lắp ráp các vectơ cột thành một ma trận . Các quy tắc nhân ma trận ngụ ý rằngxin×pX

Σ=XX

là ma trận tương quan của . Các betas được đưa ra bởi các phương trình bình thường,xi

β=(XX)1Xy=Σ1(Xy).

Hơn nữa, theo định nghĩa, sự phù hợp là

y^=Xβ=X(Σ1Xy).

Độ dài bình phương của nó cho theo định nghĩa:R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

Phân tích hình học cho thấy chúng tôi tìm kiếm sự bất bình đẳng liên quan đến và tổng bình phương của betas,R2

i=1pβi2=ββ.

Các chuẩn mực của bất kỳ ma trận được cho bởi tổng bình phương của hệ số của nó (về cơ bản điều trị ma trận như một vector của thành phần trong một không gian Euclide),L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

Bất đẳng thức Cauchy-Schwarz ngụ ý

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

Vì các hệ số tương quan bình phương không thể vượt quá và chỉ có trong số chúng trong ma trận , không thể vượt quá . vì thế1p2p×pΣ|Σ|21×p2=p

R2pββ.

Ví dụ, sự bất bình đẳng đạt được khi tất cả các có mối tương quan tích cực hoàn hảo.xi

Có giới hạn trên về mức độ lớn của . Giá trị trung bình trên mỗi biến hồi quy của nó, , không thể vượt quá tổng bình phương của các hệ số được tiêu chuẩn hóa.R 2 / pR2R2/p


Kết luận

Những gì chúng ta có thể kết luận nói chung? Rõ ràng, thông tin về cấu trúc tương quan của các biến hồi quy cũng như các dấu hiệu của betas có thể được sử dụng để ràng buộc các giá trị có thể có của hoặc thậm chí để tính toán chính xác. Không có thông tin đầy đủ, có thể nói rất ít ngoài thực tế rõ ràng rằng khi các biến hồi quy độc lập tuyến tính, một phiên bản beta khác không ngụ ý là khác không, chứng minh là khác không.y R 2R2y^R2

Một điều chúng ta chắc chắn có thể kết luận từ đầu ra trong câu hỏi là dữ liệu có tương quan với nhau: bởi vì tổng bình phương của betas, bằng , vượt quá giá trị tối đa có thể của (cụ thể là ), phải có một số tương quan.R 2 11.1301R21

Một điều nữa là vì beta lớn nhất (về kích thước) là , có bình phương là - vượt quá được báo cáo là - chúng tôi có thể kết luận rằng một số biến hồi quy phải tương quan nghịch. (Trên thực tế, có khả năng tương quan nghịch với tuổi, cân nặng và chất béo trong bất kỳ mẫu nào bao gồm một loạt các giá trị sau này.)0,69 R 2 0,20 VO 20.830.69R20.20VO2max

Nếu chỉ có hai biến hồi quy, chúng ta có thể suy luận nhiều hơn về từ kiến ​​thức về tương quan hồi quy cao và kiểm tra betas, bởi vì điều này sẽ cho phép chúng ta vẽ một bản phác thảo chính xác về cách , và phải được đặt Thật không may, các biến hồi quy bổ sung trong bài toán sáu biến này làm phức tạp mọi thứ một cách đáng kể. Khi phân tích bất kỳ hai biến nào, chúng ta phải "loại bỏ" hoặc "kiểm soát" bốn biến hồi quy khác ("hiệp phương sai"). Khi làm như vậy, chúng tôi rút ngắn tất cả , vàx 1 x 2 y x 1 x 2 yR2x1x2y^x1x2ybằng số lượng không xác định (tùy thuộc vào cách cả ba trong số chúng có liên quan đến hiệp phương sai), khiến chúng ta không biết gì về kích thước thực tế của các vectơ mà chúng ta đang làm việc.


+1 nhưng tôi không hiểu tại sao, trong trường hợp không trực giao, bạn chiếu vector vector trực giao với các trục dự đoán, trái ngược với việc làm cho các đường chấm chấm chiếu song song với dự đoán khác. Điều này nghe có vẻ cồng kềnh nhưng tôi nghĩ bạn sẽ thấy những gì tôi muốn nói. "Các hình chiếu" của bạn (hai vectơ đỏ nhỏ hơn) không tạo ra một vectơ lớn màu đỏ . yy^y^
amip

@amoeba Bạn nói khá đúng. Tôi đã quá vội vàng trong việc tạo ra những hình ảnh này! Tôi sẽ (hy vọng tạm thời) xóa bài đăng này cho đến khi tôi có cơ hội để khắc phục vấn đề. Cảm ơn bạn đã chỉ ra điều này.
whuber

@Amoeba Tôi đã sửa các hình ảnh và sửa đổi phân tích cho phù hợp với chúng. Mặc dù các chi tiết đã thay đổi đáng kể, các kết luận vẫn giữ nguyên.
whuber

1
@amoeba Một lần nữa bạn lại đúng. Có nguy cơ mất độc giả quan tâm, nhưng bây giờ cảm thấy bắt buộc phải định lượng trực giác hình học, tôi đã thắt chặt kết luận đó và biện minh cho nó bằng một chút đại số. (Tôi tin rằng đại số là chính xác!)
whuber

1
Cảm ơn rất nhiều! Là một sidenote, VO2max có tương quan nghịch với cân nặng và BMI, vì chúng có liên quan đến khối lượng cơ thể gầy cao hơn. Trong bảng đã nói, VO2max thực sự tương ứng với VO2max chia cho trọng lượng (đó là một cách xấu để nhân rộng VO2max theo kích thước cơ thể). VO2max / trọng lượng trong bảng có tương quan nghịch với tất cả các yếu tố dự đoán khác, ngoại trừ giới tính, có thể giải thích ß cao nhưng bình phương R thấp, như bạn đã đề cập.
Sakari Jukarainen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.