Tầm quan trọng của các yếu tố dự báo trong hồi quy bội: Một phần so với các hệ số được tiêu chuẩn hóa


21

Tôi tự hỏi mối quan hệ chính xác giữa một phần và các hệ số trong mô hình tuyến tính là gì và liệu tôi chỉ nên sử dụng một hoặc cả hai để minh họa tầm quan trọng và ảnh hưởng của các yếu tố.R2

Theo như tôi biết, với các summaryước tính của các hệ số và với anovatổng bình phương cho mỗi yếu tố - tỷ lệ tổng bình phương của một yếu tố chia cho tổng bình phương cộng với phần dư là một phần (đoạn mã sau nằm trong ).R2R

library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
    summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe)

Residuals:
    Min      1Q  Median      3Q     Max 
-60.240 -15.738  -1.156  15.883  51.380 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.868e+02  6.492e+01  -4.418 5.82e-05 ***
income       8.065e-02  9.299e-03   8.674 2.56e-11 ***
young        8.173e-01  1.598e-01   5.115 5.69e-06 ***
urban       -1.058e-01  3.428e-02  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df Sum Sq Mean Sq F value    Pr(>F)    
income     1  48087   48087 67.4869 1.219e-10 ***
young      1  19537   19537 27.4192 3.767e-06 ***
urban      1   6787    6787  9.5255  0.003393 ** 
Residuals 47  33489     713                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Kích thước của các hệ số cho 'trẻ' (0,8) và 'đô thị' (-0,1, khoảng 1/8 so với trước đây, bỏ qua '-') không khớp với phương sai được giải thích ('trẻ' ~ 19500 và 'đô thị' ~ 6790, tức là khoảng 1/3).

Vì vậy, tôi nghĩ rằng tôi sẽ cần phải mở rộng quy mô dữ liệu của mình vì tôi cho rằng nếu phạm vi của một yếu tố rộng hơn nhiều so với phạm vi của yếu tố khác thì hệ số của họ sẽ khó so sánh:

Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.29675 -0.33879 -0.02489  0.34191  1.10602 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.084e-16  8.046e-02   0.000  1.00000    
income       9.723e-01  1.121e-01   8.674 2.56e-11 ***
young        4.216e-01  8.242e-02   5.115 5.69e-06 ***
urban       -3.447e-01  1.117e-01  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df  Sum Sq Mean Sq F value    Pr(>F)    
income     1 22.2830 22.2830 67.4869 1.219e-10 ***
young      1  9.0533  9.0533 27.4192 3.767e-06 ***
urban      1  3.1451  3.1451  9.5255  0.003393 ** 
Residuals 47 15.5186  0.3302                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1    

Nhưng điều đó không thực sự tạo ra sự khác biệt, một phần và kích thước của các hệ số (đây là các hệ số được tiêu chuẩn hóa ) vẫn không khớp:R2

22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young:  partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban:  partial R2 0.062, Coeff -0.34

Vì vậy, có công bằng không khi nói rằng 'trẻ' giải thích phương sai nhiều gấp ba lần so với 'đô thị' vì một phần cho 'trẻ' gấp ba lần so với 'đô thị'? R2Tại sao hệ số 'trẻ' sau đó không gấp ba lần so với 'đô thị' (bỏ qua dấu hiệu)?

Tôi cho rằng câu trả lời cho câu hỏi này sau đó cũng sẽ cho tôi biết câu trả lời cho truy vấn ban đầu của tôi: Tôi nên sử dụng một phần hoặc hệ số để minh họa tầm quan trọng tương đối của các yếu tố? (Bỏ qua hướng ảnh hưởng - dấu hiệu - trong thời điểm hiện tại.)R2

Chỉnh sửa:

Một phần eta bình phương dường như là một tên khác cho cái mà tôi gọi là một phần . etasq {heplots} là một hàm hữu ích tạo ra kết quả tương tự:R2

etasq(mod)
          Partial eta^2
income        0.6154918
young         0.3576083
urban         0.1685162
Residuals            NA

Bạn đang cố gắng làm gì hoặc thể hiện chính xác? Ảnh hưởng ước tính? Điều quan trọng?
IMA

Có, tôi quen thuộc với các bài kiểm tra t và F. Tôi muốn thể hiện tầm ảnh hưởng ước tính, trong đó afaik t- và F-tests không phù hợp.
robert

1
Câu hỏi của tôi là: Tôi có nên sử dụng R² một phần hoặc các hệ số để cho thấy mức độ ảnh hưởng của từng yếu tố đến kết quả không? Tôi đã giả sử cả hai chỉ theo cùng một hướng. Bạn đang nói rằng điều đó không đúng bởi vì có tính đa hướng trong dữ liệu. Được rồi, vì vậy khi tôi muốn đưa ra tuyên bố như yếu tố 'trẻ' ảnh hưởng đến kết quả gấp x lần / quan trọng hơn x lần so với yếu tố 'đô thị', tôi có nhìn vào R² một phần hay hệ số không?
robert

1
Tôi không đồng ý với @IMA. Bình phương một phần R được liên kết trực tiếp với tương quan một phần, đây là một cách hay để nghiên cứu các mối quan hệ điều chỉnh mối quan hệ giữa iv và dv.
Michael M

1
Tôi đã chỉnh sửa câu hỏi của bạn để làm cho nó xuất hiện trên trang đầu một lần nữa. Tôi sẽ rất quan tâm đến một câu trả lời tốt; nếu không xuất hiện tôi thậm chí có thể cung cấp một tiền thưởng. Nhân tiện, hệ số hồi quy sau khi chuẩn hóa tất cả các yếu tố dự đoán được gọi là "hệ số chuẩn hóa". Tôi đặt thuật ngữ này vào câu hỏi của bạn, để làm cho nó rõ ràng hơn.
amip nói rằng Tái lập lại Monica

Câu trả lời:


10

Nói tóm lại , tôi sẽ không sử dụng cả một phần và các hệ số được tiêu chuẩn hóa trong cùng một phân tích, vì chúng không độc lập. Tôi sẽ lập luận rằng thường có thể trực quan hơn khi so sánh các mối quan hệ bằng cách sử dụng các hệ số được tiêu chuẩn hóa bởi vì chúng liên quan dễ dàng đến định nghĩa mô hình (ví dụ ). Đến lượt, một phần , về cơ bản là tỷ lệ phương sai được chia sẻ duy nhất giữa yếu tố dự đoán và biến phụ thuộc (dv) (vì vậy đối với người dự đoán đầu tiên, nó là bình phương của tương quan một phần ). Hơn nữa, đối với sự phù hợp với một lỗi rất nhỏ, tất cả các hệ số 'một phần Y = β X R 2 r x 1 y . x 2 . . . x n R 2R2Y= =βXR2rx1y.x2...xnR2 có xu hướng 1, vì vậy chúng không hữu ích trong việc xác định tầm quan trọng tương đối của các yếu tố dự đoán.


Các định nghĩa kích thước hiệu ứng

  • hệ số chuẩn hóa, - các hệ số thu được từ việc ước tính mô hình trên các biến được tiêu chuẩn hóa (mean = 0, độ lệch chuẩn = 1). ββStdβ
  • một phần - Tỷ lệ biến đổi dư được giải thích bằng cách thêm bộ dự đoán vào mô hình bị ràng buộc (mô hình đầy đủ không có bộ dự báo). Giống như:R2

    • bình phương của mối tương quan một phần giữa yếu tố dự đoán và biến phụ thuộc, điều khiển cho tất cả các yếu tố dự đoán khác trong mô hình. .Rpmộtrttôimộttôi2= =rxtôiy.Xxtôi2
    • một phần - tỷ lệ tổng bình phương loại III từ công cụ dự đoán so với tổng bình phương được quy cho người dự đoán và lỗi SS hiệu lực / ( SS hiệu lực + SS lỗi )η2SSeffect/(SSeffect+SSerror)
  • R 2ΔR2 - Sự khác biệt về giữa mô hình bị ràng buộc và đầy đủ. Tương đương với:R2

    • tương quan bán bình phươngrxi(y.Xxi)2
    • SS hiệu lực / SS tổng R 2η2 cho tổng bình phương loại III - những gì bạn đã tính là một phần trong câu hỏi.SSeffect/SStotalR2

Tất cả những thứ này có liên quan chặt chẽ với nhau, nhưng chúng khác nhau về cách chúng xử lý cấu trúc tương quan giữa các biến. Để hiểu sự khác biệt này tốt hơn một chút, chúng ta hãy giả sử rằng chúng ta có 3 biến được chuẩn hóa (mean = 0, sd = 1) có tương quan là . Chúng ta sẽ lấy làm biến phụ thuộc và và làm dự đoán. Chúng tôi sẽ biểu thị tất cả các hệ số kích thước hiệu ứng theo các mối tương quan để chúng tôi có thể thấy rõ cách cấu trúc tương quan được xử lý bởi mỗi hệ số. Trước tiên, chúng tôi sẽ liệt kê các hệ số trong mô hình hồi quy ước tính bằng OLS. Công thức cho các hệ số: r x y , r x z , r y z x y z x = β y Y + β z Z β y = r x y - r y z r z xx,y,zrxy,rxz,ryzxyzx=βyY+βzZR2một phần

βy=rxyryzrzx1ryz2βz=rxzryzryx1ryz2,
Căn bậc hai của cho các yếu tố dự đoán sẽ bằng:Rpartial2

Rxy.z2=rxyryzrzx(1rxz2)(1ryz2)Rxz.y2=rxzryzryx(1rxy2)(1ryz2)

các được cho bởi:ΔR2

Rxyz2Rxz2=ry(x.z)=rxyryzrzx(1ryz2)Rxzy2Rxy2=rz(x.y)=rxzryzryx(1ryz2)

Sự khác biệt giữa chúng là mẫu số, đối với và chỉ chứa mối tương quan giữa các yếu tố dự đoán. Xin lưu ý rằng trong hầu hết các bối cảnh (đối với các yếu tố dự đoán tương quan yếu), kích thước của hai yếu tố này sẽ rất giống nhau, vì vậy quyết định sẽ không ảnh hưởng đến việc giải thích của bạn quá nhiều. Ngoài ra, nếu các yếu tố dự đoán có cường độ tương quan tương tự với biến phụ thuộc và không tương quan quá mạnh thì các tỷ lệ của sẽ tương tự như các tỷ lệ của .βΔR2 βstdRpartial2βstd

Quay trở lại mã của bạn. Các anovachức năng trong sử dụng R gõ tôi tổng hợp của hình vuông theo mặc định, trong khi phần như mô tả ở trên phải được tính toán dựa trên một khoản loại III của hình vuông (mà tôi tin là tương đương với một khoản loại II của hình vuông nếu không có sự tương tác là có mặt trong mô hình của bạn). Sự khác biệt là cách SS được giải thích được phân vùng giữa các yếu tố dự đoán. Trong SS loại I, người dự đoán đầu tiên được chỉ định tất cả SS được giải thích, chỉ có SS thứ hai "SS còn lại" và thứ ba chỉ còn lại SS từ đó, do đó thứ tự bạn nhập các biến trong cuộc gọi của mình sẽ thay đổi SS tương ứng của họ . Đây có lẽ không phải là điều bạn muốn khi diễn giải các hệ số mô hình.R2lm

Nếu bạn sử dụng tổng bình phương loại II trong Anovacuộc gọi từ cargói trong R, thì giá trị cho anova của bạn sẽ bằng với giá trị bình phương cho các hệ số của bạn (vì ). Điều này chỉ ra rằng thực sự các đại lượng này được liên kết chặt chẽ và không nên được đánh giá độc lập. Để gọi một tổng bình phương loại II trong ví dụ của bạn thay thế bằng . Nếu bạn bao gồm một thuật ngữ tương tác, bạn sẽ cần thay thế nó bằng tổng bình phương loại III cho các phép thử hệ số và một phần R giống nhau (chỉ cần nhớ thay đổi độ tương phản thành tổng bằng cách sử dụng trước khi gọi ). Một phầnFtF(1,n)=t2(n)anova(mod)Anova(mod, type = 2)options(contrasts = c("contr.sum","contr.poly"))Anova(mod,type=3)R2là SS biến chia cho SS biến cộng với SS dư. Điều này sẽ mang lại các giá trị giống như bạn đã liệt kê từ etasq()đầu ra. Bây giờ các bài kiểm tra và giá trị cho kết quả anova của bạn (một phần ) và hệ số hồi quy của bạn là như nhau.pR2


tín dụng


Bạn có ý nghĩa gì bởi "betas được tính dựa trên tổng bình phương loại III"? Tôi nghĩ rằng các hệ số hồi quy được xác định theo cách không liên quan gì đến việc lựa chọn loại SS; luôn luôn là , phải không? β=(XX)Xy
amip nói Phục hồi Monica

1
Bạn nói đúng, điều tôi muốn nói là các bài kiểm tra SS và t loại III cho các hệ số về cơ bản cho cùng một giá trị kiểm tra F và p.
Chris Novak

2
@amoeba sau khi thực hiện một số tính toán Tôi đã chỉnh sửa câu trả lời của mình để bao gồm các đề xuất của bạn, làm rõ sự khác biệt giữa hai kích cỡ hiệu ứng một chút và giải quyết tốt hơn câu trả lời của OP.
Chris Novak

1
@amoeba Tôi đã cập nhật phản hồi của mình theo đề xuất. Bây giờ tôi nghĩ về nó, sẽ hợp lý hơn khi so sánh các hệ số được tiêu chuẩn hóa hoặc so với một phần . Thật không có ý nghĩa gì khi so sánh một phần ví dụ như thêm một yếu tố dự đoán, không tương thích với các yếu tố dự đoán khác, thay đổi tỷ lệ (tầm quan trọng tương đối) của một phần giữa chúng. ΔR2R2R2R2
Chris Novak

1
Cảm ơn, @Chris, câu trả lời của bạn đã được cải thiện rất nhiều và đến bây giờ thì khá xuất sắc (nếu tôi là OP, tôi sẽ chấp nhận nó). Tôi không chắc chắn tôi đã hiểu lập luận của bạn ủng hộ hơn . Thêm một yếu tố dự đoán không tương thích với tất cả các yếu tố dự đoán khác, không nên thay đổi SSeffect cho tất cả các yếu tố khác (?) Nhưng sẽ làm giảm SSerror. Vì vậy, sẽ giữ nguyên, nhưng sẽ tăng và tỷ lệ của chúng có thể thay đổi; đó có phải ý của bạn? Đây là một lập luận khác: nếu mô hình hoàn hảo và SSerror bằng 0, thì một phần sẽ bằng cho tất cả các dự đoán! Không có nhiều thông tin :)ΔR2Rp2ΔR2Rp2R21
amip nói rằng Rebstate Monica

8

Như đã được giải thích trong một số câu trả lời khác và trong các bình luận, câu hỏi này được dựa trên ít nhất ba nhầm lẫn:

  1. anova()tAnova()car

  2. R2βstd

  3. R2SSeffect/(SSeffect+SSerror)SSeffect/SStotalR2SSeffect

Sau khi những nhầm lẫn này được làm rõ, câu hỏi vẫn là các biện pháp thích hợp nhất về kích thước hiệu ứng dự đoán hoặc tầm quan trọng.


Trong R, có một gói relaimpocung cấp một số biện pháp có tầm quan trọng tương đối.

library(car)
library(relaimpo)
mod <- lm(education~income+young+urban, data=Anscombe)
metrics <- calc.relimp(mod, type = c("lmg", "first", "last", "betasq", "pratt", "genizi", "car"))

Sử dụng cùng một Anscombebộ dữ liệu như trong câu hỏi của bạn, điều này mang lại các số liệu sau:

Relative importance metrics: 

              lmg      last      first    betasq       pratt     genizi        car
income 0.47702843 0.4968187 0.44565951 0.9453764  0.64908857 0.47690056 0.55375085
young  0.14069003 0.1727782 0.09702319 0.1777135  0.13131006 0.13751552 0.13572338
urban  0.07191039 0.0629027 0.06933945 0.1188235 -0.09076978 0.07521276 0.00015460

Một số trong những số liệu này đã được thảo luận:

  • betasqlà các hệ số chuẩn hóa bình phương, cùng các giá trị như bạn thu được lm().
  • firstSSeffect/SStotalSSeffectanova()
  • lastR2SSeffect/SStotalSSeffectR2anova()

R2

Có bốn số liệu tiếp theo relaimpo- và thêm một (thứ năm) nếu gói relaimpođược cài đặt thủ công: phiên bản CRAN loại trừ số liệu này do mâu thuẫn tiềm tàng với tác giả của nó, người điên, có vẻ như có bằng sáng chế của Hoa Kỳ về phương pháp của mình . Tôi đang chạy R trực tuyến và không có quyền truy cập vào nó, vì vậy nếu bất kỳ ai cũng có thể cài đặt thủ công relaimpo, vui lòng thêm số liệu bổ sung này vào đầu ra của tôi ở trên để hoàn thiện.

Hai số liệu prattcó thể âm tính (xấu) và geniziđiều đó khá mơ hồ.

Hai cách tiếp cận thú vị là lmgcar.

SSeffect/SStotalSSeffect

Thứ hai được giới thiệu trong (Zuber & Strimmer, 2011) và có nhiều đặc tính lý thuyết hấp dẫn; hệ số được chuẩn hóa bình phương sau khi các yếu tố dự đoán được chuẩn hóa đầu tiên và sau đó được làm trắng bằng phép biến đổi ZCA / Mahalanobis (nghĩa là được làm trắng trong khi giảm thiểu lỗi tái cấu trúc).

2:1lmg878:1car

Tài liệu tham khảo:

  1. Tài liệu tham khảo về tầm quan trọng tương đối trên trang web của Ulrike Grömping - cô là tác giả của relaimpo.

  2. Grömping, U. (2006). Tầm quan trọng tương đối cho hồi quy tuyến tính trong R: Gói yêu cầu . Tạp chí phần mềm thống kê 17, số 1.

  3. Grömping, Hoa Kỳ (2007). Các ước tính của tầm quan trọng tương đối trong hồi quy tuyến tính dựa trên phân rã phương sai . Thống kê người Mỹ 61, 139-147.

  4. Zuber, V. và Strimmer, K. (2010). Hồi quy chiều cao và lựa chọn biến bằng cách sử dụng điểm CAR . Ứng dụng thống kê trong Di truyền học và Sinh học phân tử 10.1 (2011): 1-27.

  5. Grömping, Hoa Kỳ (2015). Tầm quan trọng thay đổi trong mô hình hồi quy . Đánh giá liên ngành của Wiley: Thống kê tính toán, 7 (2), 137-152. (đằng sau bức tường trả tiền)


Tóm tắt rất hay với một thông tin có giá trị bổ sung về các hệ số quan trọng khác nhau. BTW, bạn đang sử dụng trực tuyến công cụ R này pbil.univ-lyon1.fr/Rweb hay cái khác?
ttnphns

1
Tôi sử dụng r-fiddle.org , nhưng tôi chưa bao giờ thử bất cứ điều gì khác và không biết nó so sánh như thế nào. Nó trông khá đẹp mặc dù.
amip nói rằng Phục hồi lại

Tóm tắt rất rõ ràng và thông tin bổ sung về kích thước hiệu ứng (+1)
Chris Novak

4

Bạn đã viết:

Câu hỏi của tôi là: Tôi có nên sử dụng R² một phần hoặc các hệ số để cho thấy mức độ ảnh hưởng của từng yếu tố đến kết quả không?

Điều quan trọng là không nhầm lẫn hai điều ở đây. Đầu tiên, đó là câu hỏi về đặc điểm kỹ thuật mô hình. Thuật toán lm giả định rằng các giả định OLS được đáp ứng. Trong số những thứ khác, điều này có nghĩa là đối với các ước tính không thiên vị, KHÔNG thể biến biến có ý nghĩa khỏi mô hình (ngoại trừ khi nó không tương thích với tất cả các biến hồi quy khác, hiếm).
Vì vậy, trong việc tìm kiếm một mô hình, ảnh hưởng bổ sung đối với R² hoặc R² được điều chỉnh là điều tất nhiên được quan tâm. Chẳng hạn, người ta có thể nghĩ rằng việc thêm các biến hồi quy cho đến khi R² được điều chỉnh ngừng cải thiện là điều thích hợp. Có những vấn đề thú vị với các thủ tục hồi quy từng bước như thế này, nhưng đây không phải là chủ đề. Trong mọi trường hợp tôi cho rằng có một lý do bạn chọn mô hình của bạn.

TUY NHIÊN: ảnh hưởng bổ sung này đối với R² không giống với ảnh hưởng thực hoặc toàn bộ của biến hồi quy trên biến độc lập, chính xác là do đa cộng tuyến: Nếu bạn lấy đi biến hồi quy, một phần ảnh hưởng của nó sẽ được quy cho các biến hồi quy khác. có tương quan với nó. Vì vậy, bây giờ ảnh hưởng thực sự không được hiển thị chính xác.

Và có một vấn đề khác: Các ước tính chỉ có giá trị cho mô hình hoàn chỉnh với tất cả các biến hồi quy khác có mặt. Mô hình này chưa chính xác và do đó thảo luận về ảnh hưởng là vô nghĩa - hoặc nó chính xác và sau đó bạn không thể loại bỏ một biến hồi quy và vẫn sử dụng các phương thức OLS thành công.

Vậy: mô hình của bạn và việc sử dụng OLS có phù hợp không? Nếu đúng như vậy, thì các ước tính trả lời câu hỏi của bạn - chúng là phỏng đoán tốt nhất theo nghĩa đen của bạn về ảnh hưởng của các biến đến biến hồi quy / biến phụ thuộc.
Nếu không, thì công việc đầu tiên của bạn là tìm một mô hình chính xác. Đối với điều này, việc sử dụng một phần R² có thể là một cách. Một tìm kiếm về đặc tả mô hình hoặc hồi quy từng bước sẽ tạo ra rất nhiều cách tiếp cận thú vị trong diễn đàn này. Những gì hoạt động sẽ phụ thuộc vào dữ liệu của bạn.


1
Cảm ơn bốn câu trả lời của bạn! Tôi không chắc chắn tuyên bố của bạn rằng "ảnh hưởng bổ sung này trên R² không giống với ảnh hưởng thực hoặc toàn bộ của biến hồi quy trên biến độc lập" là không cần bàn cãi. Ví dụ, gói relaimpo cran.r-project.org/web/packages/relaimpo/relaimpo.pdf sử dụng R² một phần "để đánh giá tầm quan trọng tương đối trong các mô hình tuyến tính".
robert

1
Bạn có nghĩ rằng bạn có thể cung cấp một tài liệu tham khảo cho quan điểm của bạn rằng R² chỉ nên được sử dụng cho lựa chọn mô hình?
robert

1
@robert: Nhà tù relaimponày là để cung cấp các lựa chọn thay thế cho một phần R ^ 2, vì lý do chính xác là IMA đưa ra!
Scortchi - Phục hồi Monica

1
@Scortchi: Wow, sau khi xem hướng dẫn sử dụng relaimpogói tôi nhận ra rằng có cả một thế giới các cách tiếp cận khác nhau để định lượng tầm quan trọng tương đối của các yếu tố dự đoán trong hồi quy tuyến tính. Tôi hiện đang xem qua một số giấy tờ được liên kết ở đó ( bản in năm 2010 này có vẻ khá tốt cho đến nay), và đây là một mớ hỗn độn! Tôi đã không nhận ra rằng vấn đề này rất phức tạp, khi tôi đưa ra tiền thưởng của mình. Nó dường như không được thảo luận chính xác trên CV. Đây có phải là một chủ đề tối nghĩa? Nếu vậy, tại sao?
amip nói phục hồi Monica

2
@amoeba: Một câu trả lời khó hiểu là "tầm quan trọng tương đối của các yếu tố dự đoán" không phải là tất cả quan trọng đối với hầu hết các mục đích. Nếu bạn có một mô hình mà bạn hài lòng thì bạn có thể sử dụng nó để nói những điều như hút một điếu thuốc mỗi ngày tương đương với việc ăn năm chiếc hamburger về nguy cơ bị đau tim - tầm quan trọng đến từ việc giải thích chính xác những gì bạn đang làm người mẫu; nếu bạn so sánh các mô hình mà bạn so sánh toàn bộ các mô hình - giả sử các mô hình có & không có cặp dự đoán đắt tiền - & không cần phải lo lắng về việc công suất dự đoán có thể được phân bổ công bằng như thế nào.
Scortchi - Phục hồi Monica

3

Về sự khác biệt giữa hệ số hồi quy tuyến tính và tương quan một phần, bạn có thể đọc điều này , ví dụ.

Tuy nhiên, sự nhầm lẫn thể hiện trong câu hỏi dường như có bản chất khác. Nó dường như là về loại tổng bình phương mặc định được sử dụng bởi gói này hoặc gói thống kê đó (chủ đề, được thảo luận nhiều lần trên trang web của chúng tôi). Hồi quy tuyến tính sử dụng những gì được gọi trong tính toán ANOVA Loại III SS. Trong nhiều chương trình ANOVA cũng là tùy chọn mặc định. Trong Rchức năng anova, nó xuất hiện với tôi (Tôi không phải là người dùng R, vì vậy tôi chỉ cho rằng nó) tính toán mặc định là Loại I SS ("SS tuần tự" phụ thuộc vào thứ tự các yếu tố dự đoán được chỉ định trong mô hình). Vì vậy, sự khác biệt mà bạn quan sát và không biến mất khi bạn chuẩn hóa ("chia tỷ lệ") các biến của bạn là do bạn đã chỉ định ANOVA với tùy chọn Loại I mặc định.

Dưới đây là kết quả thu được trong SPSS với dữ liệu của bạn:

enter image description here enter image description here enter image description here enter image description here

Bạn có thể chọn trong các bản in này rằng các tham số (hệ số hồi quy) giống nhau bất kể loại tính toán SS. Bạn cũng có thể nhận thấy rằng Eta bình phương một phần [là SSeffect / (SSeffect + SSerror) và = bình phương R một phần trong trường hợp của chúng tôi bởi vì các yếu tố dự đoán là đồng biến số] hoàn toàn giống nhau trong bảng hiệu ứng và hệ số chỉ khi loại SS là III. Khi loại SS là I, chỉ có ba yếu tố dự đoán cuối cùng, "đô thị", giữ nguyên giá trị (.169); điều này là do trong chuỗi đầu vào của các yếu tố dự đoán, đây là lần cuối cùng. Trong trường hợp loại III SS, thứ tự đầu vào không quan trọng, như trong hồi quy. Nhân tiện, sự khác biệt cũng được tuân theo trong các giá trị p. Mặc dù bạn không nhìn thấy nó trong các bảng của tôi vì chỉ có 3 chữ số thập phân trong cột "Sig",

Bạn có thể muốn đọc thêm về các "loại SS" khác nhau trong mô hình ANOVA / tuyến tính. Về mặt khái niệm, loại SS loại "hồi quy" là cơ bản và nguyên thủy. Các loại SS khác (I, II, IV, thậm chí còn tồn tại nhiều hơn) là các thiết bị đặc biệt để ước tính các hiệu ứng toàn diện hơn, ít lãng phí hơn các tham số hồi quy cho phép trong tình huống của các yếu tố dự báo tương quan.

Nói chung, kích thước hiệu ứng và giá trị p của chúng quan trọng hơn để báo cáo so với tham số và giá trị p của chúng, trừ khi mục đích của nghiên cứu là tạo mô hình cho tương lai. Các tham số là những gì cho phép bạn dự đoán, nhưng "ảnh hưởng" hoặc "hiệu ứng" có thể là một khái niệm rộng hơn "sức mạnh của dự đoán tuyến tính". Để báo cáo ảnh hưởng hoặc tầm quan trọng của các hệ số khác là có thể bên cạnh bình phương Eta một phần. Một thực thể là hệ số bỏ qua: tầm quan trọng của yếu tố dự đoán là tổng bình phương còn lại với yếu tố dự đoán được loại bỏ khỏi mô hình, được chuẩn hóa để các giá trị quan trọng của tất cả các yếu tố dự đoán tổng bằng 1.


+1, cảm ơn vì đã tham gia thảo luận. Tôi có một câu hỏi thuật ngữ. "Bình phương một phần R" được định nghĩa là SSeffect / (SSeffect + SSerror). Tên của SSeffect / SStotal là gì? Theo như tôi hiểu (sửa tôi nếu tôi sai), nếu chúng tôi sử dụng phân tách SS loại III, thì SSeffect / SStotal này sẽ bằng với tương quan một phần bình phương giữa phản ứng và dự đoán này (kiểm soát tất cả các yếu tố dự đoán khác). Số lượng này có một tên? Một phần R2 tương tự như bình phương một phần bình phương, nhưng tại sao không có tên cho tương tự của bình phương eta? Tôi bối rối bởi điều này.
amip nói rằng Phục hồi Monica

Rất tiếc, tôi nghĩ rằng tôi đã viết một số điều vô nghĩa ở trên: tương quan một phần bình phương là SSeffect / (SSeffect + SSerror), tức là chính xác một phần R2, đúng không? Tuy nhiên, câu hỏi về cách gọi SSeffect / SStotal (đó là những gì OP đã cố gắng tính toán trong câu hỏi ban đầu của mình!) Vẫn còn. Chúng ta chỉ nên gọi nó là bình phương eta? Hoặc "phân vùng R2" (tất nhiên hiểu rằng đối với SS loại III, các "phân vùng" này sẽ không tính tổng cho R2)?
amip nói rằng Phục hồi Monica

1
Có, SSeffect / SStotal chỉ đơn giản là bình phương eta. Đó là bình phương eta của công cụ dự đoán trong mô hình cụ thể đó (không nhầm lẫn với biên eta bình phương = eta bình phương khi công cụ dự đoán chỉ là một trong mô hình = zero-order Pearson r ^ 2, trong trường hợp dự đoán liên tục của chúng tôi).
ttnphns

1
Chính xác là như vậy. Tương quan một phần là (một ví dụ cụ thể của) eta. Tôi nghĩ rằng nó đúng đắn do đó để gọi đó là eta trong mô hình phần eta. Tôi chỉ không nhớ bất kỳ văn bản nào mà tôi gặp cụm từ "một phần" hoặc "bán đảo" eta. Nếu bạn tìm ra nó, xin vui lòng cho tôi biết.
ttnphns

1
Vâng; Tại sao, tôi nghĩ giống như vậy. Nhưng r, một phần r, semipartial r là những trường hợp cụ thể với eta tương ứng. Tuy nhiên, sự phân biệt thuật ngữ quan trọng giữa hai loại này phát sinh trong bối cảnh khi, bên cạnh đó, hiệu ứng "phi tuyến" tổng thể (giả) chúng ta thêm hiệu ứng tuyến tính (hoặc đa thức) của bộ dự đoán như thể được mã hóa bằng số. Ở đây chúng tôi hiển thị 3 hiệu ứng: Kết hợp Etasq = Tuyến tính Rq + Độ lệch từ tuyến tính.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.