Làm thế nào để kiểm tra ý nghĩa thống kê cho biến phân loại trong hồi quy tuyến tính?


18

Nếu trong một hồi quy tuyến tính, tôi có biến phân loại ... làm thế nào để tôi biết ý nghĩa ổn định của biến phân loại?

Giả sử nhân tố X1 có 10 cấp độ ... sẽ có 10 giá trị t kết quả khác nhau, dưới ô của một yếu tố biến X1 ...

Dường như với tôi rằng dấu hiệu thống kê được kiểm tra cho từng cấp độ của biến nhân tố? Không?

@Macro: Theo đề xuất của bạn, tôi đã xây dựng ví dụ sau:

Có vẻ như x3 là hữu ích và phải được đưa vào mô hình, từ so sánh mô hình dưới đây.

Nhưng thật ra điều đó đã sai ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@Luna, tại sao vậy? Có vẻ như bạn đã sử dụng x3để tạo ys, vì vậy nó nên được đưa vào mô hình và giá trị đồng ý với kết luận đó. p
Macro

@ Vì vậy - bạn nói đúng. Tôi chỉ đưa ra một ví dụ đồ chơi về việc sử dụng anova nói chung trong so sánh mô hình. Vì vậy, nó không liên quan đến câu hỏi ban đầu của tôi.
Luna

@Macro - bạn nói đúng. Bây giờ tôi thấy điểm. Cảm ơn bạn!
Luna

Hàm 'Anova' từ gói R 'car' ( pdf ) cho phép bạn kiểm tra ý nghĩa tổng thể của biến phân loại. Nó hoạt động với rất nhiều gói và kiểu hồi quy khác nhau.
SK4ndal

Câu trả lời:


28

Bạn đúng rằng các giá trị đó chỉ cho bạn biết giá trị trung bình của mỗi cấp có khác biệt đáng kể so với giá trị trung bình của cấp tham chiếu hay không. Do đó, họ chỉ cho bạn biết về sự khác biệt theo cặp giữa các cấp. Để kiểm tra xem liệu công cụ dự đoán phân loại, nói chung, có ý nghĩa hay không tương đương với việc kiểm tra xem liệu có bất kỳ sự không đồng nhất trong phương tiện của các cấp độ của công cụ dự đoán hay không. Khi không có các dự đoán khác trong mô hình, đây là một vấn đề ANOVA cổ điển .p

Khi có các dự đoán khác trong mô hình. bạn có hai tùy chọn để kiểm tra tầm quan trọng của công cụ dự đoán phân loại:

(1) Kiểm tra tỷ lệ khả năng: Giả sử bạn có kết quả , dự đoán định lượng X i 1 , . . . , X i p và bộ dự đoán phân loại C i với các cấp k . Mô hình không có dự đoán phân loại làYiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

Trong Rbạn có thể phù hợp với mô hình này với lm()lệnh và trích xuất khả năng đăng nhập bằng logLiklệnh. Gọi đây là khả năng đăng nhập . Tiếp theo, bạn có thể điều chỉnh mô hình với công cụ dự đoán phân loại:L0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

Trong đó là biến giả là 1 nếu D i = j0 khác. Các k 'th mức là mức tham khảo, đó là lý do tại sao chỉ có k - 1 điều khoản trong tổng. sẽ tự động thực hiện mã hóa giả này cho bạn nếu bạn chuyển biến phân loại sang . Bạn có thể phù hợp với mô hình này tương tự và trích xuất khả năng đăng nhập như trên. Gọi đây là khả năng đăng nhập L 1 . Sau đó, theo giả thuyết null rằng D i không có hiệu lực,Bj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

FRRlm()g1g0anova(g1,g0)

F


Cảm ơn rất nhiều Macro. Tôi thấy rằng dữ liệu của tôi rất không bình thường. Cốt truyện của QQ như sau: đường cong nằm dưới đường thẳng 45 độ. Đường cong tiếp tuyến với đường thẳng đó. Và đường cong trông giống như đường cong của f (x) = - x ^ 2 (hình dạng khôn ngoan). Tôi đang phải đối mặt với loại vấn đề gì? Và làm thế nào để tôi sửa lỗi này? Cảm ơn bạn!
Luna

1
@Luna, Dữ liệu của bạn rất không bình thường hoặc phần dư rất cao không bình thường? Ngoài ra, tôi không nghĩ rằng toàn bộ các điểm có thể nằm dưới vạch 45 độ.
Macro

oh thực sự bạn đúng ... tôi chỉ cần nhìn thêm vào cốt truyện QQ. Đây không phải là toàn bộ các điểm nằm dưới vạch 45 độ. Đó là đường cong có hình dạng f (x) = - x ^ 2 là "tiếp tuyến" với đường 45 độ. Theo "tiếp tuyến" tôi có nghĩa là những điểm xung quanh điểm "tiếp tuyến" thực sự nằm trên đường 45 độ, mặc dù rất nhẹ. Do đó, nói một cách trực quan, hầu hết các dữ liệu (~ 98%) nằm dưới đường 45 độ ... tôi phải làm gì trước tiên để khắc phục vấn đề này trước khi thực hiện so sánh mô hình? Cảm ơn bạn!
Luna

2
p nhưng, như tôi đã nói, đây thực sự trở thành một câu hỏi hoàn toàn khác với câu hỏi được đặt ra và có thể được đặt ra một cách thích hợp hơn như một câu hỏi mới hoặc được trả lời bằng cách tìm kiếm trang web cho một câu hỏi liên quan.
Macro

1
@ Druss2k, đúng vậy.
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.