Hồi quy tuyến tính đơn giản, giá trị p và AIC


13

Tôi nhận ra chủ đề này đã xuất hiện một số lần trước đây , ví dụ như ở đây , nhưng tôi vẫn không chắc chắn cách tốt nhất để diễn giải đầu ra hồi quy của mình.

Tôi có một bộ dữ liệu rất đơn giản, bao gồm một cột gồm các giá trị x và một cột của các giá trị y , được chia thành hai nhóm theo vị trí (loc). Các điểm trông như thế này

nhập mô tả hình ảnh ở đây

Một đồng nghiệp đã đưa ra giả thuyết rằng chúng ta nên điều chỉnh các hồi quy tuyến tính đơn giản riêng biệt cho từng nhóm mà tôi đã thực hiện bằng cách sử dụng y ~ x * C(loc). Đầu ra được hiển thị dưới đây.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

nhập mô tả hình ảnh ở đây

Nhìn vào các giá trị p cho các hệ số, biến giả cho vị trí và thuật ngữ tương tác không khác biệt đáng kể so với không, trong trường hợp đó mô hình hồi quy của tôi về cơ bản giảm xuống chỉ còn đường màu đỏ trên biểu đồ trên. Đối với tôi, điều này cho thấy rằng việc khớp các dòng riêng biệt cho hai nhóm có thể là một sai lầm và một mô hình tốt hơn có thể là một dòng hồi quy duy nhất cho toàn bộ tập dữ liệu, như được hiển thị bên dưới.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

nhập mô tả hình ảnh ở đây

Điều này có vẻ ổn với tôi một cách trực quan và các giá trị p cho tất cả các hệ số hiện có ý nghĩa. Tuy nhiên, AIC cho mô hình thứ hai là nhiều hơn so với người đầu tiên.

Tôi nhận ra rằng lựa chọn mô hình không chỉ là giá trị p hay chỉ là AIC, nhưng tôi không chắc phải làm gì với điều này. Bất cứ ai cũng có thể cung cấp bất kỳ lời khuyên thực tế nào về việc diễn giải đầu ra này và chọn một mô hình phù hợp, xin vui lòng ?

Trước mắt tôi, đường hồi quy đơn có vẻ ổn (mặc dù tôi nhận ra không có cái nào trong số chúng đặc biệt tốt), nhưng có vẻ như có ít nhất một sự biện minh cho việc lắp các mô hình riêng biệt (?).

Cảm ơn!

Chỉnh sửa để phản hồi ý kiến

@Cagdas Ozgenc

Mô hình hai dòng được trang bị bằng cách sử dụng số liệu thống kê của Python và đoạn mã sau

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

Theo tôi hiểu, đây thực chất chỉ là viết tắt cho một mô hình như thế này

y= =β0+β1x+β2tôi+β3xtôi

tôitôioc= =Dtôi= =0

y= =β0+β1x

tôioc= =Ntôi= =1

y= =(β0+β2)+(β1+β3)x

đó là dòng màu xanh trên cốt truyện ở trên. AIC cho mô hình này được báo cáo tự động trong bản tóm tắt thống kê. Đối với mô hình một dòng tôi chỉ đơn giản sử dụng

reg = ols(formula='y ~ x', data=df).fit()

Tôi nghĩ rằng điều này là OK?

@ người dùng2864849

tôioc= =D

Chỉnh sửa 2

Để cho đầy đủ, đây là các lô còn lại theo đề xuất của @whuber. Mô hình hai dòng thực sự trông tốt hơn nhiều từ quan điểm này.

Mô hình hai dòng

nhập mô tả hình ảnh ở đây

Mô hình một dòng

nhập mô tả hình ảnh ở đây

Cảm ơn tất cả!


3
Quan tâm để giải thích tại sao đường hồi quy đơn có vẻ tốt hơn với bạn? Đối với tôi, tôi thấy hai cụm có thể phân tách tuyến tính và loại N có rất ít phương sai. Bạn có nghĩ rằng đầu tiên là tồi tệ hơn vì các dải tin cậy chồng chéo?
Marsenau

6
x

3
R2

3
@StudentT cả hai mô hình sử dụng tất cả các điểm dữ liệu. Mô hình đơn giản sử dụng ít biến độc lập hơn. Một điểm dữ liệu là toàn bộ bộ dữ liệu.
Cagdas Ozgenc

5
Nếu bạn muốn thực hiện một cách tiếp cận dựa trên kiểm tra giả thuyết để lựa chọn mô hình, bạn không được cho rằng bởi vì hai yếu tố dự đoán là mỗi loại bỏ không đáng kể cả hai khỏi mô hình sẽ có ít nhập khẩu. Bài kiểm tra F cho tầm quan trọng chung sẽ là bài kiểm tra phù hợp.
Scortchi - Tái lập Monica

Câu trả lời:


1

Bạn đã thử sử dụng cả hai yếu tố dự đoán mà không có sự tương tác? Vì vậy, nó sẽ là:

y ~ x + Lộc

AIC có thể tốt hơn trong mô hình đầu tiên vì vị trí rất quan trọng. Nhưng sự tương tác không quan trọng, đó là lý do tại sao các giá trị P không đáng kể. Sau đó, bạn sẽ hiểu nó là hiệu ứng của x sau khi kiểm soát Loc.


1

Tôi nghĩ rằng bạn đã làm tốt để thách thức khái niệm rằng chỉ riêng giá trị p và giá trị AIC có thể xác định khả năng tồn tại của một mô hình. Tôi cũng rất vui vì bạn đã chọn chia sẻ nó ở đây.

Như bạn đã chứng minh, có nhiều sự đánh đổi khác nhau được thực hiện khi bạn xem xét các điều khoản khác nhau và có thể là sự tương tác của chúng. Vì vậy, một câu hỏi cần có trong đầu là mục đích của mô hình. Nếu bạn đang ủy quyền để xác định ảnh hưởng của vị trí trên y, sau đó bạn nên giữ vị trí trong mô hình bất kể như thế nào yếu các giá trị p là. Một kết quả null là thông tin quan trọng trong trường hợp đó.

Thoạt nhìn, có vẻ như rõ ràng Dvị trí ngụ ý lớn hơn y. Nhưng chỉ có một phạm vi hẹp xmà bạn có cả hai DNgiá trị cho vị trí. Việc tạo lại các hệ số mô hình của bạn trong khoảng thời gian nhỏ này có thể sẽ mang lại một lỗi tiêu chuẩn lớn hơn nhiều.

Nhưng có lẽ bạn không quan tâm đến vị trí vượt quá khả năng dự đoán của nó y. Đó là dữ liệu bạn vừa có và mã hóa màu trên cốt truyện của bạn đã tiết lộ một mô hình thú vị. Trong trường hợp này, bạn có thể quan tâm đến khả năng dự đoán của mô hình hơn là khả năng giải thích của hệ số yêu thích của bạn. Tôi nghi ngờ giá trị AIC hữu ích hơn trong trường hợp này. Tôi chưa quen với AIC; nhưng tôi nghi ngờ nó có thể xử phạt thuật ngữ hỗn hợp vì chỉ có một phạm vi nhỏ trong đó bạn có thể thay đổi vị trí cho cố định x. Có rất ít vị trí giải thích mà xchưa giải thích.


0

Bạn phải báo cáo cả hai nhóm riêng biệt (hoặc có thể xem xét mô hình đa cấp). Để đơn giản kết hợp các nhóm vi phạm một trong những giả định cơ bản của hồi quy (và hầu hết các kỹ thuật thống kê suy luận khác), tính độc lập của các quan sát. Hoặc nói cách khác, biến nhóm (vị trí) là một biến ẩn trừ khi nó được tính đến trong phân tích của bạn.

Trong một trường hợp cực đoan, bỏ qua một biến nhóm có thể dẫn đến nghịch lý của Simpson. Trong nghịch lý này, bạn có thể có hai nhóm trong cả hai nhóm có mối tương quan dương, nhưng nếu bạn kết hợp chúng, bạn có một mối tương quan âm (sai, không chính xác). (Hoặc ngược lại, tất nhiên.) Xem http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.