Số lượng quan sát tối thiểu cho hồi quy tuyến tính bội


12

Tôi đang làm nhiều hồi quy tuyến tính. Tôi có 21 quan sát và 5 biến. Mục đích của tôi chỉ là tìm mối quan hệ giữa các biến

  1. Là dữ liệu của tôi được thiết lập đủ để thực hiện nhiều hồi quy?
  2. Kết quả kiểm tra t cho thấy 3 biến của tôi không đáng kể. Tôi có cần thực hiện hồi quy của mình một lần nữa với các biến quan trọng (hoặc hồi quy đầu tiên của tôi là đủ để có kết luận)? Ma trận tương quan của tôi là như sau

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 và var 2 là các biến tiếp tục và var 3 đến 5are biến phân loại và y là biến phụ thuộc của tôi.

Cần đề cập đến biến quan trọng đã được xem xét trong tài liệu là yếu tố ảnh hưởng nhất đến biến phụ thuộc của tôi không nằm trong số các biến hồi quy do giới hạn dữ liệu của tôi. Vẫn có ý nghĩa để làm hồi quy mà không có biến quan trọng này?

đây là khoảng tin cậy của tôi

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

Câu trả lời:


17

Nguyên tắc chung (dựa trên nội dung trong cuốn sách của Frank Harrell, Regression Modelling Strategies ) là nếu bạn mong muốn có thể phát hiện các hiệu ứng kích thước hợp lý với công suất hợp lý , bạn cần ước tính 10-20 quan sát cho mỗi tham số (đồng biến). Harrell thảo luận về rất nhiều tùy chọn cho "giảm kích thước" (giảm số lượng đồng biến của bạn xuống kích thước hợp lý hơn), chẳng hạn như PCA, nhưng điều quan trọng nhất là để có bất kỳ sự tin cậy nào về việc giảm kích thước kết quả phải được thực hiện mà không nhìn vào biến trả lời . Thực hiện hồi quy một lần nữa chỉ với các biến quan trọng, như bạn đề xuất ở trên, trong hầu hết mọi trường hợp là một ý tưởng tồi.

Tuy nhiên, vì bạn bị mắc kẹt với một tập dữ liệu và một tập hợp số bạn quan tâm, tôi không nghĩ rằng việc chạy hồi quy bội theo cách này vốn đã sai. Tôi nghĩ điều tốt nhất sẽ là chấp nhận kết quả như hiện tại, từ mô hình đầy đủ (đừng quên nhìn vào ước tính điểm và khoảng tin cậy để xem liệu các hiệu ứng đáng kể được ước tính là "lớn" trong thực tế nào đó- ý nghĩa thế giới, và liệu các hiệu ứng không đáng kể có thực sự được ước tính nhỏ hơn các tác động đáng kể hay không).

Về việc có phân tích mà không có dự đoán mà lĩnh vực của bạn coi là quan trọng hay không: tôi không biết. Nó phụ thuộc vào loại suy luận bạn muốn thực hiện dựa trên mô hình. Theo nghĩa hẹp, mô hình hồi quy vẫn được xác định rõ ("tác động biên của các yếu tố dự đoán này đối với phản ứng này là gì?"), Nhưng ai đó trong lĩnh vực của bạn có thể nói hoàn toàn đúng rằng phân tích chỉ không có ý nghĩa. Sẽ có ích một chút nếu bạn biết rằng các yếu tố dự đoán mà bạn đã bị loại bỏ khỏi dự đoán nổi tiếng (dù đó là gì) hoặc dự đoán nổi tiếng là không đổi hoặc gần như không đổi đối với dữ liệu của bạn: ít nhất bạn có thể nói rằng một cái gì đó khác với dự đoán nổi tiếng có ảnh hưởng đến phản ứng.


Cảm ơn vì nhận xét, nhưng tôi không hiểu điểm kiểm tra khoảng tin cậy là gì?
tăng

Vì Ben trả lời cho Frank, tôi sẽ trả lời cho Ben và anh ta có thể sửa cho tôi nếu anh ta có điều gì khác trong đầu. Ben đang đề nghị jsut sử dụng mô hình đầy đủ. Sau đó, ít nhất bạn biết rằng bạn đã không để lại một biến quan trọng nào trong bộ 5. Vấn đề quá mức có thể ảnh hưởng đến dự đoán nhưng ít nhất bạn có khoảng tin cậy cho các tham số và bạn có thể có được khoảng tin cậy cho dự đoán. Tôi nghĩ rằng điều này sẽ hoạt động tốt nếu bạn gặp vấn đề về cộng tuyến và khoảng tin cậy trên các tham số cho bạn biết liệu giá trị tham số có thể là 0.
Michael R. Chernick

Nếu mô hình vẫn còn thiếu các biến không chính xác, dự đoán có thể không tốt và việc đánh giá độ chính xác dự đoán dựa trên dữ liệu đã cho có thể sai. Lo lắng về lỗi chính tả mô hình và luôn luôn kiểm tra phần dư. Frank Harrell là một thành viên tích cực của trang web này. Vì vậy, tôi hy vọng câu hỏi này nhận được sự chú ý của anh ấy và sau đó chúng tôi có thể nghe trực tiếp từ anh ấy.
Michael R. Chernick

Bạn luôn có thể thiếu các biến quan trọng và bạn không bao giờ có thể thực sự biết ... Tôi đề nghị xem xét các khoảng tin cậy bởi vì chỉ cần hỏi liệu một biến có ý nghĩa ở hay không là mất nhiều thông tin. Một kịch bản sẽ là tất cả các tham số của bạn có cùng mức độ ảnh hưởng ước tính, nhưng độ không đảm bảo của chúng khác nhau để một số có ý nghĩa và một số khác thì không. Bạn chắc chắn không muốn kết luận trong trường hợp này rằng "biến A và B là quan trọng, biến C, D và E không". Các TCTD sẽ cung cấp cho bạn thông tin này. p<0.05
Ben Bolker

Từ các cuộc thảo luận tôi nghĩ do thiếu quan sát đầy đủ và không có biến độc lập quan trọng nhất trong tập dữ liệu của tôi, tôi phải đưa ra kết luận: 1-Các biến quan trọng không phải là biến đã vượt qua bài kiểm tra t. Giá trị quan trọng là một trong số đó vượt qua bài kiểm tra t và khoảng tin cậy của nó không bao gồm 0. 2-Phải kiểm tra tính quy phạm của phần dư. 3-Ma trận tương quan phải được kiểm tra.
hoa hồng

2

Câu trả lời cho câu hỏi chung là nó phụ thuộc vào nhiều yếu tố với các yếu tố chính là (1) số phương sai (2) phương sai của các ước tính và số dư. Với một mẫu nhỏ, bạn không có nhiều sức mạnh để phát hiện sự khác biệt từ 0. Vì vậy, tôi sẽ xem xét phương sai ước tính của các tham số hồi quy. Từ kinh nghiệm của tôi với hồi quy 21 quan sát với 5 biến là không đủ dữ liệu để loại trừ các biến. Vì vậy, tôi sẽ không nhanh chóng loại bỏ các biến cũng như không quá say mê với các biến có vẻ quan trọng. Câu trả lời tốt nhất là đợi cho đến khi bạn có nhiều dữ liệu hơn. Đôi khi điều đó dễ nói nhưng khó thực hiện. Tôi sẽ xem xét hồi quy từng bước, hồi quy tiến và lùi chỉ để xem biến nào được chọn. Nếu các hiệp phương sai có tương quan cao, điều này có thể hiển thị các bộ biến rất khác nhau đang được chọn. Khởi động lại quy trình lựa chọn mô hình vì điều đó sẽ được tiết lộ về độ nhạy của lựa chọn biến đối với các thay đổi trong dữ liệu. Bạn nên tính ma trận tương quan cho hiệp phương sai. Có lẽ Frank Harrell sẽ đồng ý trong việc này. Ông là một chuyên gia thực sự về lựa chọn biến. Tôi nghĩ rằng ít nhất anh ấy sẽ đồng ý với tôi rằng bạn không nên chọn một mô hình cuối cùng chỉ dựa trên 21 điểm dữ liệu này.


Cảm ơn đề nghị của bạn. Tôi đã thêm ma trận tương quan của tôi. Bạn có nghĩ rằng với ma trận tương quan này làm hồi quy là hợp lý? Chỉ cần nhấn mạnh rằng tôi không thể thu thập thêm dữ liệu và tôi cũng không muốn lập mô hình hoặc dự đoán. Tôi chỉ muốn tìm bất kỳ mối quan hệ có thể có giữa các biến độc lập và biến phụ thuộc.
hoa hồng

Ma trận tương quan là ở đó để cung cấp cho bạn một số ý tưởng về cộng tuyến. Các ước tính có thể sẽ có phương sai lớn và vì vậy ý ​​nghĩa thống kê không nên là trọng tâm. Ypu có thể xem xét chẩn đoán hồi quy cho cộng tuyến. Điều đó có thể giúp. Nhưng tôi sẽ khuyên bạn nên xem xét một loạt các mô hình tập hợp con để xem mức độ phù hợp thay đổi và sự kết hợp của các biến dường như làm tốt và làm kém. Tôi thực sự nghĩ rằng bootstrapping dữ liệu sẽ cho bạn thấy điều gì đó về sự ổn định của sự lựa chọn của các yếu tố dự đoán.
Michael R. Chernick

1
Nhưng không có gì sẽ bù đắp cho việc thiếu dữ liệu. Tôi nghĩ rằng bạn chỉ muốn xem liệu có một hoặc hai biến có vẻ như đứng trên vai so với phần còn lại. Nhưng bạn có thể tìm thấy bất cứ điều gì.
Michael R. Chernick

Chúng ta có ý nghĩa gì bởi đồng biến chính xác? Giả sử chúng ta có một số biến dự đoán , sau đó, giả sử, được tính là một biến số riêng? Làm thế nào về , , v.v. Vì có một số mối tương quan giữa các yếu tố dự đoán này, có lẽ các hệ số ước tính của chúng là "đáng giá" dưới 1 độ tự do. Và những gì về, ví dụ, hồi quy spline hoặc hồi quy cục bộ khác: chúng ta có phải tính đến thực tế là chỉ có một tập hợp con của các quan sát được sử dụng trong việc xây dựng các thành phần không? Và nếu chúng ta sử dụng hạt nhân để áp dụng trọng số cho các yếu tố dự đoán, điều đó có ảnh hưởng đến số lượng quan sát hiệu quả được sử dụng không? x 2 x 3 x 4xx2x3x4
Bối rối
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.