Khi nào bỏ một thuật ngữ từ mô hình hồi quy?


20

Bất cứ ai có thể tư vấn nếu sau đây có ý nghĩa:

Tôi đang làm việc với một mô hình tuyến tính thông thường với 4 yếu tố dự đoán. Tôi đang ở trong hai suy nghĩ liệu có nên bỏ thuật ngữ ít quan trọng nhất. Giá trị của nó là hơn 0,05 một chút. Tôi đã lập luận ủng hộ việc bỏ nó dọc theo các dòng sau: Nhân ước tính của thuật ngữ này với (ví dụ) phạm vi liên dữ liệu của biến này cho ý nghĩa lâm sàng mà việc giữ thuật ngữ này có trong mô hình tổng thể . Vì con số này rất thấp, xấp xỉ bằng phạm vi giá trị trong ngày điển hình mà biến có thể lấy khi đo nó trong môi trường lâm sàng, tôi thấy nó không có ý nghĩa lâm sàng và do đó có thể bị loại bỏ để đưa ra một mô hình khác biệt hơn, thậm chí mặc dù thả nó làm giảm điều chỉnh một chút.pR2


1
Tại sao bạn tìm kiếm một mô hình Parsimonius hơn?
Michael Giám mục

3
Bản thân nó không phải là một điều tốt đẹp sao? Cách tôi nhìn thấy nó, một mô hình với các biến có thêm ít hoặc không có khả năng giải thích theo nghĩa lâm sàng, tệ hơn một mô hình nhỏ hơn không có các biến đó, ngay cả khi các biến đó có ý nghĩa thống kê
P Sellaz

Tôi quyết định viết một câu trả lời: stats.stackexchange.com/questions/17624/ . Nhưng tóm lại, Không, tôi không nghĩ rằng sự khôn ngoan là một điều tốt. Nó đôi khi hữu ích cho các lý do cụ thể.
Michael Giám mục

1
Tôi đồng ý với Michael. Tốt nhất là bao gồm các biến không có khả năng giải thích rõ ràng nếu chúng có cơ hội là "đáng kể"; bạn đã dành những mức độ tự do đó.
Frank Harrell

Hãy nhớ rằng các yếu tố dự đoán không phải là hồi quy đáng kể vẫn có thể đóng góp số lượng khác không cho phương sai được giải thích trong trường hợp các biến hồi quy tương quan - bằng cách ảnh hưởng đến các biến hồi quy quan trọng khác. Đặc biệt là chỉ có bốn yếu tố dự đoán, nếu các biến hồi quy có tương quan với nhau, tôi sẽ tranh luận về việc giữ nguyên yếu tố không quan trọng trong mô hình.
Torvon

Câu trả lời:


18

Tôi chưa bao giờ hiểu mong muốn cho sự khôn ngoan. Tìm kiếm phân tích phá hủy tất cả các khía cạnh của suy luận thống kê (sai lệch của hệ số hồi quy, sai số chuẩn, khoảng tin cậy, giá trị P). Một lý do tốt để giữ các biến là điều này bảo tồn độ chính xác của khoảng tin cậy và các đại lượng khác. Hãy nghĩ về nó theo cách này: chỉ có hai công cụ ước lượng không thiên vị về phương sai dư trong hồi quy bội thông thường: (1) ước tính từ mô hình (lớn) được chỉ định trước và (2) ước tính từ mô hình giảm thay thế mức độ tổng quát của tự do (GDF) cho mức độ tự do hồi quy (giảm) rõ ràng. GDF sẽ gần với số lượng tham số ứng cử viên hơn nhiều so với số lượng tham số "đáng kể" cuối cùng.

Đây là một cách khác để nghĩ về nó. Giả sử bạn đang thực hiện ANOVA để so sánh 5 phương pháp điều trị, nhận xét nghiệm F 4 df. Sau đó, vì một số lý do, bạn xem xét sự khác biệt theo cặp giữa các phương pháp điều trị bằng các xét nghiệm t và quyết định kết hợp hoặc loại bỏ một số phương pháp điều trị (điều này giống như thực hiện lựa chọn từng bước bằng cách sử dụng P, AIC, BIC, Cp trên 4 biến giả). Thử nghiệm F kết quả với 1, 2 hoặc 3 df sẽ có lỗi loại I tăng cao. Thử nghiệm F ban đầu với 4 df chứa một điều chỉnh bội số hoàn hảo.


3
+1 Parsimony là một cái gì đó thường chỉ có ý nghĩa trong bối cảnh rất cụ thể. Không có lý do gì để chơi trò chơi thiên vị so với độ chính xác nếu bạn có đủ độ chính xác để làm cả hai.
Fomite

2
+1 cho một câu trả lời tuyệt vời. Nhưng điều gì sẽ xảy ra nếu bạn có tính đa hướng và loại bỏ một biến làm giảm nó? (Đây không phải là trường hợp trong câu hỏi ban đầu, nhưng thường là trong các dữ liệu khác). Không phải mô hình kết quả thường vượt trội về mọi mặt (giảm phương sai của công cụ ước tính, dấu hiệu của hệ số có nhiều khả năng phản ánh lý thuyết cơ bản, v.v.)? Nếu bạn vẫn sử dụng mức độ tự do (mô hình ban đầu) chính xác.
Peter Ellis

4
Nó vẫn tốt hơn để bao gồm cả hai biến. Giá duy nhất bạn phải trả là lỗi tiêu chuẩn gia tăng khi ước tính một trong các hiệu ứng của biến được điều chỉnh cho một hiệu ứng khác. Các thử nghiệm chung của hai biến cộng tuyến rất mạnh khi chúng kết hợp các lực chứ không phải cạnh tranh với nhau. Ngoài ra nếu bạn muốn xóa một biến, dữ liệu không có khả năng cho bạn biết cái nào cần xóa.
Frank Harrell

17

Những câu trả lời về việc lựa chọn các biến đều cho rằng chi phí quan sát các biến là 0.

Và điều đó không đúng.

Mặc dù vấn đề lựa chọn các biến cho một mô hình nhất định có thể có hoặc không liên quan đến lựa chọn, nhưng những tác động đối với hành vi trong tương lai DOES liên quan đến lựa chọn.

Hãy xem xét vấn đề dự đoán lineman đại học nào sẽ làm tốt nhất trong NFL. Bạn là một trinh sát. Bạn phải xem xét những phẩm chất nào của các linemen hiện tại trong NFL được dự đoán nhiều nhất về thành công của họ. Bạn đo 500 số lượng và bắt đầu nhiệm vụ lựa chọn số lượng sẽ cần trong tương lai.

Những gì bạn nên làm? Bạn có nên giữ lại tất cả 500? Có nên loại bỏ một số (dấu hiệu chiêm tinh, ngày trong tuần)?

Đây là một câu hỏi quan trọng, và không mang tính học thuật. Có một chi phí cho việc quan sát dữ liệu và khung hiệu quả chi phí cho thấy rằng một số biến KHÔNG CẦN được quan sát trong tương lai, vì giá trị của chúng thấp.


4
+1: một điểm quan trọng và thú vị. Nó cũng tiết lộ rằng câu hỏi không đầy đủ, vì nó không chỉ ra mục đích của mô hình. (Chi phí sẽ ít liên quan cho một mô hình khoa học đang tìm cách xây dựng một lý thuyết giải thích nhưng sẽ đến mui trong một mô hình tiên đoán kế để sử dụng lặp đi lặp lại.)
whuber

6

Có ít nhất hai lý do có thể khác để giữ một biến: 1) Nó ảnh hưởng đến các tham số cho các biến KHÁC. 2) Thực tế là nó nhỏ rất thú vị về mặt lâm sàng

Để xem khoảng 1, bạn có thể xem các giá trị dự đoán cho mỗi người từ một mô hình có và không có biến trong mô hình. Tôi đề nghị tạo một biểu đồ phân tán của hai bộ giá trị này. Nếu không có sự khác biệt lớn, thì đó là một lập luận chống lại lý do này

Đối với 2, hãy nghĩ về lý do tại sao bạn có biến này trong danh sách các biến có thể. Có dựa trên lý thuyết không? Có nghiên cứu khác tìm thấy một kích thước hiệu ứng lớn?


Có rất ít sự cộng tác để nói, vì vậy việc loại bỏ biến này tạo ra rất ít sự khác biệt với những người khác. Đó là một điểm thú vị về việc nó thú vị về mặt lâm sàng nếu nó nhỏ. Dữ liệu đến từ một cuộc khảo sát thăm dò, trong đó, ở giai đoạn này, ít nhất, không có lý do gì để mong đợi bất kỳ một biến nào có ý nghĩa hơn bất kỳ biến nào khác. Tuy nhiên, có biến động trong ngày trong biến này, vì vậy về mặt này, nếu một hiệu ứng có kích thước tương tự với biến động này, thì nó có vẻ không có ý nghĩa lâm sàng đối với tôi.
P Sellaz

OK, sau đó nó có vẻ như một ứng cử viên tốt để loại bỏ.
Peter Flom - Tái lập Monica

@P Sellaz - nếu "dữ liệu đến từ một cuộc khảo sát thăm dò", điều đó có nghĩa là người tham gia tự chọn? Tôi thấy nhận xét của @Frank Harrell có gì đó được tính toán, nhưng mối quan tâm về tính chính xác nghiêm ngặt của giá trị p, khoảng tin cậy, v.v ... sẽ trở thành tranh luận nếu mẫu được tự chọn.
rolando2

Tôi nghĩ rằng nó chỉ trở thành moot nếu bạn không sử dụng chúng.
Frank Harrell

@FrankHarrel - vui lòng làm rõ: "họ" =?
rolando2

6

Lời khuyên phổ biến nhất hiện nay là lấy AIC của hai mẫu và lấy mẫu có AIC thấp hơn. Vì vậy, nếu mô hình đầy đủ của bạn có AIC là -20 và mô hình không có yếu tố dự đoán yếu nhất có AIC> -20 thì bạn giữ nguyên mô hình. Một số người có thể lập luận rằng nếu sự khác biệt <3 bạn giữ cho đơn giản hơn. Tôi thích lời khuyên rằng bạn có thể sử dụng BIC để phá vỡ "mối quan hệ" khi AIC nằm trong phạm vi 3 của nhau.

Nếu bạn đang sử dụng R sau đó lệnh để có được AIC là ... AIC.

Tôi có một cuốn sách giáo khoa về mô hình hóa ở đây từ đầu những năm 90 gợi ý rằng bạn bỏ tất cả các dự đoán của bạn không đáng kể. Tuy nhiên, điều này thực sự có nghĩa là bạn sẽ không phụ thuộc vào độ phức tạp mà người dự đoán thêm hoặc bớt khỏi mô hình. Nó cũng chỉ dành cho ANOVA trong đó tầm quan trọng là về sự thay đổi được giải thích thay vì độ lớn của độ dốc trong ánh sáng của những điều khác đã được giải thích. Lời khuyên hiện đại hơn về việc sử dụng AIC sẽ cân nhắc các yếu tố này. Có tất cả các loại lý do dự đoán không quan trọng nên được đưa vào ngay cả khi nó không đáng kể. Ví dụ, có thể có các vấn đề tương quan với các yếu tố dự đoán khác với nó có thể là một yếu tố dự đoán tương đối đơn giản. Nếu bạn muốn lời khuyên đơn giản nhất hãy đến với AIC và sử dụng BIC để phá vỡ mối quan hệ và sử dụng mức chênh lệch 3 làm cửa sổ bình đẳng của bạn.


Nhỏ hơn là tốt hơn trong đại diện R, có?
Aaron - Tái lập Monica

Cảm ơn vì đã trả lời. Tôi thấy rằng sự khác biệt về AIC giữa hai mô hình chỉ là 2.
P Sellaz

Mô hình nhỏ hơn có AIC và BIC AIC lớn hơn một chút: AIC lớn nhỏ = -2 BIC: BIC lớn nhỏ- 7.8
P Sellaz

Aaron .. oops ... thấp hơn, đã sửa ...
John

1
Chỉ cần làm rõ một cái gì đó, thuật ngữ bổ sung này chỉ là một hiệp phương sai khác, và có rất ít sự cộng tác.
P Sellaz

4

Bạn đang sử dụng mô hình này để làm gì? Là Parsimony là một mục tiêu quan trọng?

Các mô hình khác biệt hơn được ưa thích trong một số trường hợp, nhưng tôi sẽ không nói rằng mô hình phân tích là một điều tốt trong chính nó. Các mô hình phân tích có thể được hiểu và truyền đạt dễ dàng hơn, và phân tích cú pháp có thể giúp bảo vệ chống lại sự phù hợp quá mức, nhưng thường thì những vấn đề này không phải là mối quan tâm lớn hoặc có thể được giải quyết theo cách khác.

Tiếp cận từ hướng ngược lại, bao gồm một thuật ngữ phụ trong phương trình hồi quy có một số lợi ích ngay cả trong các tình huống mà chính thuật ngữ phụ không quan tâm và nó không cải thiện mô hình phù hợp nhiều ... bạn có thể không nghĩ rằng nó là một biến quan trọng để kiểm soát, nhưng những người khác có thể. Tất nhiên, có những lý do thực sự rất quan trọng khác để loại trừ một biến, ví dụ: nó có thể được gây ra bởi kết quả.


3

Từ cách diễn đạt của bạn, có vẻ như bạn có xu hướng bỏ dự đoán cuối cùng bởi vì giá trị dự đoán của nó thấp; một thay đổi đáng kể về yếu tố dự đoán đó sẽ không bao hàm sự thay đổi đáng kể về biến phản ứng. Nếu đó là trường hợp, thì tôi thích tiêu chí này để bao gồm / bỏ dự đoán. Nó có cơ sở trong thực tế thực tế hơn AIC hoặc BIC, và có thể giải thích nhiều hơn cho khán giả của bạn cho nghiên cứu này.


Vâng, đó chính xác là những gì tôi muốn nói.
P Sellaz
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.