Các đồng biến không có ý nghĩa thống kê có nên được 'giữ nguyên' khi tạo mô hình không?


39

Tôi có một số đồng biến trong tính toán của mình cho một mô hình và không phải tất cả chúng đều có ý nghĩa thống kê. Tôi có nên loại bỏ những cái không được?

Câu hỏi này thảo luận về hiện tượng này, nhưng không trả lời câu hỏi của tôi: Làm thế nào để giải thích tác động không đáng kể của một hiệp phương sai trong ANCOVA?

Tuy nhiên, không có gì trong câu trả lời cho câu hỏi đó cho thấy rằng các đồng biến không có ý nghĩa bị loại bỏ, vì vậy, ngay bây giờ tôi có xu hướng tin rằng họ nên ở lại. vẫn có thể giải thích một số phương sai (và do đó giúp mô hình) mà không nhất thiết phải giải thích một số tiền vượt quá ngưỡng nào đó (ngưỡng ý nghĩa, mà tôi thấy là không áp dụng cho hiệp phương sai).

Có một câu hỏi khác ở đâu đó trên CV mà câu trả lời dường như ngụ ý rằng các đồng biến phải được giữ trong bất kể tầm quan trọng, nhưng không rõ ràng về điều đó. (Tôi muốn liên kết đến câu hỏi đó, nhưng tôi không thể theo dõi nó một lần nữa.)

Vậy ... Có nên giữ các đồng biến không có ý nghĩa thống kê trong tính toán cho mô hình không? (Tôi đã chỉnh sửa câu hỏi này để làm rõ rằng các đồng biến không bao giờ có trong đầu ra mô hình bằng cách tính toán.)

Để thêm phức tạp, điều gì xảy ra nếu các hiệp phương sai có ý nghĩa thống kê đối với một số tập hợp con của dữ liệu (các tập hợp con phải được xử lý riêng). Tôi sẽ mặc định giữ một đồng biến như vậy, nếu không thì các mô hình khác nhau sẽ phải được sử dụng hoặc bạn sẽ thiếu một hiệp phương sai có ý nghĩa thống kê trong một trong các trường hợp. Tuy nhiên, nếu bạn cũng có câu trả lời cho trường hợp phân chia này, vui lòng đề cập đến nó.


6
Nói chung, tôi sẽ nói rằng bạn nên giữ các biến quan trọng về mặt lý thuyết hoặc có ý nghĩa trong các nghiên cứu trước, mặc dù dữ liệu của bạn không hỗ trợ hiệu quả của chúng. Điều đó đang được nói, để có được câu trả lời cụ thể hơn, tôi nghĩ bạn nên thêm một vài dòng để giải thích mô hình của bạn và mục đích của nó (ví dụ: xác định các yếu tố rủi ro, đưa ra dự đoán, ...).
ocram

Tôi sẽ nói nó phụ thuộc. Các xét nghiệm chỉ là chỉ số. Nếu bạn tin rằng nên có một sự phụ thuộc nhỏ thì hãy nghĩ đến việc giữ trong mô hình. Nếu bạn cũng tin rằng sự phụ thuộc không nên ở đó thì hãy bỏ nó đi.
Bene

OK, vì vậy, cả hai bạn đều nói rằng việc không quan trọng không khiến cho một đồng biến bị loại khỏi xem xét, vì vậy cả hai bạn đã thực sự trả lời câu hỏi của tôi. Tôi thực sự nên viết lại câu hỏi của mình để chỉ rõ hơn rằng những gì tôi đang hỏi là liệu ý nghĩa ổn định của hiệp phương sai có phải là điều kiện cần thiết để giữ nó không ("Không quan trọng của đồng biến có nghĩa là nó nên được loại bỏ ..."), và Tôi sẽ chấp nhận một trong những ý kiến ​​của bạn như là câu trả lời.
Sáng

Tuy nhiên, trước khi tôi làm điều đó, tôi muốn chắc chắn rằng tôi đang sử dụng thuật ngữ đúng. Ban đầu tôi đã viết "giữ trong mô hình", nhưng điều đó có vẻ không đúng vì các đồng biến không bao giờ xuất hiện trong mô hình. Tôi đã giải quyết "giữ trong tính toán cho mô hình " (và "loại bỏ khỏi xem xét "), nhưng có cách nào tốt hơn để nói điều này không? Thuật ngữ phù hợp cho những gì hiệp phương sai đang được lưu giữ hoặc xóa khỏi?
Sáng

3
Bạn sẽ cần xác nhận hiệu suất chính xác của các thủ tục lựa chọn đó. Những người khác đã thất bại.
Frank Harrell

Câu trả lời:


32

Bạn đã nhận được một số câu trả lời tốt. Có những lý do để giữ đồng biến và lý do để bỏ hiệp phương sai. Ý nghĩa thống kê không phải là một yếu tố quan trọng, trong phần lớn các trường hợp.

  1. Covariates có thể có tầm quan trọng thực sự đến mức họ phải ở đó.
  2. Kích thước hiệu ứng của hiệp phương sai có thể cao, ngay cả khi nó không đáng kể.
  3. Hiệp phương sai có thể ảnh hưởng đến các khía cạnh khác của mô hình.
  4. Hiệp phương sai có thể là một phần trong cách giả thuyết của bạn được diễn đạt.

Nếu bạn đang ở chế độ rất khám phá hiệp phương sai không quan trọng trong tài liệu kích thước hiệu ứng là nhỏ hiệp phương sai có ít ảnh hưởng đến mô hình của bạn hiệp phương sai không nằm trong giả thuyết của bạn, thì có lẽ bạn có thể xóa nó chỉ vì đơn giản .


6
Một tình huống rất quan trọng nhưng thường bị bỏ qua được đề cập ở mục số 4 ở đây, nhưng tôi sẽ đánh vần nó. Thông thường - thực sự thường - bạn nên so sánh kết quả của mình với những người lao động trước đó với dữ liệu tương tự. Nếu những người khác tìm thấy các đồng biến cụ thể có giá trị bao gồm trong các mô hình của họ, bạn sẽ muốn so sánh kết quả của mình với kết quả của họ, bất kể các hiệp phương sai của bạn có đạt được mức ý nghĩa (thông thường) hay không. Lưu ý rằng các trường hợp ở đây có thể thay đổi từ (các) mô hình báo cáo mà bạn quyết định không (đặc biệt) tốt đối với (các) mô hình báo cáo mà bạn quyết định là tốt.
Nick Cox

1
Tôi chắc chắn đã nghiêng về 'giữ trong' (và không tạo ra nhiều giá trị p cho đồng biến ở vị trí đầu tiên), nhưng câu trả lời của bạn đưa ra một danh sách kiểm tra rất hay (cũng ... hai) cho một thiểu số đưa ra. Kích thước hiệu ứng là thứ tôi chưa từng xem xét và trong khi tôi đã xem xét các giả thuyết tôi rất thích bạn đưa nó vào, vì những lý do @NickCox đã đề cập và chỉ đơn giản là không khuyến khích câu cá.
Sáng

25

Câu trả lời dài là "có". Có một vài lý do để loại bỏ các yếu tố dự đoán không đáng kể và nhiều lý do không nên. Theo như diễn giải chúng, bạn sẽ bỏ qua -value giống như bạn có thể diễn giải các yếu tố dự đoán khác: với khoảng tin cậy cho các hiệu ứng trên các phạm vi thú vị của yếu tố dự đoán.P


10
Câu trả lời dài là "có"! +1 và LOL.
Peter Flom - Tái lập Monica

Nếu không phải là giá trị p, những lý do khác để loại bỏ các yếu tố dự đoán là gì? Bạn đề cập đến việc diễn giải các khoảng tin cậy, nhưng có vẻ như "phạm vi thú vị" sẽ bằng 0, có nghĩa là mọi người sẽ giải thích các TCTD giống như giá trị p (bao gồm hoặc loại trừ 0).
Đánh dấu trắng

1
Các lý do để loại bỏ các yếu tố dự đoán khi điều này làm biến dạng các thuộc tính thống kê là gì? Không rõ ràng về câu hỏi của bạn và "không".
Frank Harrell

7

Một cái nhìn sâu sắc hữu ích là thực sự không có gì cụ thể về cách nói thống kê, xem ví dụ: Trợ giúp viết các biến số thành công thức hồi quy . Ngẫu nhiên, nó có thể giải thích tại sao không có covariatethẻ. Do đó, tài liệu ở đây và các nơi khác về các thuật ngữ không quan trọng trong mô hình tuyến tính có liên quan, cũng như các nhà phê bình nổi tiếng về hồi quy từng bước, ngay cả khi ANCOVA không được đề cập rõ ràng.

Nói chung, đó là một ý tưởng tồi để chọn dự đoán chỉ dựa trên ý nghĩa. Nếu vì lý do nào đó bạn không thể chỉ định trước mô hình, bạn nên xem xét các phương pháp khác nhưng nếu bạn dự định đưa chúng vào vị trí đầu tiên, thu thập dữ liệu phù hợp và không phải đối mặt với các vấn đề cụ thể (ví dụ như cộng tuyến), chỉ cần giữ chúng.

Về lý do để giữ chúng, những phản đối mà bạn đưa ra dường như có vẻ hợp với tôi. Một lý do khác là việc loại bỏ các yếu tố dự đoán không có ý nghĩa sai lệch dựa trên mô hình. Tuy nhiên, một cách khác để xem xét tất cả những điều này là hỏi những gì sẽ đạt được bằng cách loại bỏ các đồng biến này sau thực tế.


4

Chúng tôi thực sự cần thêm thông tin về mục tiêu của bạn để trả lời câu hỏi này. Các hồi quy được sử dụng cho hai mục đích chính:

  1. Sự dự đoán
  2. Suy luận

Dự đoán là khi mục tiêu của bạn là có thể đoán các giá trị của biến kết quả cho các quan sát không có trong mẫu (mặc dù thông thường chúng nằm trong phạm vi của dữ liệu mẫu, nếu không, đôi khi chúng tôi sử dụng từ "dự báo"). Dự đoán là hữu ích cho mục đích quảng cáo, tài chính, vv Nếu bạn chỉ quan tâm đến việc dự đoán một số biến kết quả, tôi có rất ít để cung cấp cho bạn.

Suy luận là nơi vui vẻ (ngay cả khi đó không phải là nơi có tiền). Suy luận là nơi bạn đang cố gắng đưa ra kết luận về các tham số mô hình cụ thể Thông thường để xác định hiệu ứng nhân quả của một biến này với biến khác. Mặc dù nhận thức chung, phân tích hồi quy không bao giờ đủ cho suy luận nguyên nhân. Bạn phải luôn biết nhiều hơn về quy trình tạo dữ liệu để biết liệu hồi quy của bạn có nắm bắt được hiệu ứng nhân quả hay không. Vấn đề chính cho suy luận nguyên nhân từ hồi quy là liệu trung bình có điều kiện của lỗi (có điều kiện trên các hồi quy) có bằng không. Điều này không thể được biết từ giá trị p trên các biến hồi quy. Có thể có các công cụ ước tính hồi quy không thiên vị hoặc nhất quán, nhưng điều đó đòi hỏi nhiều nỗ lực hơn là chỉ đưa một số điều khiển rõ ràng vào hồi quy và hy vọng bạn có được những điều quan trọng.Nắm vững các số liệu: Con đường từ nguyên nhân đến hiệu quả và chủ yếu là Kinh tế lượng vô hại ). Nắm vững Metrics là dễ đọc hơn và khá rẻ, nhưng được cảnh báo rằng nó không phải là một cách điều trị làm thế nào để hồi quy mà là ý nghĩa của chúng. Để bao quát tốt các ví dụ về thiết kế nghiên cứu quan sát tốt và xấu, tôi đề xuất "Mô hình thống kê và da giày" của David Freedman (1991), Phương pháp xã hội học , tập 21 (một cách ngắn gọn và dễ đọc với các ví dụ hấp dẫn).

Ngoài ra: nỗi ám ảnh về kỹ thuật thống kê đối với thiết kế nghiên cứu tốt trong hầu hết các khóa học đại học là một kiến ​​thức sư phạm của tôi.

Thứ hai sang một bên để thúc đẩy tầm quan trọng hiện tại của vấn đề này: sự khác biệt giữa dự đoán và suy luận là lý do tại sao dữ liệu lớn không thể thay thế cho khoa học.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.