Một cuộc thảo luận chắc chắn hơn về lựa chọn biến


55

Lý lịch

Tôi đang làm nghiên cứu lâm sàng trong y học và đã tham gia một vài khóa học thống kê. Tôi chưa bao giờ xuất bản một bài báo sử dụng hồi quy tuyến tính / logistic và muốn thực hiện lựa chọn biến chính xác. Khả năng diễn giải là quan trọng, vì vậy không có kỹ thuật máy học ưa thích. Tôi đã tóm tắt sự hiểu biết của tôi về lựa chọn biến - liệu ai đó có thể làm sáng tỏ bất kỳ quan niệm sai lầm nào không? Tôi đã tìm thấy hai (1) bài viết CV tương tự (2) bài này, nhưng họ không trả lời đầy đủ mối quan tâm của tôi. Bất kỳ suy nghĩ sẽ được nhiều đánh giá cao! Tôi có 3 câu hỏi chính ở cuối.

Vấn đề và thảo luận

Vấn đề hồi quy / phân loại điển hình của tôi có 200-300 quan sát, tỷ lệ sự kiện bất lợi là 15% (nếu phân loại) và thông tin về 25 trong số 40 biến được cho là có tác dụng "có ý nghĩa thống kê" trong tài liệu hoặc có lý ý thức theo kiến ​​thức tên miền.

Tôi đặt "ý nghĩa thống kê" trong ngoặc kép, vì có vẻ như mọi người và mẹ của họ sử dụng hồi quy từng bước, nhưng Mitchell (3) và Flom (4) dường như không thích nó vì một số lý do chính đáng. Điều này được hỗ trợ thêm bởi một cuộc thảo luận bài viết trên blog Gelman (5). Có vẻ như thời gian thực duy nhất mà từng bước được chấp nhận là nếu đây thực sự là phân tích thăm dò, hoặc một người quan tâm đến dự đoán và có một kế hoạch xác nhận chéo có liên quan. Đặc biệt là vì nhiều bệnh đi kèm trong y học bị ảnh hưởng và các nghiên cứu bị kích thước mẫu nhỏ, nên tôi hiểu rằng sẽ có rất nhiều kết quả dương tính giả trong tài liệu; điều này cũng làm cho tôi ít tin tưởng vào tài liệu cho các biến tiềm năng bao gồm.

Một cách tiếp cận phổ biến khác là sử dụng một loạt các hồi quy / liên kết đơn biến giữa các yếu tố dự đoán và biến độc lập làm điểm bắt đầu. dưới một ngưỡng cụ thể (giả sử, p <0,2). Điều này có vẻ không chính xác hoặc ít nhất là sai lệch vì những lý do được nêu trong bài đăng StackExchange này (6).

Cuối cùng, một cách tiếp cận tự động xuất hiện phổ biến trong học máy là sử dụng hình phạt như L1 (Lasso), L2 (Sườn) hoặc L1 + L2 (Mạng đàn hồi). Hiểu biết của tôi là những điều này không có cách hiểu dễ dàng như OLS hoặc hồi quy logistic.

Gelman + Hill đề xuất như sau:

gelman

Trong khóa học Thống kê của mình, tôi cũng nhớ lại bằng cách sử dụng các bài kiểm tra F hoặc Phân tích sai lệch để so sánh các mô hình đầy đủ và lồng nhau để thực hiện lựa chọn mô hình / biến theo biến. Điều này có vẻ hợp lý, nhưng phù hợp với các mô hình lồng nhau tuần tự một cách có hệ thống để tìm ra các biến gây ra sự sai lệch lớn nhất trên mỗi df có vẻ như nó có thể dễ dàng tự động (vì vậy tôi hơi lo ngại) và cũng có vẻ như nó gặp phải vấn đề về thứ tự bạn kiểm tra bao gồm biến. Hiểu biết của tôi là điều này cũng nên được bổ sung bằng cách điều tra tính đa hình và các lô dư (dư so với dự đoán).

Câu hỏi:

  1. Là Gelman tóm tắt con đường để đi? Những gì bạn sẽ thêm hoặc thay đổi trong chiến lược đề xuất của mình?

  2. Bên cạnh suy nghĩ đơn thuần về các tương tác và biến đổi tiềm năng (có vẻ rất thiên vị / lỗi / thiếu sót), có cách nào khác để khám phá những tương tác tiềm năng không? Spline hồi quy thích ứng đa biến (MARS) được khuyến nghị cho tôi, nhưng tôi được thông báo rằng các phi tuyến / biến đổi không chuyển thành các biến giống nhau trong mô hình hồi quy chuẩn.

  3. Giả sử mục tiêu của tôi rất đơn giản: giả sử, "Tôi muốn ước tính liên kết của X1 trên Y, chỉ chiếm X2". Có đủ để chỉ đơn giản là hồi quy Y ~ X1 + X2, báo cáo kết quả mà không cần tham khảo khả năng dự đoán thực tế (như có thể được đo bằng RMSE xác thực chéo hoặc các biện pháp chính xác)? Điều này có thay đổi hay không tùy thuộc vào tỷ lệ sự kiện hoặc kích thước mẫu hoặc nếu R ^ 2 siêu thấp (tôi biết rằng R ^ 2 không tốt vì bạn luôn có thể tăng nó bằng cách quá mức)? Tôi thường quan tâm nhiều hơn đến suy luận / khả năng diễn giải hơn là tối ưu hóa sức mạnh dự đoán.

Kết luận ví dụ:

  1. "Kiểm soát X2, X1 không có ý nghĩa thống kê liên quan đến Y so với mức tham chiếu của X1." (hệ số hồi quy logistic)
  2. "X1 không phải là một yếu tố dự đoán có ý nghĩa thống kê của Y vì trong mô hình giảm độ lệch là không đủ so với sự thay đổi trong df." (Phân tích sai lệch)

Là xác nhận chéo luôn luôn cần thiết? Trong trường hợp đó, người ta cũng có thể muốn thực hiện một số cân bằng các lớp thông qua SMOTE, lấy mẫu, v.v.



6
Có hay không một cái gì đó có thể được tự động hóa (hiện tại - trước sự ra đời của AI mạnh mẽ) tấn công tôi như một cá trích đỏ.
gung - Phục hồi Monica

7
+1 cho một câu hỏi rất chu đáo. Một điều mà đánh giá của bạn chứng minh là không có công thức hoặc sách nấu ăn tiêu chuẩn để lựa chọn biến. Mỗi người có một cách tiếp cận khác nhau và tập hợp các thực hành "tốt nhất". Sau đó, có một sự khác biệt rất quan trọng giữa mô hình lý thuyết hoặc dân số so với mô hình dựa trên kinh nghiệm - những khung khác nhau này hiếm khi căn chỉnh và thật dễ dàng để kết hợp chúng. Mối quan tâm của bạn về việc "mất tích" một cái gì đó không phải là không có cơ sở nhưng thực tế là một câu trả lời dứt khoát, không rõ ràng chỉ đơn giản là không tồn tại. Các cách tiếp cận bạn đã đánh giá được ghi lại rộng rãi, chọn một
Mike Hunter

4
Harrell, Flom, & Kolassa; nó được thành lập sau đó.
gung - Phục hồi Monica

4
Re Gelman & Hill's 4 (b): Harrell, RMS 1st edn, p60: "Một vấn đề cuối cùng với lựa chọn biến được minh họa bằng cách so sánh phương pháp này [sc. Stepwise] với cách hợp lý mà nhiều nhà kinh tế phát triển mô hình hồi quy. chỉ xóa những biến không đáng kể và có hệ số hồi quy có hướng không thể kiểm soát được ". Và tôi dường như nhớ lại rằng Steyerberg sẽ viết một bài báo về nó. [Sẽ cố gắng tìm ref. khi tôi có cơ hội.]
Scortchi - Tái lập Monica

Câu trả lời:


46

Andrew Gelman chắc chắn là một cái tên được tôn trọng trong thế giới thống kê. Các nguyên tắc của ông phù hợp chặt chẽ với một số nghiên cứu mô hình nhân quả đã được thực hiện bởi các "tên tuổi lớn" khác trong lĩnh vực này. Nhưng tôi nghĩ rằng nếu bạn quan tâm đến nghiên cứu lâm sàng, bạn nên tham khảo các nguồn khác.

Tôi đang sử dụng từ "nhân quả" một cách lỏng lẻo (cũng như những người khác) bởi vì có một ranh giới tốt mà chúng ta phải rút ra giữa việc thực hiện "suy luận nguyên nhân" từ dữ liệu quan sát và khẳng định mối quan hệ nhân quả giữa các biến. Tất cả chúng ta đều đồng ý RCT là cách chính để đánh giá quan hệ nhân quả. Chúng tôi hiếm khi điều chỉnh bất cứ điều gì trong các thử nghiệm như vậy theo giả định ngẫu nhiên, với một vài ngoại lệ ( Senn, 2004 ). Các nghiên cứu quan sát có tầm quan trọng và tiện ích của chúng ( Weiss, 1989 ) và cách tiếp cận dựa trên phản tác dụng để suy luận từ dữ liệu quan sát được chấp nhận như một cách tiếp cận triết học để làm như vậy ( Höfler, 2005 ). Nó thường xấp xỉ rất gần với hiệu quả sử dụng được đo bằng RCT ( Anglemyer, 2014 ).

Do đó, tôi sẽ tập trung vào các nghiên cứu từ dữ liệu quan sát. Quan điểm tranh luận của tôi với các khuyến nghị của Gelman là: tất cả các yếu tố dự đoán trong một mô hình và mối quan hệ nhân quả tích cực của chúng giữa một lần quan tâm duy nhất và một kết quả quan tâm duy nhất nên được chỉ định apriori . Việc đưa vào và loại trừ các đồng biến dựa trên mối quan hệ giữa một tập hợp các kết quả chính thực sự tạo ra một trường hợp đặc biệt của 'lưới thống kê của Munchausen' ( Martin, 1984 ). Một số tạp chí (và xu hướng đang bắt kịp) sẽ từ chối bất kỳ bài viết nào sử dụng hồi quy từng bước để xác định một mô hình cuối cùng ( Babyak, 2004 ), và tôi nghĩ rằng vấn đề được nhìn thấy theo cách tương tự ở đây.

Lý do đưa vào và loại trừ các đồng biến trong một mô hình được thảo luận trong: Quan hệ nhân quả của Judea Pearl ( Pearl, 2002 ). Nó có lẽ là một trong những văn bản tốt nhất xung quanh để hiểu các nguyên tắc suy luận thống kê, hồi quy và điều chỉnh đa biến. Ngoài ra, thực tế mọi thứ của Sanders và Greenland đều được chiếu sáng, đặc biệt là cuộc thảo luận của họ về vấn đề gây nhiễu được bỏ qua một cách đáng tiếc từ danh sách khuyến nghị này ( Greenland et al. 1999). Các biến số cụ thể có thể được gán nhãn dựa trên mối quan hệ đồ họa với mô hình nhân quả. Các chỉ định như tiên lượng, gây nhiễu hoặc các biến chính xác đảm bảo bao gồm như là hiệp phương sai trong các mô hình thống kê. Các hòa giải, máy va chạm hoặc các biến nằm ngoài con đường nhân quả nên được bỏ qua. Các định nghĩa của các thuật ngữ này được thực hiện nghiêm ngặt với nhiều ví dụ trong Nhân quả.

Dựa trên nền tảng nhỏ này, tôi sẽ giải quyết từng điểm một.

  1. Đây thường là một cách tiếp cận hợp lý với một cảnh báo CHÍNH: các biến này KHÔNG phải là trung gian của kết quả. Ví dụ, nếu bạn đang kiểm tra mối quan hệ giữa hút thuốc và thể lực, và bạn điều chỉnh chức năng phổi, điều đó làm giảm tác dụng của việc hút thuốc vì tác động trực tiếp đến thể dục là làm giảm chức năng phổi. Điều này KHÔNG nênbị nhầm lẫn với bối rối trong đó biến thứ ba là nguyên nhân của yếu tố dự đoán lợi ích VÀ kết quả của sự quan tâm. Các yếu tố gây nhiễu phải được đưa vào mô hình. Ngoài ra, điều chỉnh quá mức có thể gây ra nhiều dạng sai lệch trong phân tích. Hòa giải và các yếu tố gây nhiễu được coi là như vậy KHÔNG phải vì những gì được tìm thấy trong các phân tích, mà bởi vì những gì BẠN TIN TƯỞNG là chuyên gia về vấn đề (SME). Nếu bạn có 20 quan sát trên mỗi biến hoặc ít hơn hoặc 20 quan sát cho mỗi sự kiện trong các phân tích theo thời gian hoặc sự kiện, bạn nên xem xét các phương pháp có điều kiện thay thế.

  2. Đây là một cách tiếp cận tiết kiệm năng lượng tuyệt vời mà không quá phức tạp như điều chỉnh điểm xu hướng hoặc phân tích SEM hoặc hệ số. Tôi chắc chắn sẽ khuyên bạn nên làm điều này bất cứ khi nào có thể.

  3. Tôi không đồng ý hết lòng. Điểm điều chỉnh cho các biến khác trong phân tích là tạo ra các tầng để so sánh là có thể. Theo quan điểm của tôi, việc nhầm lẫn giữa các mối quan hệ gây nhiễu không dẫn đến các phân tích quá thiên vị, do đó, việc gây nhiễu còn lại từ các thuật ngữ tương tác bị bỏ qua là, theo kinh nghiệm của tôi, không phải là một vấn đề lớn. Tuy nhiên, bạn có thể xem xét các thuật ngữ tương tác giữa người dự đoán sở thích và các biến khác như một phân tích hậu hoc. Đây là một thủ tục tạo giả thuyết có nghĩa là để tinh chỉnh bất kỳ phát hiện có thể (hoặc thiếu nó) như là một. có khả năng thuộc về một nhóm con hoặc b. liên quan đến một tương tác cơ học giữa hai yếu tố môi trường và / hoặc di truyền.

  4. Tôi cũng không đồng ý với điều này. Nó không trùng với cách tiếp cận dựa trên phân tích xác nhận để hồi quy. Bạn là doanh nghiệp vừa và nhỏ. Các phân tích nên được thông báo bởi CÂU HỎI chứ không phải DATA. Tự tin tuyên bố những gì bạn tin là sẽ xảy ra, dựa trên mô tả bằng hình ảnh của mô hình nguyên nhân (sử dụng DAG và các nguyên tắc liên quan từ Pearl và cộng sự), sau đó chọn các yếu tố dự đoán cho mô hình quan tâm, phù hợp và thảo luận của bạn. Chỉ là một phân tích thứ cấp, bạn nên xem xét phương pháp này, thậm chí cả.

Vai trò của học máy trong tất cả những điều này rất gây tranh cãi. Nói chung, học máy tập trung vào dự đoán và không suy luận là những cách tiếp cận riêng biệt để phân tích dữ liệu. Bạn có quyền rằng việc giải thích các hiệu ứng từ hồi quy bị phạt không dễ dàng được giải thích cho một cộng đồng phi thống kê, không giống như các ước tính từ OLS, trong đó 95% các TCTD và ước tính hệ số cung cấp thước đo liên kết.

Việc giải thích hệ số từ mô hình OLS Y ~ X rất đơn giản: đó là độ dốc, sự khác biệt dự kiến ​​trong các nhóm so sánh Y khác nhau 1 đơn vị trong X. Trong mô hình điều chỉnh đa biến Y ~ X1 + X2, chúng tôi sửa đổi điều này thành điều kiện độ dốc: đó là một sự khác biệt dự kiến ​​trong Y so sánh các nhóm khác nhau bởi 1 đơn vị trong X1 có cùng giá trị X2. Về mặt hình học, việc điều chỉnh cho X2 dẫn đến các tầng hoặc "mặt cắt" riêng biệt của ba không gian nơi chúng ta so sánh X1 với Y, sau đó chúng ta lấy trung bình các phát hiện qua từng tầng đó. Trong R, coplothàm rất hữu ích để hiển thị các quan hệ như vậy.


Thực sự đánh giá cao bình luận chi tiết của bạn - Tôi chưa bao giờ có ai trả lời các câu hỏi của tôi chi tiết như vậy trước đây. Tôi đang đi qua các liên kết của bạn bây giờ!
sharper_image

1
(+1) Ở điểm số 1: G & H có nói đây là "các nguyên tắc chung để xây dựng mô hình hồi quy cho dự đoán " [chữ nghiêng của tôi] vì vậy bạn không cần phải áp dụng. (Có lẽ những người hút thuốc hiếm hoi có chức năng phổi tốt thực sự có xu hướng đặc biệt phù hợp.) Khi họ bắt đầu thảo luận về các mô hình nguyên nhân, họ đưa ra quan điểm tương tự (Ch. 9.7).
Scortchi - Phục hồi Monica

2
(+1) Phản ứng nổi bật, AdamO! Đánh giá cao rằng bạn đã hoàn thành một khối lượng công việc khổng lồ, tôi tự hỏi liệu bạn có nói gì thêm về tình trạng áp dụng hiện tại của chính sách tạp chí mà bạn đề cập không. Tôi vẫn bay vào cơn thịnh nộ khi nhìn thấy từ 'từng bước một' trong các tạp chí JAMA. Bạn có thể trích dẫn một bài xã luận về chính sách này?
David C. Norris

2
@ DavidC.Norris "Đo lường giáo dục và tâm lý" là tạp chí được đề cập và than ôi, bài báo Babyak chỉ thảo luận về hồi quy từng bước tự động . Tôi đã thấy trong một số bài báo các tác giả thảo luận về cách tiếp cận "thực hành" của họ để bao gồm và cải tiến các mô hình là "từng bước" (mặc dù không tự động). Tôi sẽ tranh luận rằng họ đã mô tả chính xác quy trình họ đã sử dụng, nhưng tôi vẫn có những tranh cãi nghiêm trọng với phương pháp này.
AdamO

1/2 +1 Câu trả lời đáng yêu. Một câu hỏi nhỏ: "Các yếu tố gây nhiễu phải được đưa vào các mô hình." Tùy thuộc vào các mối quan hệ nhân quả cụ thể liên quan đến việc làm như vậy có thể làm sai lệch các mối liên hệ khỏi ước tính nguyên nhân. Ví dụ: trong DAG được mô tả bởi , U hoặc Y và (iii) trước A & YLMộtBạn1LBạn1MộtBạn2YBạn2LLMộtYMộtYMộtYE[Y|Một,L]Một-Bạn1-L-Bạn2-Y

9

Câu hỏi tuyệt vời này và câu trả lời toàn diện của @ AdamO là một ví dụ điển hình về cách CV thường xuyên làm mới niềm tin của tôi vào nhân loại. Tôi sẽ nhắm đến đây chủ yếu để cung cấp một số cách để đánh giá cao câu trả lời đó (và câu hỏi của OP) trong bối cảnh rộng hơn.

Đầu tiên, tôi mạo hiểm để khẳng định rằng tất cả những lời khuyên đáng tin cậy về thực hành thống kê là cảnh trong tự nhiên - pro scriptive hơn trước scriptive. Ví dụ, Gelman & Hill # 3, trong khi nó đọc một cách hời hợt như lời khuyên nên chủ động làm điều gì đó ("xem xét"), thực sự được hiểu rõ hơn là cảnh báo chống lại việc không xem xét các tương tác với các hiệu ứng mạnh mẽ. Hiểu theo trực giác là một sự hấp dẫn đối với trực giác liên quan đến việc chọn các thuật ngữ quan trọng nhất trong bản mở rộng loạt Taylor (đa biến) , nó dường như không thể chối cãi đối với tôi.

Thứ hai, trong khi OP đang bận rộn để có được một nền giáo dục tốt hơn so với hầu hết các nhà sinh học tiến sĩ (bằng cách theo dõi các trích dẫn của AdamO), OP cũng có thể chọn Mô hình thống kê và suy luận nguyên nhân của David A. Friedman [1], trong đó sẽ có một thách thức lành mạnh tìm thấy giả định rằng hồi quy nên là công cụ chính của chúng tôi trong nghiên cứu lâm sàng. Tôi đặc biệt khuyến nghị Chương 3, "Mô hình thống kê và Giày da", cũng có sẵn ở dạng đã xuất bản trước đây [2] tại đây . (Đừng để tên tạp chí tắt bạn; những bài học quan trọng rút ra là từ các cuộc điều tra của John Snow về bệnh tả. Xem thêm câu trả lời này , nơi những bài học này được trình bày chi tiết.)

Cuối cùng - và có lẽ đây thực sự là một hệ quả tất yếu đối với Freedman - cần đề cập rằng ví dụ 'kết luận' được OP đưa ra sẽ thực sự thuộc về phần Kết quả của bài báo. Sẽ là lành mạnh nhất để xem xét càng sớm càng tốt làm thế nào các phần Kết luậnThảo luận thực sự của bài báo sẽ được truyền đạt, để các bác sĩ, phương tiện truyền thông, và thậm chí là số lượng bệnh nhân và những người ủng hộ giáo dân của họ ngày càng hùng dũng lao động để đọc các tài liệu y tế. Việc duy trì sự tập trung vào điểm cuối đó sẽ giúp định hình một cách hữu ích công việc kỹ thuật của phân tích thống kê và giữ cho nó có cơ sở trong thực tế của thế giới mà nó nhắm đến để mô tả, và nhu cầu mà nó nhắm đến để phục vụ.


  1. Freedman, David, David Collier, Jasjeet Singh Sekhon và Philip B. Stark. Mô hình thống kê và suy luận nguyên nhân: Đối thoại với khoa học xã hội. Cambridge; New York: Nhà xuất bản Đại học Cambridge, 2010.

  2. Freedman, mô hình thống kê David A. và giày da. Phương pháp xã hội học 21 (1991): 291 Từ313. doi: 10.2307 / 270939.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.