Lợi thế của việc cắt bỏ so với việc xây dựng nhiều mô hình trong hồi quy là gì?


10

Tôi tự hỏi nếu ai đó có thể cung cấp một số cái nhìn sâu sắc về việc tại sao việc cắt bỏ dữ liệu bị thiếu tốt hơn là chỉ xây dựng các mô hình khác nhau cho các trường hợp thiếu dữ liệu. Đặc biệt là trong trường hợp mô hình tuyến tính [tổng quát] (có lẽ tôi có thể thấy trong các trường hợp phi tuyến tính, mọi thứ đều khác)

Giả sử chúng ta có mô hình tuyến tính cơ bản:

Y=β1X1+β2X2+β3X3+ϵ

Nhưng tập dữ liệu của chúng tôi chứa một số bản ghi bị thiếu . Trong tập dữ liệu dự đoán nơi mô hình sẽ được sử dụng, cũng sẽ có trường hợp thiếu . Dường như có hai cách để tiến hành:X3X3

Nhiều mô hình

Chúng ta có thể chia dữ liệu thành các trường hợp và không và xây dựng một mô hình riêng cho từng trường hợp. Nếu chúng tôi cho rằng có liên quan chặt chẽ với thì mô hình dữ liệu bị thiếu có thể thừa cân để có được dự đoán hai dự đoán tốt nhất. Ngoài ra nếu các trường hợp dữ liệu bị thiếu hơi khác nhau (do cơ chế dữ liệu bị thiếu) thì nó có thể kết hợp sự khác biệt đó. Về mặt trái, hai mô hình chỉ phù hợp với một phần dữ liệu và không "giúp" nhau, do đó, sự phù hợp có thể kém trên các bộ dữ liệu hạn chế.X3X3X3X2X2

Tranh chấp

Hồi quy nhiều lần đầu tiên sẽ điền vào bằng cách xây dựng mô hình dựa trên và và sau đó lấy mẫu ngẫu nhiên để duy trì nhiễu trong dữ liệu được liệt kê. Vì đây lại là hai mô hình, nên điều này sẽ không chỉ giống với phương thức nhiều mô hình ở trên? Nếu nó có thể vượt trội hơn - mức tăng đến từ đâu? Có phải là sự phù hợp cho được thực hiện trên toàn bộ tập hợp không?X3X1X2X1

BIÊN TẬP:

Mặc dù câu trả lời của Steffan cho đến nay giải thích rằng việc phù hợp với mô hình trường hợp hoàn chỉnh trên dữ liệu bị tranh chấp sẽ vượt trội hơn so với việc khớp với dữ liệu hoàn chỉnh và dường như điều ngược lại là đúng, vẫn còn một số hiểu lầm về dự báo dữ liệu bị thiếu.

Nếu tôi có mô hình trên, thậm chí được trang bị hoàn hảo, nhìn chung nó sẽ là một mô hình dự báo khủng khiếp nếu tôi chỉ đặt số 0 khi dự đoán. Ví dụ, hãy tưởng tượng rằng thì hoàn toàn vô dụng ( ) khi có mặt, nhưng vẫn sẽ hữu ích khi không có .X2=X3+ηX2β2=0X3X3

Câu hỏi chính tôi không hiểu là: xây dựng hai mô hình, một mô hình sử dụng và một mô hình sử dụng hay tốt hơn là xây dựng một mô hình (đầy đủ) và sử dụng tranh luận về các bộ dữ liệu dự báo - hoặc đây là những điều tương tự?(X1,X2)(X1,X2,X3)

Đưa ra câu trả lời của Steffan, có vẻ tốt hơn là xây dựng mô hình trường hợp hoàn chỉnh trên tập huấn luyện bị tranh chấp, và ngược lại, có lẽ tốt nhất là xây dựng mô hình dữ liệu bị thiếu trên tập dữ liệu đầy đủ với bị loại bỏ. Đây có phải là bước thứ hai khác với việc sử dụng mô hình cắt cụt trong dữ liệu dự báo không?X3

Câu trả lời:


4

Tôi nghĩ chìa khóa ở đây là hiểu cơ chế dữ liệu còn thiếu; hoặc ít nhất là loại trừ một số ra. Xây dựng các mô hình riêng biệt giống như coi các nhóm bị thiếu và không thiếu là các mẫu ngẫu nhiên. Nếu thiếu trên X3 có liên quan đến X1 hoặc X2 hoặc một số biến không quan sát khác, thì ước tính của bạn có thể sẽ bị sai lệch trong mỗi mô hình. Tại sao không sử dụng nhiều lần cắt ngang trên tập dữ liệu phát triển và sử dụng các hệ số kết hợp trên tập dự đoán nhiều lần? Trung bình trên các dự đoán và bạn nên được tốt.


Nhưng nếu thiếu liên quan đến X1 hoặc X2 thì chắc chắn sẽ có hai mô hình riêng biệt - vì chúng sẽ được kết hợp thông tin đó. Điều đó có nghĩa là, khi trong tương lai tôi nhận được một chiếc X3 bị thiếu, tôi sẽ biết được thiên vị theo đúng hướng.
Corone

3

Tôi giả sử rằng bạn quan tâm đến việc có được các ước tính không thiên vị của các hệ số hồi quy. Việc phân tích các trường hợp hoàn chỉnh mang lại các ước tính không thiên vị về các hệ số hồi quy của bạn với điều kiện xác suất X3 bị thiếu không phụ thuộc vào Y. Điều này ngay cả khi xác suất thiếu phụ thuộc vào X1 hoặc X2 và cho bất kỳ loại phân tích hồi quy nào.

Tất nhiên, các ước tính có thể không hiệu quả nếu tỷ lệ các trường hợp hoàn thành là nhỏ. Trong trường hợp đó, bạn có thể sử dụng nhiều lần cắt của X3 cho X2, X1 Y để tăng độ chính xác. Xem Stat Med của White và Carlin (2010) để biết chi tiết.


À, vậy là buộc tội tất cả về việc lấy các hệ số phải không? Bản thân các hệ số không quan tâm đến tôi - Tôi chỉ muốn tối đa hóa khả năng dự đoán của mình trên dữ liệu mới (có thể còn thiếu)
Corone

1
Tốt rồi. Để đạt được công suất dự đoán tối đa, bạn cũng muốn có các ước tính chính xác và không thiên vị về các hệ số mô hình.
Stef van Buuren

Nếu tôi chỉ sử dụng các trường hợp hoàn chỉnh, thì tôi không thể sử dụng mô hình đó để dự đoán khi tôi thiếu dữ liệu, vì các hệ số nói chung sẽ không chính xác (ví dụ: nếu có mối tương quan giữa X2 và X3). Do đó, tôi phải đánh giá X3 khi đưa ra dự đoán hoặc xây dựng mô hình thứ hai chỉ trong X1 & X2. Câu hỏi là nếu điều này dẫn đến dự đoán khác nhau và cái nào tốt hơn?
Corone

À, tôi nghĩ tôi hiểu một điểm bạn đang thực hiện: nếu tôi phù hợp với mô hình cho dự đoán trường hợp hoàn chỉnh bằng cách sử dụng thì việc đó sẽ cải thiện dự báo trường hợp hoàn chỉnh, so với việc khớp với chỉ các trường hợp cạnh tranh. Câu hỏi còn lại là những gì là tốt nhất cho các trường hợp không đầy đủ?
Corone

Giả sử rằng beta_1 = beta_2 = 0 và beta_3 = 1. Chỉ sử dụng X1 và X2 sẽ dự đoán một hằng số, trong khi dự đoán sử dụng X3 sẽ giải thích một số phương sai của Y và do đó dẫn đến sai số dư thấp hơn. Do đó, phiên bản được liệt kê tạo ra dự đoán tốt hơn.
Stef van Buuren

0

Một nghiên cứu của Harvard cho thấy nhiều lần cắt bỏ với năm dự báo về dữ liệu bị thiếu (ở đây là tham chiếu, http: //m.circout results.ahajournals.org/content/3/1/98.full ). Ngay cả sau đó, tôi nhớ lại các nhận xét rằng các mô hình cắt bỏ vẫn có thể không tạo ra các khoảng che cho các tham số mô hình không bao gồm các giá trị cơ bản thực sự!

Với ý nghĩ đó, tốt nhất là sử dụng năm mô hình ngây thơ đơn giản cho giá trị bị thiếu (giả sử không bị thiếu ngẫu nhiên trong cuộc thảo luận hiện tại) tạo ra sự lan truyền tốt của các giá trị, do đó, ít nhất, có thể chứa các tham số thực .

Kinh nghiệm của tôi trong lý thuyết Lấy mẫu là nhiều tài nguyên thường được sử dụng để lấy mẫu dân số không phản hồi, đôi khi, dường như rất khác với dân số phản hồi. Như vậy, tôi sẽ đề xuất một bài tập tương tự trong hồi quy giá trị bị thiếu ít nhất một lần trong lĩnh vực ứng dụng cụ thể. Các mối quan hệ chưa được phục hồi trong một cuộc thăm dò dữ liệu bị thiếu như vậy có thể có giá trị lịch sử trong việc xây dựng các mô hình dự báo dữ liệu bị thiếu tốt hơn cho tương lai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.