Tôi tự hỏi nếu ai đó có thể cung cấp một số cái nhìn sâu sắc về việc tại sao việc cắt bỏ dữ liệu bị thiếu tốt hơn là chỉ xây dựng các mô hình khác nhau cho các trường hợp thiếu dữ liệu. Đặc biệt là trong trường hợp mô hình tuyến tính [tổng quát] (có lẽ tôi có thể thấy trong các trường hợp phi tuyến tính, mọi thứ đều khác)
Giả sử chúng ta có mô hình tuyến tính cơ bản:
Nhưng tập dữ liệu của chúng tôi chứa một số bản ghi bị thiếu . Trong tập dữ liệu dự đoán nơi mô hình sẽ được sử dụng, cũng sẽ có trường hợp thiếu . Dường như có hai cách để tiến hành:
Nhiều mô hình
Chúng ta có thể chia dữ liệu thành các trường hợp và không và xây dựng một mô hình riêng cho từng trường hợp. Nếu chúng tôi cho rằng có liên quan chặt chẽ với thì mô hình dữ liệu bị thiếu có thể thừa cân để có được dự đoán hai dự đoán tốt nhất. Ngoài ra nếu các trường hợp dữ liệu bị thiếu hơi khác nhau (do cơ chế dữ liệu bị thiếu) thì nó có thể kết hợp sự khác biệt đó. Về mặt trái, hai mô hình chỉ phù hợp với một phần dữ liệu và không "giúp" nhau, do đó, sự phù hợp có thể kém trên các bộ dữ liệu hạn chế.
Tranh chấp
Hồi quy nhiều lần đầu tiên sẽ điền vào bằng cách xây dựng mô hình dựa trên và và sau đó lấy mẫu ngẫu nhiên để duy trì nhiễu trong dữ liệu được liệt kê. Vì đây lại là hai mô hình, nên điều này sẽ không chỉ giống với phương thức nhiều mô hình ở trên? Nếu nó có thể vượt trội hơn - mức tăng đến từ đâu? Có phải là sự phù hợp cho được thực hiện trên toàn bộ tập hợp không?
BIÊN TẬP:
Mặc dù câu trả lời của Steffan cho đến nay giải thích rằng việc phù hợp với mô hình trường hợp hoàn chỉnh trên dữ liệu bị tranh chấp sẽ vượt trội hơn so với việc khớp với dữ liệu hoàn chỉnh và dường như điều ngược lại là đúng, vẫn còn một số hiểu lầm về dự báo dữ liệu bị thiếu.
Nếu tôi có mô hình trên, thậm chí được trang bị hoàn hảo, nhìn chung nó sẽ là một mô hình dự báo khủng khiếp nếu tôi chỉ đặt số 0 khi dự đoán. Ví dụ, hãy tưởng tượng rằng thì hoàn toàn vô dụng ( ) khi có mặt, nhưng vẫn sẽ hữu ích khi không có .
Câu hỏi chính tôi không hiểu là: xây dựng hai mô hình, một mô hình sử dụng và một mô hình sử dụng hay tốt hơn là xây dựng một mô hình (đầy đủ) và sử dụng tranh luận về các bộ dữ liệu dự báo - hoặc đây là những điều tương tự?
Đưa ra câu trả lời của Steffan, có vẻ tốt hơn là xây dựng mô hình trường hợp hoàn chỉnh trên tập huấn luyện bị tranh chấp, và ngược lại, có lẽ tốt nhất là xây dựng mô hình dữ liệu bị thiếu trên tập dữ liệu đầy đủ với bị loại bỏ. Đây có phải là bước thứ hai khác với việc sử dụng mô hình cắt cụt trong dữ liệu dự báo không?