80% dữ liệu bị thiếu trong một biến


12

Có một biến trong dữ liệu của tôi có 80% dữ liệu bị thiếu. Dữ liệu bị thiếu vì không tồn tại (tức là công ty nợ bao nhiêu ngân hàng). Tôi đã đi qua một bài báo nói rằng phương pháp điều chỉnh biến giả là giải pháp cho vấn đề này. Có nghĩa là tôi cần chuyển đổi biến liên tục này thành phân loại?

Đây có phải là giải pháp duy nhất? Tôi không muốn bỏ biến này vì tôi nghĩ về mặt lý thuyết, nó quan trọng đối với câu hỏi nghiên cứu của tôi.

Cảm ơn.

Câu trả lời:


19

Là dữ liệu "thiếu" theo nghĩa là không xác định hoặc nó chỉ có nghĩa là không có khoản vay (vì vậy số tiền cho vay bằng không)? Nghe có vẻ như sau này, trong trường hợp bạn cần một hình nộm nhị phân bổ sung để cho biết liệu có một khoản vay. Không cần chuyển đổi số tiền cho vay (ngoài ra, có lẽ, từ một biểu hiện lại liên tục, chẳng hạn như một bản ghi gốc hoặc nhật ký bắt đầu, có thể được biểu thị bằng các cân nhắc khác).

Điều này hoạt động tốt trong một hồi quy. Một ví dụ đơn giản là một mô hình khái niệm của mẫu

dependent variable (Y) = loan amount (X) + constant.

Với việc bổ sung chỉ số cho vay ( ), mô hình hồi quy làI

Y=βII+βXX+β0+ϵ

với lỗi đại diện ngẫu nhiên với không mong đợi. Các hệ số được hiểu là:ϵ

là kỳ vọng của Y đối với các tình huống không cho vay, bởi vì các trường hợp này được đặc trưng bởi X = 0 I = 0 .β0YX=0I=0

là sự thay đổi bên lề trong Y đối với số tiền vay (với X ).βXYX

là đánh chặn các trường hợp với các khoản vay.βI+β0


2
Họ sẽ không bị coi là mất tích, họ sẽ ước tính giá trị cho khoản vay. Có lẽ bạn đã không cho vay 'NA' trong trường hợp bạn cần mã hóa lại thành 0.
John

2
@ John Cảm ơn bạn, đó chính xác là những gì tôi muốn giới thiệu. Vấn đề là thể hiện các giá trị cho vay ( ) theo bất kỳ cách nào phù hợp (chẳng hạn như nhật ký (số tiền + 1)) và đặt X = 0I = 1 cho mọi trường hợp mà không cần vay. Đây là một kỹ thuật tiêu chuẩn trong hồi quy, bao gồm hồi quy logistic. XX=0I=1
whuber

3
@ lcl23 Nếu tôi hiểu chính xác tình huống, việc buộc tội sẽ vô nghĩa: dữ liệu "mất tích" của bạn không bị thiếu; họ chỉ ra rằng không có khoản vay nào đã được đưa ra.
whuber

1
@Bakaburg Tôi nghĩ rằng bạn có thể đã nhận được nó ngược, nhưng không thành vấn đề - hai mô hình (sử dụng so với I ( X = 0 ) ) sẽ tương đương nhau. Các giá trị dự đoán trong các mô hình có và không có chỉ báo như vậy sẽ khác nhau, vì vậy tôi không hiểu bạn đang cố gắng hỏi gì. Lưu ý rằng "không tồn tại" khác biệt sâu sắc với "không tồn tại"! Nếu giới hạn phát hiện của bạn đủ nhỏ, không cần phải giới thiệu hình nộm cho chúng; và nếu có nhu cầu, thì việc giới thiệu một hình nộm có thể hơi quá thô thiển. Trong trường hợp đó, hãy xem xét các phương pháp phân tích dữ liệu bị kiểm duyệt hoặc dữ liệu có giá trị thay thế.I(X=1)I(X=0)

1
Câu trả lời là ngay tại đây. Khi hình nộm là , giá trị β I được thêm vào dự đoán. Khi hình nộm bằng 0 , giá trị đó giảm xuống. Thats tất cả để có nó. 1βI0
whuber

1

Tôi nghĩ rằng bạn đã hiểu nhầm đề xuất của bài viết: chủ yếu là vì gợi ý không có ý nghĩa. Sau đó, bạn sẽ có hai vấn đề: làm thế nào để mã hóa lại một biến và các giá trị của nó vẫn còn thiếu. Những gì có lẽ đã được đề xuất là để tạo ra một chỉ số mất tích .

Một cách tiếp cận có liên quan để xử lý dữ liệu bị thiếu phù hợp với mô tả này là điều chỉnh cho một chỉ báo thiếu . Đây chắc chắn là một cách tiếp cận đơn giản và dễ dàng, nhưng nói chung nó là thiên vị. Sự thiên vị có thể không bị ràng buộc trong tính xấu của nó. Điều này thực sự phù hợp với hai mô hình và trung bình các hiệu ứng của chúng với nhau: mô hình đầu tiên là mô hình có điều kiện đầy đủ , mô hình thứ hai là một mô hình nhân tố hoàn chỉnh. Mô hình có điều kiện đầy đủ là mô hình trường hợp hoàn chỉnh trong đó mỗi quan sát bị xóa có các giá trị bị thiếu. Vì vậy, nó phù hợp với một tập hợp con 20% của dữ liệu. Thứ hai là phù hợp với 80% còn lại không điều chỉnh cho giá trị còn thiếu. Mô hình cận biên này ước tính các hiệu ứng tương tự như mô hình đầy đủ khi không có tương tác không được đo lường, khi chức năng liên kết có thể thu gọn và khi dữ liệu bị mất ngẫu nhiên (MAR). Những hiệu ứng này sau đó được kết hợp bởi một trung bình có trọng số. Ngay cả trong điều kiện lý tưởng, không có tương tác không được đo lường và thiếu hoàn toàn dữ liệu ngẫu nhiên (MCAR), cách tiếp cận chỉ báo bị thiếu dẫn đến các hiệu ứng sai lệch vì mô hình cận biên và mô hình có điều kiện ước tính các hiệu ứng khác nhau. Ngay cả dự đoán là thiên vị trong trường hợp này.

Một sự thay thế tốt hơn nhiều là chỉ sử dụng nhiều lần cắt cụt. Ngay cả khi yếu tố bị thiếu hầu hết được đo ở mức độ phổ biến rất thấp, MI vẫn thực hiện công việc tương đối tốt để tạo ra những nhận thức tinh vi về những giá trị có thể có được. Giả định cần thiết duy nhất ở đây là MAR.


"Chức năng liên kết có thể thu gọn" nghĩa là gì?
Matthew Drury

1
@MatthewDrury về cơ bản, "độ sụp đổ" có nghĩa là việc điều chỉnh các biến dự đoán kết quả nhưng không phải (các) hiệu ứng chính sẽ tăng độ chính xác, nhưng không thay đổi hiệu quả ước tính.
AdamO

Thật tuyệt, cảm ơn Adam. Chưa từng nghe thuật ngữ đó trước đây.
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.