Có bao giờ ổn để thả quan sát mất tích?


8

Tôi có một bộ dữ liệu xem xét các đơn xin nhập cư và chấp nhận thị thực (cấp thị thực). Tỷ lệ được tính cho "chấp nhận" và "từ chối" các đơn xin thị thực.

Tuy nhiên, bộ dữ liệu cũng có các giá trị cho các trường hợp đã bị đóng. Thông thường, đây là khi người nhập cư ngừng hiển thị các cuộc hẹn, di cư ở nơi khác hoặc chết. Bởi vì những con số này không được sử dụng khi tỷ lệ được tính toán, tỷ lệ thường hiển thị là thiếu (vì các trường hợp không được chấp nhận cũng không bị từ chối).

Điều đó đang được nói, nếu các trường hợp duy nhất trong năm đó là "nếu không đóng cửa", liệu có bao giờ được bỏ những quan sát này? Một phần của vấn đề mà tôi gặp phải là những năm ngẫu nhiên trong bộ dữ liệu sẽ bị loại bỏ, bởi vì các quyết định duy nhất cho năm đó đã bị đóng.

Các trường hợp đóng cửa khác rất tùy tiện, và như tôi đã đề cập, rất có thể là những trường hợp người nhập cư di cư ở nơi khác, và có lẽ chỉ sử dụng quốc gia đầu tiên làm nơi quá cảnh tạm thời. Dữ liệu không nói cụ thể lý do tại sao những người nhập cư rời đi, tại sao họ bị đóng cửa, v.v. Tôi không thực sự chắc chắn làm thế nào để đối phó với những giá trị còn thiếu này. Tôi không tin rằng các phương pháp cắt bỏ tiêu chuẩn sẽ hoạt động ở đây, do tính toán tỷ lệ (nhưng tôi có thể sai).


1
Bạn sẽ không chỉ thả chúng. Bạn có thể áp dụng nhiều lần cắt cụt. Xem bài viết và sách được đồng tác giả bởi Donald Rubin và Rod Little.
Michael R. Chernick

1
Có phải nhiều lần cắt bỏ giả định dữ liệu bị mất một cách ngẫu nhiên? Là những dữ liệu bị mất ngẫu nhiên? MI luôn ném tôi đi một chút, và đây là một lý do.
EJ16

2
Bạn nêu lên một điểm tốt. Họ phân loại dữ liệu bị thiếu là 1) mất hoàn toàn ngẫu nhiên, 2) thiếu ngẫu nhiên và 3) không thiếu ngẫu nhiên. Những thể loại này được giải thích trong sách của họ. Nếu bạn đọc công việc của họ và hiểu dữ liệu của bạn, bạn sẽ có thể áp dụng phương pháp này đúng cách. Bạn có ba tình huống: người nhập cư ngừng xuất hiện, đi nơi khác hoặc chết. Điều này dường như là không ngẫu nhiên nhưng bạn có thể thấy dựa trên những gì đã xảy ra với họ xác suất chấp nhận.
Michael R. Chernick

Trong trường hợp bạn không chắc chắn liệu dữ liệu của mình là MCAR, MAR hay MNAR, việc xem xét các lô dữ liệu bị thiếu có thể hữu ích. Dưới đây là một ví dụ về việc xây dựng một âm mưu như vậy bằng cách sử dụng gói thống kê ggplot2 và R.
Wes

1
Bạn có thể bao gồm một loại thứ ba, "trường hợp rơi", trong dữ liệu của bạn? Có lẽ sau đó phân tích khác nhau sẽ đối xử với nó khác nhau? Chỉ cần thả có vẻ lạ.
kjetil b halvorsen

Câu trả lời:


6

Sự khác biệt quan trọng là trong trường hợp của bạn không phải là sự phân biệt giữa MCAR, MAR và NMAR, mà là giữa các giá trị thiếu thực và giá trị thiếu cơ học. Các giá trị thực bị thiếu là các giá trị tồn tại, nhưng vì một số lý do không được ghi lại. Các giá trị thiếu cơ học không tồn tại, nhưng cấu trúc hình chữ nhật của bộ dữ liệu buộc chúng tôi phải cung cấp cho nó một giá trị, ví dụ như trạng thái mang thai nếu tập dữ liệu của bạn cũng bao gồm nam giới. Kỹ thuật cắt ngang được thiết kế cho các giá trị thiếu thực sự. Ví dụ của bạn là một trường hợp thiếu giá trị cơ học; quyết định chưa được đưa ra, vì vậy giá trị của nó không tồn tại. Nếu một phần đáng kể người di cư tiếp tục thì đó là một tính năng quan trọng của quá trình di chuyển và việc đưa ra các giá trị đó sẽ che giấu tính năng đó.


Tuy nhiên, không giống như mang thai nam, có thể có quyết định chấp nhận / từ chối trong trường hợp người ta chết, di chuyển hoặc ngừng xuất hiện. Trong phân tích sinh tồn, những điều này có thể được coi là thông minh như các trường hợp bị kiểm duyệt, với điều kiện là sự kiểm duyệt là không chính xác. Tôi tự hỏi nếu có một số cách để kết hợp tình trạng kiểm duyệt trong phân tích cho trường hợp này trong tay.
EdM

Maarten, cảm ơn bạn rất nhiều. Nó có ý nghĩa. Tôi cũng nghĩ rằng có lẽ đó là một hình thức kiểm duyệt (ví dụ như cái chết của người di cư). Nhưng tôi không hiểu "việc đưa ra các giá trị đó ẩn giấu tính năng đó là gì." Nếu vậy, các tùy chọn khác là gì? Tôi vẫn đang gãi đầu.
EJ16

Có lẽ, và những người đã được ghi nhận là chấp nhận / từ chối. Nhưng có những năm không có quyết định nào được đưa ra, và quyết định duy nhất được đưa ra là "nếu không thì đóng cửa". Vì vậy, đó là phần mà tôi đang bị mắc kẹt tại thời điểm này.
EJ16

Maarten, đừng bận tâm. Tôi đọc lại câu trả lời và bây giờ tôi hiểu rằng MI sẽ không đủ cho việc này. Hiện tại nó cho thấy khoảng một nửa các trường hợp được đóng lại và do đó mất tích. Tôi đoán câu hỏi của tôi vẫn là phải làm gì với những trường hợp này, bởi vì quy trình chuẩn không được đưa chúng vào tính toán tỷ lệ.
EJ16

+1 Câu trả lời hay. Một điểm đáng chú ý là các MV "cơ học" thường được gọi là "số không cấu trúc" hoặc giá trị null, ít nhất là trong tài liệu của Hoa Kỳ.
Mike Hunter

1

Rõ ràng là một sự pha trộn của ít nhất 2 quá trình mất tích khác nhau.

  1. Những người chết vì thủ tục không liên quan đến nguyên nhân / từ bỏ / vv. do các lý do khác hơn là kết quả có thể của thủ tục. Ở đây một số tranh luận theo MAR có ý nghĩa (nếu bạn có thể xác định rõ các trường hợp).
  2. Những người từ bỏ / rút / bỏ học do không hoàn thành một số quy tắc và / hoặc nghĩ rằng họ khó có thể thành công hoặc điều đó quá rắc rối. Ở đây nó phụ thuộc vào việc bạn có thể từ dữ liệu bạn đã đánh giá cơ hội của họ nếu họ tiếp tục. Nếu bạn có thể giả định MAR là tốt, nếu không bạn có một tình huống MNAR khó khăn.

Làm gì với MNAR là khó. Giả sử những trường hợp như vậy không có thành công có thể là một chút cực đoan (hoặc rất phù hợp, sau tất cả chúng đã không thành công). Hoặc áp đặt theo MAR và xem xét làm cho các trường hợp này ít thành công hơn cho đến khi bạn đạt 0% và dự tính phạm vi giá trị đó.


Thật. Ban đầu, tôi tin rằng dữ liệu là MNAR. Tuy nhiên, tôi nghĩ rằng Maarten đã đúng. Chỉ có điều nó khiến tôi bối rối hơn một chút về việc phải làm gì với các số không cấu trúc.
EJ16
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.