Hai thế giới va chạm: Sử dụng ML cho dữ liệu khảo sát phức tạp


14

Tôi gặp phải vấn đề có vẻ dễ dàng, nhưng tôi đã không tìm thấy một giải pháp phù hợp trong vài tuần nay.

Tôi có khá nhiều dữ liệu khảo sát / khảo sát (hàng chục nghìn người được hỏi, ví dụ 50 nghìn cho mỗi tập dữ liệu), đến từ một thứ mà tôi hy vọng được gọi là khảo sát được thiết kế phức tạp với trọng số, phân tầng, định tuyến cụ thể, v.v. Đối với mỗi người trả lời, có hàng trăm biến như nhân khẩu học (tuổi, khu vực ...) và sau đó chủ yếu là các biến nhị phân (nhiều nhất là phân loại).

Tôi đến nhiều hơn từ khoa học máy tính / nền tảng học máy và tôi đã phải học rất nhiều về phương pháp và thống kê khảo sát cổ điển . Bây giờ tôi muốn áp dụng học máy cổ điển vào những dữ liệu đó (ví dụ: dự đoán một số giá trị còn thiếu cho tập hợp con của người trả lời - về cơ bản là phân loại nhiệm vụ). Nhưng, giữ và kìa, tôi không thể tìm ra cách phù hợp để làm điều đó. Làm thế nào tôi nên kết hợp các tầng, trọng lượng hoặc định tuyến (như: nếu câu hỏi 1 trả lời với tùy chọn 2, hỏi câu hỏi 3, nếu không thì bỏ qua nó)?

Đơn giản chỉ cần áp dụng các mô hình của tôi (cây, hồi quy logistic, SVM, XGBoost ...) có vẻ nguy hiểm (và, chúng thất bại trong hầu hết các trường hợp), vì chúng thường cho rằng dữ liệu đến từ mẫu ngẫu nhiên hoặc iid đơn giản.

Rất nhiều phương pháp ít nhất có trọng lượng, nhưng nó không giúp được gì nhiều. Hơn nữa, không rõ làm thế nào tôi nên kết hợp các lớp và trọng số không cân bằng được đưa ra bởi định nghĩa khảo sát với nhau, không nói về những thứ phân tầng đó. Hơn nữa, các mô hình kết quả nên được hiệu chỉnh tốt - phân phối dự đoán phải rất gần với mô hình ban đầu. Hiệu suất dự đoán tốt không phải là tiêu chí duy nhất ở đây. Tôi cũng đã thay đổi số liệu tối ưu hóa để tính đến điều này (chẳng hạn như khoảng cách phân phối dự đoán từ phân phối thực + độ chính xác / MCC) và nó đã giúp ích trong một số trường hợp, tại sao làm tê liệt hiệu suất ở những người khác.

Có một số cách kinh điển làm thế nào để đối phó với vấn đề này? Nó có vẻ như là một lĩnh vực nghiên cứu được đánh giá thấp cho tôi. IMO nhiều cuộc khảo sát có thể được hưởng lợi từ sức mạnh của ML, nhưng không có nguồn nào. Giống như đây là hai thế giới không tương tác với nhau.

Những gì tôi đã tìm thấy cho đến nay:

Các câu hỏi CV liên quan, nhưng không có câu hỏi nào trong số chúng có bất kỳ câu trả lời có thể sử dụng nào để tiếp cận vấn đề này (không có câu trả lời, không phải những gì tôi yêu cầu hoặc đưa ra các khuyến nghị sai lệch):


Bạn có thể vui lòng xác định những gì bạn có nghĩa là " thất bại trong hầu hết các trường hợp "? Làm thế nào để bạn đánh giá thành công của một người mẫu trong bối cảnh hiện tại này?
usεr11852 nói Phục hồi Monic

Chúng thậm chí không gần với phân phối ban đầu hoặc có vẻ như vô nghĩa khi chạy chúng (ví dụ: khi có định tuyến đi kèm).
kotrfa

Câu trả lời:


3

( Cập nhật: Vẫn chưa có nhiều nghiên cứu về các phương pháp ML "hiện đại" với dữ liệu khảo sát phức tạp, nhưng vấn đề gần đây nhất của Khoa học thống kê có một vài bài viết đánh giá. Xem đặc biệt là Breidt và Opsomer (2017) Dự toán khảo sát với các kỹ thuật dự đoán hiện đại " .

Ngoài ra, dựa trên bài báo Toth và Eltinge mà bạn đã đề cập, giờ đây đã có gói R rpms triển khai GIỎ HÀNG cho dữ liệu khảo sát phức tạp.)

Bây giờ tôi muốn áp dụng học máy cổ điển vào những dữ liệu đó (ví dụ: dự đoán một số giá trị còn thiếu cho tập hợp con của người trả lời - về cơ bản là phân loại nhiệm vụ).

Tôi không hoàn toàn rõ ràng về mục tiêu của bạn. Có phải bạn chủ yếu cố gắng để áp đặt các quan sát bị thiếu, chỉ để có một bộ dữ liệu "hoàn chỉnh" để cung cấp cho người khác? Hoặc bạn đã có dữ liệu đầy đủ và bạn muốn xây dựng một mô hình để dự đoán / phân loại các phản ứng quan sát mới? Bạn có câu hỏi cụ thể nào để trả lời với (các) mô hình của mình không, hay bạn khai thác dữ liệu rộng hơn?

Trong cả hai trường hợp, hồi quy logistic trọng số mẫu-khảo sát / khảo sát có trọng số là một phương pháp hợp lý, khá dễ hiểu. Ngoài ra còn có hồi quy thứ tự cho hơn 2 loại. Chúng sẽ chiếm các tầng và trọng lượng khảo sát. Bạn có cần một phương pháp ML fancier hơn thế này không?

Ví dụ: bạn có thể sử dụng svyglmtrong surveygói của R. Ngay cả khi bạn không sử dụng R, tác giả gói, Thomas Lumley, cũng đã viết một cuốn sách hữu ích "Khảo sát phức tạp: Hướng dẫn phân tích sử dụng R" bao gồm cả hồi quy logistic và dữ liệu bị thiếu cho các khảo sát.

(Để tranh luận, tôi hy vọng bạn đã quen với các vấn đề chung xung quanh dữ liệu bị thiếu. Nếu không, hãy xem xét các cách tiếp cận như nhiều lần cắt ngang để giúp bạn giải thích cách bước tiến hành ảnh hưởng đến ước tính / dự đoán của bạn.)

Định tuyến câu hỏi thực sự là một vấn đề bổ sung. Tôi không chắc làm thế nào tốt nhất để đối phó với nó. Để cắt bỏ, có lẽ bạn có thể áp đặt một "bước" trong định tuyến tại một thời điểm. Ví dụ: sử dụng mô hình toàn cầu, trước tiên, hãy đánh giá câu trả lời của mọi người về "Bạn có bao nhiêu đứa trẻ?"; sau đó chạy một mô hình mới trên dân số phụ có liên quan (những người có hơn 0 trẻ em) để thúc đẩy bước tiếp theo của "Con bạn bao nhiêu tuổi?"

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.