Tôi gặp phải vấn đề có vẻ dễ dàng, nhưng tôi đã không tìm thấy một giải pháp phù hợp trong vài tuần nay.
Tôi có khá nhiều dữ liệu khảo sát / khảo sát (hàng chục nghìn người được hỏi, ví dụ 50 nghìn cho mỗi tập dữ liệu), đến từ một thứ mà tôi hy vọng được gọi là khảo sát được thiết kế phức tạp với trọng số, phân tầng, định tuyến cụ thể, v.v. Đối với mỗi người trả lời, có hàng trăm biến như nhân khẩu học (tuổi, khu vực ...) và sau đó chủ yếu là các biến nhị phân (nhiều nhất là phân loại).
Tôi đến nhiều hơn từ khoa học máy tính / nền tảng học máy và tôi đã phải học rất nhiều về phương pháp và thống kê khảo sát cổ điển . Bây giờ tôi muốn áp dụng học máy cổ điển vào những dữ liệu đó (ví dụ: dự đoán một số giá trị còn thiếu cho tập hợp con của người trả lời - về cơ bản là phân loại nhiệm vụ). Nhưng, giữ và kìa, tôi không thể tìm ra cách phù hợp để làm điều đó. Làm thế nào tôi nên kết hợp các tầng, trọng lượng hoặc định tuyến (như: nếu câu hỏi 1 trả lời với tùy chọn 2, hỏi câu hỏi 3, nếu không thì bỏ qua nó)?
Đơn giản chỉ cần áp dụng các mô hình của tôi (cây, hồi quy logistic, SVM, XGBoost ...) có vẻ nguy hiểm (và, chúng thất bại trong hầu hết các trường hợp), vì chúng thường cho rằng dữ liệu đến từ mẫu ngẫu nhiên hoặc iid đơn giản.
Rất nhiều phương pháp ít nhất có trọng lượng, nhưng nó không giúp được gì nhiều. Hơn nữa, không rõ làm thế nào tôi nên kết hợp các lớp và trọng số không cân bằng được đưa ra bởi định nghĩa khảo sát với nhau, không nói về những thứ phân tầng đó. Hơn nữa, các mô hình kết quả nên được hiệu chỉnh tốt - phân phối dự đoán phải rất gần với mô hình ban đầu. Hiệu suất dự đoán tốt không phải là tiêu chí duy nhất ở đây. Tôi cũng đã thay đổi số liệu tối ưu hóa để tính đến điều này (chẳng hạn như khoảng cách phân phối dự đoán từ phân phối thực + độ chính xác / MCC) và nó đã giúp ích trong một số trường hợp, tại sao làm tê liệt hiệu suất ở những người khác.
Có một số cách kinh điển làm thế nào để đối phó với vấn đề này? Nó có vẻ như là một lĩnh vực nghiên cứu được đánh giá thấp cho tôi. IMO nhiều cuộc khảo sát có thể được hưởng lợi từ sức mạnh của ML, nhưng không có nguồn nào. Giống như đây là hai thế giới không tương tác với nhau.
Những gì tôi đã tìm thấy cho đến nay:
- http://civfterat.com/2014/08/statistic-modeling-the-two-cultures-enameiman/
Chẳng hạn, tôi vẫn chỉ biết một bài báo (Toth & Eltinge, 2011) về cách thực hiện cây hồi quy khi dữ liệu của bạn đến từ một khảo sát mẫu phức tạp.
- http://ccsg.isr.umich.edu/index.php/ch chương / statistic-anysis-ch CHƯƠNG # nine
Trong một phân tích tổng hợp gần đây của 150 tài liệu nghiên cứu được lấy mẫu phân tích một số khảo sát với các thiết kế lấy mẫu phức tạp, người ta thấy rằng các lỗi phân tích gây ra bởi sự thiếu hiểu biết hoặc sử dụng sai các tính năng thiết kế mẫu phức tạp là thường xuyên.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Các câu hỏi CV liên quan, nhưng không có câu hỏi nào trong số chúng có bất kỳ câu trả lời có thể sử dụng nào để tiếp cận vấn đề này (không có câu trả lời, không phải những gì tôi yêu cầu hoặc đưa ra các khuyến nghị sai lệch):