Tôi có một cuộc khảo sát lớn trong đó học sinh được hỏi, trong số những thứ khác, trình độ học vấn của mẹ chúng. Một số bỏ qua nó, và một số trả lời sai. Tôi biết điều này, bởi vì có một mẫu phụ của những người được hỏi ban đầu sau đó đã được phỏng vấn và hỏi cùng một câu hỏi. (Tôi chắc chắn cũng có một số lỗi nhỏ hơn liên quan đến phản hồi của các bà mẹ.)
Thách thức của tôi, là quyết định làm thế nào để tận dụng tốt nhất nguồn dữ liệu thứ hai, đáng tin cậy hơn này. Ít nhất tôi có thể sử dụng nó để xử lý dữ liệu bị thiếu một cách thông minh hơn tôi có thể nếu tôi chỉ có thể dựa vào các trường hợp hoàn chỉnh. Nhưng nếu 3/4 trẻ em có dữ liệu tôi có thể kiểm tra chéo, những người trả lời "Mẹ tôi chưa bao giờ học hết tiểu học" đang mâu thuẫn với câu trả lời của mẹ chúng, thì có vẻ như tôi nên sử dụng thuật ngữ để tạo ra nhiều bộ dữ liệu để nắm bắt sự không chắc chắn ở đó. [đã thêm: Tôi đã nói 3/4 để đưa ra quan điểm, nhưng bây giờ tôi đã kiểm tra dữ liệu tôi cũng có thể nói với bạn rằng gần hơn 40% là không nhất quán]
Cá nhân tôi sẽ sử dụng giáo dục của người mẹ như một người dự đoán trong một mô hình hỗn hợp, nhưng nếu có ai đó muốn nói về những tình huống khác tôi cũng muốn tìm hiểu về họ.
Tôi rất thích nhận được lời khuyên trong quảng cáo hoặc trong các chi tiết cụ thể. Cảm ơn bạn!
Cập nhật : Hiện tại tôi vẫn chưa giải quyết được câu hỏi, mặc dù tôi đánh giá cao câu trả lời của Will và Conjugate_P Warrior, tôi đang hy vọng có phản hồi cụ thể và kỹ thuật hơn.
Scatterplot dưới đây sẽ cho bạn ý tưởng về hai biến có liên quan như thế nào trong 10.000 trường hợp cả hai tồn tại. Chúng được lồng vào nhau, trong hơn 100 trường học. Chúng tương quan ở mức 0,78, Câu trả lời của học sinh - có nghĩa là: 5,12 sd = 2,05, câu trả lời của mẹ, mean = 5,02, sd = 1,92 Câu trả lời của học sinh bị thiếu trong khoảng 15% trường hợp.