Việc tính đến lỗi hệ thống trong các phản hồi khảo sát


9

Tôi có một cuộc khảo sát lớn trong đó học sinh được hỏi, trong số những thứ khác, trình độ học vấn của mẹ chúng. Một số bỏ qua nó, và một số trả lời sai. Tôi biết điều này, bởi vì có một mẫu phụ của những người được hỏi ban đầu sau đó đã được phỏng vấn và hỏi cùng một câu hỏi. (Tôi chắc chắn cũng có một số lỗi nhỏ hơn liên quan đến phản hồi của các bà mẹ.)

Thách thức của tôi, là quyết định làm thế nào để tận dụng tốt nhất nguồn dữ liệu thứ hai, đáng tin cậy hơn này. Ít nhất tôi có thể sử dụng nó để xử lý dữ liệu bị thiếu một cách thông minh hơn tôi có thể nếu tôi chỉ có thể dựa vào các trường hợp hoàn chỉnh. Nhưng nếu 3/4 trẻ em có dữ liệu tôi có thể kiểm tra chéo, những người trả lời "Mẹ tôi chưa bao giờ học hết tiểu học" đang mâu thuẫn với câu trả lời của mẹ chúng, thì có vẻ như tôi nên sử dụng thuật ngữ để tạo ra nhiều bộ dữ liệu để nắm bắt sự không chắc chắn ở đó. [đã thêm: Tôi đã nói 3/4 để đưa ra quan điểm, nhưng bây giờ tôi đã kiểm tra dữ liệu tôi cũng có thể nói với bạn rằng gần hơn 40% là không nhất quán]

Cá nhân tôi sẽ sử dụng giáo dục của người mẹ như một người dự đoán trong một mô hình hỗn hợp, nhưng nếu có ai đó muốn nói về những tình huống khác tôi cũng muốn tìm hiểu về họ.

Tôi rất thích nhận được lời khuyên trong quảng cáo hoặc trong các chi tiết cụ thể. Cảm ơn bạn!

Cập nhật : Hiện tại tôi vẫn chưa giải quyết được câu hỏi, mặc dù tôi đánh giá cao câu trả lời của Will và Conjugate_P Warrior, tôi đang hy vọng có phản hồi cụ thể và kỹ thuật hơn.

Scatterplot dưới đây sẽ cho bạn ý tưởng về hai biến có liên quan như thế nào trong 10.000 trường hợp cả hai tồn tại. Chúng được lồng vào nhau, trong hơn 100 trường học. Chúng tương quan ở mức 0,78, Câu trả lời của học sinh - có nghĩa là: 5,12 sd = 2,05, câu trả lời của mẹ, mean = 5,02, sd = 1,92 Câu trả lời của học sinh bị thiếu trong khoảng 15% trường hợp.

nhập mô tả hình ảnh ở đây


Vì tò mò, có phải là lựa chọn trả lời đầu tiên cho câu hỏi giáo dục đó "Mẹ tôi chưa bao giờ học hết tiểu học"? Nếu vậy, tôi sẽ lo lắng về tính chính xác của phần còn lại của kết quả kiểm tra của bạn đối với những người làm bài kiểm tra đó.
Michelle

"Cô ấy đã đi học bao xa?" - 1) Lớp tám trở xuống
Michael Giám mục

Bạn có thể có một tập hợp những người làm bài kiểm tra đánh dấu tùy chọn trả lời đầu tiên cho mỗi câu hỏi. Bạn có thể kiểm tra điều đó?
Michelle

Cốt truyện đó rất sâu sắc. Nó trông khá đối xứng, đó không phải là điều bạn mong đợi nếu trên thực tế, một đám trẻ chỉ đánh dấu vào câu trả lời đầu tiên. Nếu đó là trường hợp thì các trường hợp sẽ có xu hướng cụm dọc theo hàng dưới cùng. Tất nhiên, đối xứng 'tìm kiếm' không thực sự đảm bảo điều đó nhưng đó là một khởi đầu tốt đẹp. Mối tương quan mạnh mẽ mà bạn quan sát được giữa phản ứng của mẹ và con cũng phù hợp với điều này.
Sẽ

1
À Tôi hiểu rồi. Sau đó, tôi cũng sẽ (hơn một chút) miễn cưỡng áp đặt dữ liệu hiện có và sẽ khuyên rằng nó hoàn toàn không được thực hiện, bất chấp loại đối số này: gking.harvard.edu/gking/files/measure.pdf
liên hợp

Câu trả lời:


2

Điều đầu tiên cần lưu ý là các biến của bạn là: "những gì học sinh nói về giáo dục của mẹ" và "những gì mẹ của học sinh nói về giáo dục của mẹ học sinh". Gọi họ là S và M tương ứng, và gán nhãn cho trình độ học vấn thực sự của người mẹ là T.

Cả S và M đều có các giá trị bị thiếu và không có gì sai (modulo quan sát bên dưới) với việc đưa M và S vào một mô hình cắt cụt nhưng chỉ sử dụng một trong số chúng trong phân tích tiếp theo. Cách khác xung quanh sẽ luôn luôn là không thể tin được.

Điều này tách biệt với ba câu hỏi khác:

  1. Liệu một giá trị còn thiếu có nghĩa là các sinh viên không biết hoặc không muốn nói nhiều về mẹ của họ?
  2. Làm thế nào để sử dụng S và M để tìm hiểu về T?
  3. Bạn có loại thiếu phù hợp để cho phép nhiều chi tiết hoạt động không?

Vô minh và thiếu

Bạn có thể quan tâm đến T, nhưng bạn không cần phải: nhận thức về trình độ học vấn (thông qua S và có thể là M) hoặc thiếu kiến ​​thức của học sinh có thể thú vị hơn so với bản thân T. Sự tranh chấp có thể là một lộ trình hợp lý cho lần đầu tiên, nhưng có thể hoặc không thể cho lần thứ hai. Bạn phải quyết định.

Tìm hiểu về T

Giả sử bạn thực sự quan tâm đến T. Trong trường hợp không có phép đo tiêu chuẩn vàng (vì đôi khi bạn nghi ngờ M) thật khó để biết làm thế nào bạn có thể không tự ý kết hợp S và M để tìm hiểu về T. Nếu, mặt khác, bạn đã sẵn sàng coi M là chính xác khi có sẵn, sau đó bạn có thể sử dụng S để dự đoán M trong mô hình phân loại có chứa thông tin khác từ các sinh viên và sau đó sử dụng M thay vì S trong phân tích cuối cùng. Mối quan tâm ở đây sẽ là về sự lựa chọn sai lệch trong các trường hợp bạn được đào tạo, dẫn đến vấn đề thứ ba:

Mất tích

Việc nhiều lần cắt cụt có thể hoạt động hay không phụ thuộc vào việc dữ liệu bị thiếu hoàn toàn ngẫu nhiên (MCAR) hay bị mất ngẫu nhiên (MAR). Là S mất tích ngẫu nhiên (MAR)? Có lẽ không, vì học sinh có thể xấu hổ khi trả lời về sự thiếu giáo dục của mẹ và bỏ qua câu hỏi. Sau đó, giá trị một mình xác định liệu nó có bị thiếu hay không và nhiều lần cắt bỏ có thể giúp đỡ ở đây. Mặt khác, nếu hệ số giáo dục thấp với điều gì đó được hỏi và được trả lời một phần trong khảo sát, ví dụ như một số chỉ số về thu nhập, thì MAR có thể hợp lý hơn và nhiều tranh cãi có điều gì đó cần phải nắm bắt. Là M mất tích ngẫu nhiên? Cân nhắc tương tự áp dụng.

Cuối cùng, ngay cả khi bạn thú vị trong T và thực hiện phương pháp phân loại, bạn vẫn muốn áp đặt để phù hợp với mô hình đó.


1

Nếu bạn cho rằng "tỷ lệ mâu thuẫn" là giống nhau cho toàn bộ mẫu vì nó là mẫu phụ có mẹ được thăm dò thì mẫu phải được rút ngẫu nhiên. Trong phần mô tả của bạn, bạn không nói, vì vậy tôi nêu vấn đề này bởi vì tôi nghĩ nó có ý nghĩa quan trọng đối với cách thức hoặc nếu bạn có thể sử dụng thông tin này từ mẫu phụ để rút ra kết luận về toàn bộ mẫu học sinh.

Dường như với tôi có ba khía cạnh của vấn đề mâu thuẫn này.

1 là tỷ lệ mâu thuẫn. Có thực sự là trường hợp 3/4 học sinh đoán sai?

2 là mức độ sai - đó là một điều để nói rằng mẹ bạn chưa bao giờ học hết tiểu học khi thực tế bà đã hoàn thành nó nhưng dừng lại ở đó và một điều nữa để nói rằng bà chưa bao giờ học hết tiểu học khi có bằng tiến sĩ.

3 là tỷ lệ mẫu bạn có thể kiểm tra chéo. Nếu bạn rút ra những kết luận này trên mẫu phụ là 20 thì tôi cá là các ước tính khá không ổn định và có lẽ không đáng bao nhiêu.

Dường như với tôi rằng những gì bạn làm sẽ phụ thuộc vào câu trả lời của bạn cho những câu hỏi này và cho câu hỏi tôi nêu ra ban đầu. Ví dụ: nếu 1 khá cao và 3 khá cao thì tôi có thể chỉ cần sử dụng mẫu phụ và được thực hiện với nó. Nếu 1 cao nhưng 2 thấp thì vấn đề dường như không tệ và một lần nữa, nó có thể không đáng bận tâm.

Có lẽ cũng đáng để biết nếu lỗi là ngẫu nhiên hay có hệ thống. Nếu học sinh có xu hướng ước tính một cách có hệ thống giáo dục của mẹ thì điều đó sẽ rắc rối hơn so với việc đôi khi chúng hoàn toàn sai.

Tôi đã thực hiện một số lời buộc tội trên một vài bài báo và có vẻ như tôi luôn tạo ra nhiều rắc rối hơn cho chính mình. Những người đánh giá, trong khu vực của tôi ít nhất, thường không có cách xử lý tốt về phương pháp và do đó nghi ngờ về việc sử dụng nó. Tôi cảm thấy đôi khi tốt hơn, từ quan điểm xuất bản, chỉ cần thừa nhận vấn đề và tiếp tục. Nhưng trong trường hợp này, bạn không thực sự 'cung cấp dữ liệu bị thiếu' mà đang đưa ra một số loại phương sai lỗi dự đoán cho biến. Đó là một câu hỏi rất thú vị và, gạt tất cả các mối quan tâm sang một bên, tôi thậm chí không chắc mình sẽ giải quyết vấn đề này như thế nào nếu tôi quyết định đây là cách hành động tốt nhất


1
Cảm ơn Will, tôi đã làm rõ một số điều trong bài viết gốc của tôi. Mẫu phụ là ngẫu nhiên. Tôi kéo chỉ số 3/4 ra khỏi mũ để làm điểm. Các stat thực sự là ít. Tôi có thể kiểm tra chéo khoảng 10.000 trường hợp. Tôi chắc chắn rằng lỗi không hoàn toàn ngẫu nhiên.
Michael Giám mục
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.