Về việc sử dụng các mối tương quan trọng số trong dữ liệu khảo sát tổng hợp

Tôi đang phân tích dữ liệu từ hai cuộc khảo sát mà tôi đã hợp nhất với nhau:

Khảo sát nhân viên nhà trường, trong các năm 2005-06 và 2007-08
Khảo sát học sinh, từ năm 2005-06 đến 2008-09

Đối với cả hai bộ dữ liệu này, tôi có các quan sát (ở cấp học sinh hoặc nhân viên) từ 3 khu học chánh khác nhau, mỗi khu vực có mẫu đại diện mỗi năm trong khu học chánh riêng biệt của họ.

Để phân tích, tôi đã kết hợp dữ liệu của sinh viên thành hai giai đoạn 2 năm (2005-07 và 2007-09). Sau đó, tôi sẽ gửi từng bộ dữ liệu để có được tỷ lệ phần trăm nhân viên hoặc học sinh trả lời các câu hỏi theo ngưỡng (ví dụ: liệu họ có trả lời trong câu khẳng định, "Đồng ý" hay liệu học sinh đánh dấu rằng họ đã sử dụng rượu, Vân vân.). Vì vậy, khi tôi hợp nhất các bộ dữ liệu cấp độ nhân viên và học sinh lại với nhau, trường là đơn vị phân tích và tôi chỉ có 1 quan sát cho mỗi trường trong khoảng thời gian 2 năm (cho rằng trường không bị mất dữ liệu trong một khoảng thời gian nhất định ).

Mục tiêu của tôi là ước tính mối liên hệ giữa nhân viên và phản hồi của sinh viên. Cho đến nay, kế hoạch của tôi là lấy các hệ số tương quan Pearson giữa tất cả các biến (vì tất cả chúng đều là các phản hồi liên tục đại diện cho tỷ lệ phần trăm) cho từng khu học chánh riêng biệt (vì điều này loại bỏ giả định về tính tổng quát cho các quận khác trong bộ dữ liệu này) . Để làm điều này, tôi sẽ trung bình dữ liệu của quận trong hai năm dù sao chỉ nhận được một quan sát cho mỗi trường.

Câu hỏi:

Đây có phải là một kế hoạch phân tích thích hợp? Có một số phương pháp khác tôi có thể sử dụng có thể cung cấp cho tôi suy luận hoặc sức mạnh tốt hơn?
Nếu kế hoạch của tôi phù hợp, tôi có nên đạt được các mối tương quan có trọng số dựa trên tuyển sinh của trường không (vì có nhiều trường nhỏ hơn lớn sẽ đóng góp không tương xứng vào các hệ số tương quan)?

Tôi đã hỏi người quản trị dữ liệu về vấn đề này và anh ấy đã đề cập rằng các yếu tố chính quyết định sự cần thiết của việc cân nhắc dữ liệu của tôi là liệu tôi có nghĩ rằng quy mô trường học có ảnh hưởng đến mức độ tương quan hay không và liệu sự giải thích của tôi sẽ ở cấp độ học sinh hay trường học. Tôi nghĩ rằng cách giải thích của tôi sẽ ở cấp trường (ví dụ: "một trường có tỷ lệ nhân viên trả lời theo cách này tương quan với tỷ lệ phần trăm học sinh trả lời theo cách này ...").

correlation survey multilevel-analysis

— Iris Tsui
nguồn

Tôi tưởng tượng đây là lịch sử, nhưng chỉ trong trường hợp ...

1) Có, điều này có vẻ thích hợp. Câu hỏi nghiên cứu của bạn phải là "thái độ / hành vi của giáo viên tại một trường có liên quan đến thái độ / hành vi của học sinh tại trường đó không?" Nếu đây là câu hỏi của bạn, một trường học là đơn vị phân tích thích hợp (và sẽ không có cách nào để so khớp từng giáo viên với học sinh).

Tôi chỉ cần thêm cảnh báo về việc sử dụng hệ số tương quan của Pearson, không liên quan đến câu hỏi của đơn vị phân tích hoặc chiến lược lấy mẫu. Hệ số tương quan không thể thu được các mối quan hệ phi tuyến tính, có thể gây hiểu nhầm, dễ bị biến dạng bởi một vài ngoại lệ và suy luận cổ điển dựa trên nó phụ thuộc vào Normality (mặc dù không thể giữ chính xác với dữ liệu tỷ lệ của bạn, mặc dù có thể một xấp xỉ hợp lý). Tối thiểu tôi sẽ cẩn thận sử dụng các phương pháp đồ họa để kiểm tra xem đây có phải là một cách tiếp cận hợp lý và không có cách nào tốt hơn để suy ra mối quan hệ giữa hai biến.

2) Tôi không nghĩ bạn cần phải cân dữ liệu nhưng tôi chắc chắn sẽ thử nó (và hy vọng nó không thay đổi kết quả). Nhưng tôi sẽ cân nhắc theo cỡ mẫu của bạn trong trường chứ không phải theo cỡ đăng ký. Lý do sẽ là về ước tính thay vì đơn vị phân tích của bạn hoặc bất kỳ nhu cầu "cân đối với dân số". Bạn chỉ có ước tính về phản ứng của giáo viên và học sinh thực sự ở mỗi trường, dựa trên mẫu hữu hạn của bạn. Các trường học nơi bạn có mẫu lớn hơn, bạn tự tin hơn vào ước tính của mình và do đó sẽ tốt hơn nếu chúng được thực hiện nghiêm túc hơn trong việc phù hợp với tương quan hoặc hồi quy tuyến tính của bạn.

— Peter Ellis
nguồn

Cảm ơn bạn đã phản hồi xác nhận cũng như lời khuyên của bạn. Tôi đã kết thúc việc không sử dụng loại phân tích này vì nhiều lý do (bao gồm cả thời gian và tài nguyên) và thay vào đó, chỉ trình bày những điều mô tả. Tôi đã không thoải mái khi cố gắng đưa ra bất kỳ kết luận nào liên quan đến tương quan về xu hướng chỉ sử dụng hai điểm thời gian, vì vậy tôi đã đi theo con đường an toàn. Thật không may, điều đó có nghĩa là dữ liệu không có nhiều điều để nói về mục tiêu nghiên cứu của tôi. Ồ tốt

— Iris Tsui