Làm thế nào để tính toán mối tương quan giữa / trong các nhóm biến?


13

Tôi có một ma trận gồm 1000 quan sát và 50 biến số được đo trên thang điểm 5. Các biến này được tổ chức thành các nhóm, nhưng không có số lượng biến bằng nhau trong mỗi nhóm.

Tôi muốn tính hai loại tương quan:

  1. Tương quan trong các nhóm biến (trong số các đặc điểm): một số thước đo xem các biến trong nhóm biến có đo cùng một thứ hay không.
  2. Mối tương quan giữa các nhóm biến: một số biện pháp, giả sử rằng mỗi nhóm phản ánh một đặc điểm tổng thể, về cách mỗi tính trạng (nhóm) có liên quan đến mọi đặc điểm khác.

Những đặc điểm này trước đây đã được phân loại thành các nhóm. Tôi quan tâm đến việc tìm mối tương quan giữa các nhóm - tức là giả sử rằng các đặc điểm trong nhóm đang đo lường cùng một đặc điểm cơ bản (đã hoàn thành # 1 ở trên - Cronbach's alpha), bản thân các đặc điểm có liên quan không?

Có ai có đề nghị cho bắt đầu từ đâu?


1
Nếu bạn quen thuộc với R, có một gói vegancó chức năng anosimhoặc tốt nhất là, adonis(MANOVA hoán vị).
Roman Luštrik

Tôi đã cập nhật câu hỏi của bạn để cố gắng sử dụng thuật ngữ tiêu chuẩn (nghĩa là các biến không phải là đặc điểm; các nhóm biến thay vì "nhóm")
Jeromy Anglim

Câu trả lời:


16

Những gì @rolando đề xuất có vẻ là một khởi đầu tốt, nếu không phải là toàn bộ phản hồi (IMO). Hãy để tôi tiếp tục với cách tiếp cận tương quan, theo khuôn khổ Lý thuyết kiểm tra cổ điển (CTT). Ở đây, như được lưu ý bởi @Jeromy, một thước đo tóm tắt cho nhóm các đặc điểm của bạn có thể được coi là tổng điểm (hoặc tổng) của tất cả các mục (một đặc điểm, theo cách nói của bạn) thuộc về thang điểm mà bây giờ tôi sẽ gọi là thang đo. Theo CTT, điều này cho phép chúng tôi chính thức hóa xu hướng hoặc trách nhiệm của "đặc điểm" cá nhân là vị trí của một người trên thang đo liên tục phản ánh một cấu trúc cơ bản (một đặc điểm tiềm ẩn), mặc dù ở đây chỉ là một thang đo thứ tự (nhưng đây là một cuộc tranh luận khác trong tài liệu tâm lý học) .

Những gì bạn mô tả có liên quan đến những gì được gọi là hội tụ (ở mức độ nào các mục thuộc cùng một thang đo có tương quan với nhau) và phân biệt đối xử (các mục thuộc các thang đo khác nhau không nên tương quan với một mức độ lớn) trong phép đo tâm lý. Các kỹ thuật cổ điển bao gồm phân tích đa phương pháp (MTMM) (Campbell & Fiske, 1959). Một minh họa về cách thức hoạt động của nó được hiển thị dưới đây (ba phương pháp hoặc công cụ, ba cấu trúc hoặc đặc điểm):

nhập mô tả hình ảnh ở đây

>0,7<.3

Ngay cả khi phương pháp này ban đầu được phát triển để đánh giá tính hợp lệ và phân biệt đối xử của một số tính trạng nhất định được nghiên cứu bởi các công cụ đo lường khác nhau, nó có thể được áp dụng cho một công cụ đa quy mô. Các đặc điểm sau đó trở thành các mục và các phương thức chỉ là các thang đo khác nhau. Một khái quát của phương pháp này cho một nhạc cụ duy nhất còn được gọi là chia tỷ lệ đa vùng . Các mục tương quan như mong đợi (nghĩa là với thang đo riêng thay vì thang đo khác) được tính là tỷ lệ thành công. Tuy nhiên, chúng tôi thường cho rằng các thang đo khác nhau không tương quan với nhau, đó là chúng đang nhắm mục tiêu các cấu trúc giả thuyết khác nhau. Nhưng việc tính trung bình các mối tương quan bên trong và giữa các quy mô cung cấp một cách nhanh chóng để tóm tắt cấu trúc bên trong của công cụ của bạn. Một cách thuận tiện khác để làm như vậy là áp dụng phân tích cụm trên ma trận tương quan cặp và xem cách các biến của bạn kết hợp với nhau.

Lưu ý, trong cả hai trường hợp, áp dụng các biện pháp thông thường khi làm việc với các biện pháp tương quan, đó là bạn không thể tính đến sai số đo, bạn cần một mẫu lớn, dụng cụ hoặc xét nghiệm được coi là "song song" (tương đương tau, lỗi không tương thích, phương sai lỗi bằng nhau).

Phần thứ hai được giải quyết bởi @rolando cũng rất thú vị: Nếu không có dấu hiệu lý thuyết hoặc thực chất nào cho thấy việc nhóm các mục đã được thiết lập có ý nghĩa, thì bạn sẽ phải tìm cách làm nổi bật cấu trúc dữ liệu của mình, ví dụ như phân tích nhân tố khám phá . Nhưng ngay cả khi bạn tin tưởng những "đặc điểm trong một nhóm", bạn có thể kiểm tra xem đây có phải là một giả định hợp lệ không. Bây giờ, bạn có thể đang sử dụng mô hình phân tích nhân tố xác nhận để kiểm tra xem mô hình tải vật phẩm (tương quan của một mặt hàng với quy mô riêng của nó) có hoạt động như mong đợi không.

Thay vì các phương pháp phân tích nhân tố truyền thống, bạn cũng có thể xem xét phân cụm các mục (Revelle, 1979) dựa trên quy tắc phân tách dựa trên alpha của Cronbach để nhóm các mục lại thành các thang đo đồng nhất.

Một từ cuối cùng: Nếu bạn đang sử dụng R, có hai gói rất đẹp sẽ giúp giảm bớt các bước đã nói ở trên:

  • psych , cung cấp cho bạn mọi thứ bạn cần để bắt đầu với phương pháp psychometrics, bao gồm phân tích nhân tố ( fa, fa.parallel, principal), các mục phân nhóm ( ICLUSTvà các phương pháp có liên quan), Hệ số Cronbach alpha ( alpha); có một cái nhìn tổng quan đẹp có sẵn trên trang web của William Revelle, đặc biệt là Giới thiệu về lý thuyết tâm lý với các ứng dụng trong R .
  • psy , cũng bao gồm âm mưu scree (thông qua bộ dữ liệu mô phỏng PCA +) trực quan hóa ( scree.plot) và MTMM ( mtmm).

Người giới thiệu

  1. Campbell, DT và Fiske, DW (1959). Xác nhận hội tụ và phân biệt đối xử bằng ma trận đa tuyến. Bản tin tâm lý , 56: 81 Từ 105.
  2. Hays, RD và Fayers, P. (2005). Đánh giá thang đo đa mục. Trong Đánh giá chất lượng cuộc sống trong các thử nghiệm lâm sàng , (Fayers, P. và Hays, R., Eds.), Trang 41-53. Oxford.
  3. Khải huyền, W. (1979). Phân tích cụm phân cấp và cấu trúc bên trong của các bài kiểm tra. Nghiên cứu hành vi đa biến , 14: 57-74.

Đây có lẽ là phản hồi thú vị nhất mà tôi đã đọc trên bất kỳ Sàn giao dịch nào và tôi đã nghiên cứu về kinh tế lượng trong 5 năm.
d8aninja

Là ma trận MTMM bao gồm ở đây được cho là một ví dụ thực tế của ma trận tương quan? Nếu vậy, tôi sẽ lưu ý rằng nó thực sự không phải là một ma trận bán chính xác dương: ví dụ, tỷ lệ nhỏ 4 nhân 4 cho các mối tương quan của các đặc điểm 1,2 trên các phương thức 1,2 có yếu tố quyết định -0.0419179. (Vì đây là một giá trị âm nhỏ, nên điều này có lẽ chỉ đơn giản là đi đến điểm của bạn: 'lỗi đo lường'.)
Bán tự động

7

Cách tôi đọc thuật ngữ của bạn, điều bạn muốn trước tiên là đánh giá tính nhất quán bên trong trong từng nhóm biến và sau đó để đánh giá mối tương quan giữa các thang điểm tạo thành trung bình của từng nhóm biến. Việc đầu tiên có thể được thực hiện bằng cách sử dụng alpha của Cronbach và lần thứ hai sử dụng tương quan Pearson. Điều này giả định rằng bạn có phân phối hợp lý bình thường và các mối quan hệ tuyến tính hợp lý.

Một phương pháp liên quan hơn, và không nhất thiết là một phương pháp bắt buộc, sẽ là tiến hành phân tích nhân tố khám phá. Bạn sẽ cố gắng thiết lập các biến nào sẽ được nhóm lại với nhau và sau đó một lần nữa ở mức độ nào các yếu tố đó sẽ được tương quan. Nếu bạn thử phương pháp này, hãy đảm bảo bạn sử dụng xoay xiên để cho phép các mối tương quan đó hiển thị. Việc bạn sử dụng trích xuất thành phần chính hay trích xuất trục chính sẽ phụ thuộc tương ứng vào việc các biến của bạn là khách quan, đo lường không có lỗi hoặc chủ quan như các mục khảo sát có chứa một lượng lỗi nhất định.


Cám ơn phản hồi của bạn. Tôi đã quản lý để tính toán alpha của Cronbach, nhưng làm thế nào để tính hệ số tương quan Pearson trong trường hợp này? Tôi có thể tính toán chúng theo cặp đôi cho từng đặc điểm riêng lẻ, nhưng tôi muốn biết cách tính tương quan giữa các nhóm đặc điểm. Các đặc điểm trong một nhóm sẽ có điểm tương tự cho mỗi quan sát. Tôi sẽ chỉnh sửa câu hỏi của mình để làm cho điều này rõ ràng hơn một chút.
xuất hiện

5
  • Các công cụ tiêu chuẩn, ít nhất là trong tâm lý học, trong tình huống của bạn sẽ là phân tích nhân tố khám phá và xác nhận để đánh giá sự hội tụ của ma trận tương quan giữa các mục với một số mô hình đề xuất về mối quan hệ giữa các yếu tố và vật phẩm. Cách mà bạn đặt câu hỏi cho thấy rằng bạn có thể không quen thuộc với tài liệu này. Ví dụ, đây là những lưu ý của tôi về quy mô xây dựng và phân tích nhân tố và đây là hướng dẫn trong R về mẫu phân tích nhân tố Quick-R . Do đó, mặc dù đáng để trả lời câu hỏi cụ thể của bạn, tôi nghĩ rằng mục tiêu rộng hơn của bạn sẽ được phục vụ tốt hơn bằng cách kiểm tra các phương pháp phân tích nhân tố để đánh giá thang đo đa yếu tố, đa yếu tố.

  • Một chiến lược tiêu chuẩn khác sẽ là tính tổng điểm cho từng nhóm biến (cái mà tôi gọi là "thang đo") và tương quan các thang đo.

  • Nhiều công cụ phân tích độ tin cậy sẽ báo cáo tương quan giữa các mục trung bình.

  • Nếu bạn đã tạo ma trận tương quan 50 đến 50 giữa các mục, bạn có thể viết một hàm trong R tính trung bình các tập hợp con dựa trên sự kết hợp của các nhóm biến. Bạn có thể không có được những gì bạn muốn nếu bạn có một hỗn hợp các mặt hàng tích cực và tiêu cực, vì các mối tương quan tiêu cực có thể loại bỏ các mối tương quan tích cực.


2

Tôi sẽ đề nghị sử dụng như là một thay thế cho khái niệm tương quan, vốn chỉ được định nghĩa cho cặp khôn ngoan, khái niệm thông tin lẫn nhau và tích hợp trong các mô hình Gaussian.

G1

Tôi1αtôiog(|C1|)

Ở đâu C1 là ma trận tương quan của nhóm biến G1. Thật dễ dàng để thấy rằng nếuG1 chỉ bao gồm 2 biến, tích hợp của nó là tôiog(1-ρ2), liên quan trực tiếp đến hệ số tương quan cặp của các biến ρ.

Để tính toán tương tác giữa hai nhóm biến, bạn có thể sử dụng thông tin lẫn nhau, đó chỉ là entropy chéo giữa các nhóm:

MBạn12= =Tôi12-Tôi1-Tôi2

Tôi tìm thấy một tài liệu tham khảo về các khái niệm này sau khi google nhanh có thể hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.