Đánh giá nhanh mối tương quan (trực quan) giữa dữ liệu phân loại theo thứ tự trong R?


11

Tôi đang tìm kiếm mối tương quan giữa các câu trả lời cho các câu hỏi khác nhau trong một cuộc khảo sát ("umm, hãy xem câu trả lời cho câu hỏi 11 có tương quan với câu hỏi 78" không). Tất cả các câu trả lời là phân loại (hầu hết trong số chúng có từ "rất không vui" đến "rất hạnh phúc"), nhưng một số ít có một bộ câu trả lời khác nhau. Hầu hết trong số họ có thể được coi là thứ tự vì vậy hãy xem xét trường hợp này ở đây.

Vì tôi không có quyền truy cập vào chương trình thống kê thương mại, tôi phải sử dụng R.

Tôi đã thử Rattle (gói khai thác dữ liệu phần mềm miễn phí cho R, rất tiện lợi) nhưng tiếc là nó không hỗ trợ dữ liệu phân loại. Một cách hack tôi có thể sử dụng là nhập vào R phiên bản được mã hóa của khảo sát có số (1..5) thay vì "rất không vui" ... "hạnh phúc" và để Rattle tin rằng chúng là dữ liệu số.

Tôi đã suy nghĩ để thực hiện một âm mưu phân tán và có kích thước chấm tỷ lệ với số lượng cho mỗi cặp. Sau một số googling tôi tìm thấy http://www.r-statistic.com/2010/04/correlation-scatter-plot-matrix-for-ordered-c sortical-data / nhưng nó có vẻ rất phức tạp (với tôi).

Tôi không phải là một nhà thống kê (nhưng là một lập trình viên) nhưng đã có một số đọc về vấn đề này và, nếu tôi hiểu chính xác, rho của Spearman sẽ thích hợp ở đây.

Vì vậy, phiên bản ngắn của câu hỏi cho những người vội vàng: có cách nào để nhanh chóng âm mưu rho của Spearman trong R không? Một âm mưu thích hợp hơn với một ma trận các con số vì nó dễ nhìn hơn và cũng có thể được bao gồm trong các tài liệu.

Cảm ơn bạn trước.

PS Tôi đã suy nghĩ một lúc về việc có nên đăng bài này lên trang SO chính hay ở đây không. Sau khi tìm kiếm cả hai trang web cho tương quan R, tôi cảm thấy trang web này phù hợp hơn cho câu hỏi.


2
Bạn có vẻ như R kém hơn phần mềm sở hữu. :)
Roman Luštrik

Đối với tôi nghe có vẻ hoàn toàn hợp lý khi sử dụng tương quan thời điểm sản phẩm pearson (giả sử dữ liệu liên tục) trong trường hợp của bạn (giả sử đủ điểm trên thang đo của bạn và không phải là điểm giữa không biết). Toàn bộ các lĩnh vực trong tâm lý học (ví dụ, tính cách hoặc tâm lý xã hội) dựa trên giả định rằng câu trả lời cho một mục duy nhất theo thang điểm, ví dụ: năm điểm (hoặc bảy điểm) từ rất không X đến rất X có thể điều trị như liên tục. Xem thêm chủ đề này: stats.stackexchange.com/questions/539/ từ
Henrik

@romunov: Không chắc làm thế nào bạn có ấn tượng mà tôi tin rằng R kém hơn các s / w khác. Nhưng nó không phải là trường hợp nào cả.
wishihadabettername

Tôi chỉ là một người thông minh. Tôi hy vọng không có cảm giác khó khăn. :)
Roman Luštrik

Câu trả lời:


19

Một hình ảnh tương quan tốt khác được cung cấp bởi gói Corrplot , cung cấp cho bạn những thứ như thế này: văn bản thay thế

Nó là một gói tuyệt vời.

Cũng có một cái nhìn vào câu trả lời ở đây , nó có thể là tốt cho bạn biết.

Cuối cùng, nếu bạn có đề xuất làm thế nào mã trên bài đăng bạn đề cập có thể đơn giản hơn - vui lòng cho tôi biết.


1
Cảm ơn Tal, tôi sẽ thử Corrplot ngay bây giờ. Tôi cũng ước tôi biết cách đơn giản hóa giải pháp của bạn (mà tôi đã liên kết trong câu hỏi) nhưng tôi chỉ là người mới chơi R để bạn biết nhiều hơn tôi. Tôi sẽ cập nhật câu hỏi để làm rõ giải pháp có vẻ phức tạp đối với tôi
wishihadabettername

Các Corrplot có vẻ tốt. Nó cung cấp một ảnh chụp nhanh trực quan tuyệt vời về kích thước và hướng tương quan. Trong trường hợp các biến phân loại được đặt hàng 5 điểm, có thể hữu ích khi cung cấp một số biện pháp liên kết khác bên cạnh mối tương quan của Pearson: ví dụ: tương quan đa âm. Kích thước của các mối tương quan tiêu chuẩn của Pearson về các biến phân loại được sắp xếp chịu ảnh hưởng phần nào bởi giá trị trung bình của hai biến.
Jeromy Anglim

3

Một vài ý tưởng âm mưu bổ sung là:


Hướng dương là một giải pháp thú vị. Sử dụng jitter là những gì tôi đã thử khi lần đầu tiên tôi nhìn vào chủ đề, nhưng tôi thấy nó không đủ hiệu quả cho âm mưu của các ma trận tương quan ...
Tal Galili

Vâng, jitter có thể trở nên khá lộn xộn với một scattermatrix với rất nhiều biến. Tôi cho rằng lợi ích của jitter và hướng dương là bạn có thể xem dữ liệu thô (mặc dù bị nhiễu trong trường hợp jitter).
Jeromy Anglim

Đồng ý (Tôi yêu jitter, đơn giản là không phải vì điều này :))
Tal Galili
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.