Gói R để xác định mối quan hệ giữa các biến [đã đóng]


13

Có gói R nào mà tôi có thể sử dụng để khám phá liệu có tồn tại mối quan hệ giữa các biến không?

Thông thường khi tôi đang tìm kiếm các mẫu tôi nhìn vào các mối tương quan, và sau đó là một âm mưu khía cạnh. Sau đó, tôi tự áp dụng một số biến đổi cho các biến trong dữ liệu. Tôi đã tự hỏi nếu tôi có thể tăng tốc quá trình này thông qua một gói R.


Nếu bạn có quy trình của riêng mình, bạn luôn có thể cuộn gói của riêng mình. Hoặc chỉ là một chức năng có thể sử dụng lại trong một số tệp được tải ở đầu tập lệnh của bạn.
Brandon Bertelsen

Câu trả lời:


9

AFAIK, không. Nói chính xác hơn, tôi không biết về một gói R duy nhất sẽ thực hiện một phần của cái gọi là Phân tích dữ liệu khám phá (EDA) cho bạn thông qua một cuộc gọi chức năng duy nhất - Tôi đang nghĩ về các khía cạnh biểu hiện lạimặc khải thảo luận trong Hoaglin, Mosteller và Tukey, Hiểu phân tích dữ liệu mạnh mẽ và khám phá . Wiley-Interscience, 1983, đặc biệt.

Tuy nhiên, tồn tại một số lựa chọn thay thế tiện lợi trong R, đặc biệt là liên quan đến khám phá dữ liệu tương tác (Xem ở đây để thảo luận thú vị: Khi nào sử dụng trực quan hóa dữ liệu tương tác hữu ích? ). tôi có thể nghĩ về

  • iplots , hoặc người kế nhiệm Acinonyx , để trực quan hóa tương tác (cho phép đánh răng, các ô được liên kết và tương tự) (Một số chức năng này có thể được tìm thấy trong gói latticist ; cuối cùng, rgl rất tuyệt vời cho hình ảnh tương tác 3D.)
  • ggobi cho màn hình tương tác và động, bao gồm giảm dữ liệu (chia tỷ lệ đa chiều) và Theo đuổi chiếu

Điều này chỉ dành cho khám phá dữ liệu tương tác, nhưng tôi muốn nói rằng đây là bản chất của EDA. Dù sao, các kỹ thuật trên có thể giúp ích khi khám phá mối quan hệ hai biến hoặc bậc cao hơn giữa các biến số. Đối với dữ liệu phân loại, gói vcd là một lựa chọn tốt (bảng trực quan và tóm tắt). Sau đó, tôi sẽ nói rằng các gói thuần chayade4 xuất hiện đầu tiên để khám phá mối quan hệ giữa các biến của các loại dữ liệu hỗn hợp.

Cuối cùng, những gì về khai thác dữ liệu trong R? (Hãy thử từ khóa này trên Rseek )


(+1) Rất vui khi thấy bạn trả lời các câu hỏi!
whuber

+1 Btw: ít lỗi đánh máy - Acinonyx (i & y được hoán vị).
Lặp lại

@Iterator Cảm ơn bạn đã bắt lỗi chính tả. (Tôi đã +1 phản hồi của bạn, thật tốt khi bạn đã trích dẫn bài báo của Wilkinson).
chl

2
Hiện tại looncũng có waddella.github.io/loon Tín dụng đến @hadleywickham để chỉ ra điều này.
Ari B. Friedman

11

Nếu bạn chỉ muốn xem nhanh các biến trong tập dữ liệu của mình tương quan như thế nào, hãy xem hàm cặp () hoặc thậm chí tốt hơn, hàm cặp.panels () trong gói tâm lý. Tôi đã viết một chút về chức năng cặp ở đây .

Sử dụng hàm cặp () hoặc psych :: cặp.panels () khá dễ dàng để tạo ma trận phân tán.

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

nhập mô tả hình ảnh ở đây


7

Kiểm tra các scagnosticsgói và các nghiên cứu ban đầu . Điều này rất thú vị cho các mối quan hệ bivariate. Đối với các mối quan hệ đa biến, theo đuổi chiếu là bước đầu tiên rất tốt.

Tuy nhiên, nói chung, chuyên môn về miền và dữ liệu sẽ thu hẹp và cải thiện các phương pháp của bạn để nhanh chóng điều tra các mối quan hệ.


7

Hàm chart.Correlation trong PerformanceAnalytics cung cấp chức năng tương tự như chức năng cốt truyện.

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

Đồ thị


5

Nếu bạn đang tìm kiếm các phép biến đổi có thể hoạt động với tương quan, thì một công cụ chưa được đề cập đến có thể hữu ích là acecó thể tìm thấy trong acepackgói (và có thể là các gói khác). Đây là một quá trình tương tác của việc thử nhiều biến đổi khác nhau (sử dụng bộ làm mịn) để tìm các phép biến đổi để tối đa hóa mối tương quan giữa một tập hợp các biến x và biến ay. Vẽ các biến đổi sau đó có thể đề xuất các biến đổi có ý nghĩa.


2

Bạn có thể sử dụng hàm DCOR trong gói 'năng lượng' để tính toán một phép đo phụ thuộc phi tuyến tính được gọi là tương quan khoảng cách và âm mưu như trên. Vấn đề với mối tương quan của Pearson là nó chỉ có thể phát hiện mối quan hệ tuyến tính giữa các biến. Hãy chắc chắn rằng bạn chọn tham số ghi cho chỉ mục trong hàm DCOR đã nói.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.