Khám phá mối quan hệ giữa các biến là khá mơ hồ, nhưng hai trong số các mục tiêu chung hơn của việc kiểm tra các biểu đồ phân tán như thế này tôi đoán là;
- Xác định các nhóm tiềm ẩn tiềm ẩn (của các biến hoặc trường hợp).
- Xác định các ngoại lệ (trong không gian đơn biến, bivariate hoặc multivariate).
Cả hai đều giảm dữ liệu thành các bản tóm tắt dễ quản lý hơn, nhưng có các mục tiêu khác nhau. Xác định các nhóm tiềm ẩn thường làm giảm kích thước trong dữ liệu (ví dụ: thông qua PCA) và sau đó khám phá xem các biến hoặc trường hợp tập hợp lại trong không gian giảm này. Xem ví dụ Thân thiện (2002) hoặc Cook et al. (1995).
Xác định các ngoại lệ có thể có nghĩa là khớp một mô hình và vẽ các độ lệch khỏi mô hình (ví dụ: vẽ các phần dư từ mô hình hồi quy) hoặc giảm dữ liệu vào các thành phần chính của nó và chỉ làm nổi bật các điểm lệch khỏi mô hình hoặc phần chính của dữ liệu. Ví dụ, các ô vuông trong một hoặc hai chiều thường chỉ hiển thị các điểm riêng lẻ nằm ngoài bản lề (Wickham & Stryjewski, 2013). Vẽ các phần dư có đặc tính tốt là nó sẽ làm phẳng các ô (Tukey, 1977), vì vậy mọi bằng chứng về mối quan hệ trong đám mây điểm còn lại là "thú vị". Câu hỏi này trên CV có một số gợi ý tuyệt vời về việc xác định các ngoại lệ đa biến.
Một cách phổ biến để khám phá SPLOMS lớn như vậy là không vẽ tất cả các điểm riêng lẻ, nhưng một số loại tóm tắt được đơn giản hóa và sau đó có thể là các điểm sai lệch phần lớn từ bản tóm tắt này, ví dụ như dấu chấm lửng tự tin, tóm tắt không liên quan (Wilkinson & Wills, 2008), bivariate lô hộp, lô đường viền. Dưới đây là một ví dụ về vẽ các hình elip xác định hiệp phương sai và áp đặt một hoàng thổ mượt mà hơn để mô tả mối liên hệ tuyến tính.
(nguồn: statmethods.net )
Dù bằng cách nào, một cốt truyện tương tác, thành công thực sự với rất nhiều biến số có thể sẽ cần sắp xếp thông minh (Wilkinson, 2005) và một cách đơn giản để lọc ra các biến (ngoài khả năng chải / liên kết). Ngoài ra, bất kỳ tập dữ liệu thực tế nào cũng cần phải có khả năng biến đổi trục (ví dụ vẽ biểu đồ dữ liệu theo thang logarit, biến đổi dữ liệu bằng cách lấy rễ, v.v.). Chúc may mắn và đừng gắn bó với chỉ một cốt truyện!
Trích dẫn
- Cook, Dianne, Andreas Buja, Javier Cabrera & Catherine Hurley. 1995. Grand tour và theo đuổi chiếu. Tạp chí thống kê tính toán và đồ họa 4 (3): 155-172.
- Thân thiện, Michael. 2002. Biểu đồ: Hiển thị thăm dò cho ma trận tương quan. Thống kê người Mỹ 56 (4): 316-324. Bản in sẵn PDF .
- Tukey, John. 1977. Phân tích dữ liệu thăm dò. Addison-Wesley. Đọc sách, thánh lễ.
- Wickham, Hadley và Lisa Stryjewski. 2013. 40 năm của boxplots .
- Wilkinson, Leland & Graham Wills. 2008 Phân phối giả. Tạp chí thống kê tính toán và đồ họa 17 (2): 473-491.
- Wilkinson, Leland. 2005. Ngữ pháp đồ họa . Mùa xuân. New York, NY.