@Ondrej và @Michelle đã cung cấp một số thông tin tốt ở đây. Tôi tự hỏi nếu tôi có thể đóng góp bằng cách giải quyết một số điểm không được đề cập ở nơi khác. Tôi sẽ không tự đánh bại mình về việc không thể lượm lặt được nhiều từ dữ liệu ở dạng bảng, các bảng nói chung không phải là một cách hay để trình bày thông tin (xem, Gelman và cộng sự, Biến Bảng thành Đồ thị ). Mặt khác, yêu cầu một công cụ sẽ tự động tạo ra tất cả các biểu đồ phù hợp để giúp bạn khám phá một tập dữ liệu mới gần giống như yêu cầu một công cụ sẽ thực hiện suy nghĩ của bạn. (Đừng hiểu sai, tôi nhận ra câu hỏi của bạn làm rõ rằng bạn sẽ không đi xa đến thế; tôi chỉ có nghĩa là sẽ không bao giờ thực sự có một công cụ như vậy.) Một cuộc thảo luận tốt có liên quan đến điều này có thể được tìm thấy ở đây .
Những điều này đã được nói, tôi muốn nói một chút về các loại cốt truyện mà bạn có thể muốn sử dụng để khám phá dữ liệu của mình. Các lô được liệt kê trong câu hỏi sẽ là một khởi đầu tốt, nhưng chúng ta có thể tối ưu hóa điều đó một chút. Để bắt đầu, việc tạo ra một số lượng lớn các cặp tương quan có thể không lý tưởng. Một biểu đồ phân tán chỉ hiển thị mối quan hệ cận biên giữa hai biến. Các mối quan hệ quan trọng thường có thể được ẩn trong một số kết hợp của nhiều biến. Vì vậy, cách đầu tiên để tăng cường phương pháp này là tạo ra một ma trận phân tánhiển thị tất cả các biểu đồ tán xạ đồng thời. Ma trận Scatterplot có thể được tăng cường theo nhiều cách khác nhau: Ví dụ: chúng có thể được kết hợp với các ô mật độ hạt nhân đơn biến của mỗi phân phối biến, các dấu / màu khác nhau có thể được sử dụng để vẽ các nhóm khác nhau và có thể đánh giá các mối quan hệ phi tuyến bằng cách phủ lên một sự phù hợp. Các scatterplot.matrix
chức năng trong gói xe trong R có thể làm tất cả những điều độc đáo (ví dụ có thể được nhìn thấy một nửa xuống trang liên kết ở trên).
Tuy nhiên, trong khi ma trận phân tán là một khởi đầu tốt, chúng vẫn chỉ hiển thị các hình chiếu cận biên. Có một vài cách để cố gắng vượt qua điều này. Một là khám phá các ô 3 chiều bằng gói rgl trong R. Một cách tiếp cận khác là sử dụng các ô có điều kiện; coplots có thể giúp mối quan hệ giữa 3 hoặc 4 biến đồng thời. Một cách tiếp cận đặc biệt hữu ích là sử dụng ma trận phân tán tương tác(mặc dù, điều này sẽ đòi hỏi nhiều nỗ lực hơn để học), ví dụ như bằng cách 'đánh răng'. Chải cho phép bạn làm nổi bật một điểm hoặc các điểm trong một khung của ma trận và các điểm đó sẽ đồng thời được tô sáng trong tất cả các khung khác. Bằng cách di chuyển bàn chải xung quanh, bạn có thể thấy tất cả các biến thay đổi cùng nhau như thế nào. CẬP NHẬT: Một khả năng khác mà tôi đã quên đề cập đến là sử dụng biểu đồ tọa độ song song . Điều này có một bất lợi trong việc không làm cho biến trả lời của bạn trở nên khác biệt, nhưng có thể hữu ích, ví dụ, trong việc kiểm tra mối tương quan giữa các biến X của bạn.
Tôi cũng muốn khen ngợi bạn vì đã kiểm tra dữ liệu của bạn được sắp xếp theo ngày thu thập. Mặc dù dữ liệu luôn được thu thập theo thời gian, mọi người không luôn làm điều này. Vẽ biểu đồ đường là tốt, nhưng tôi khuyên bạn nên bổ sung bằng biểu đồ tự tương quan và tự động tương quan một phần . Trong R, các hàm cho chúng là acf
và pacf
tương ứng.
Tôi nhận ra rằng tất cả những điều này không hoàn toàn trả lời câu hỏi của bạn theo nghĩa là cung cấp cho bạn một công cụ sẽ tự động tạo ra tất cả các âm mưu cho bạn, nhưng một hàm ý là bạn thực sự sẽ không phải thực hiện nhiều âm mưu như bạn sợ , ví dụ, ma trận phân tán chỉ là một dòng mã. Ngoài ra, trong R, bạn có thể tự viết một hàm / một số mã có thể sử dụng lại để tự động hóa một phần trong số này (ví dụ: tôi có thể tưởng tượng một hàm có trong danh sách các biến và sắp xếp theo ngày, sắp xếp chúng , bật lên một cửa sổ mới cho mỗi ô với các ô dòng, acf và pacf).