Lần đầu tiên lướt qua một tập dữ liệu


10

Xin thứ lỗi cho sự thiếu hiểu biết của tôi, nhưng ...

Tôi liên tục thấy mình trong một tình huống, nơi tôi phải đối mặt với một loạt dữ liệu mới mà tôi quản lý để tìm. Dữ liệu này thường trông giống như thế này:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

Thông thường, thoạt nhìn tôi không thể biết được có xu hướng nào ở đây không. Mối tương quan giữa các cột khác nhau có thể không đáng kể, nhưng tôi sẽ rất vui nếu tôi không phải tự tạo một cốt truyện cho mọi kết hợp cột / danh mục có thể.

Có một công cụ ngoài đó sẽ chấp nhận một bảng dữ liệu cùng với thông tin các cột nào sẽ được coi là số, ngày và danh mục và sau đó tiến hành vẽ:

  • mối tương quan giữa mỗi hai cột số
  • mối tương quan giữa mỗi hai cột số, với các đường xu hướng riêng cho từng danh mục
  • mỗi cột số như một chuỗi thời gian,
  • mỗi cột số dưới dạng một chuỗi thời gian, được phân tách theo thể loại,
  • Vân vân.

Cuối cùng, điều này sẽ tạo ra một số lượng lớn các ô, hầu hết trong số đó chỉ hiển thị tiếng ồn. Lý tưởng nhất, công cụ có thể chấm điểm các ô theo tương quan và cuối cùng hiển thị một trình chiếu bắt đầu với các ô ghi điểm cao nhất. Đây sẽ là một cái nhìn rất không hoàn hảo, nhưng hữu ích đầu tiên nhìn vào bộ dữ liệu.

Vì thế? Có một công cụ mà mọi người sử dụng cho việc này và tôi chỉ không biết về nó, hay đây là thứ chúng ta cần phải làm?


Cảm ơn tất cả các bạn rất nhiều cho câu trả lời của bạn. Tôi đang dành thời gian để kiểm tra từng công cụ bạn đề cập trên dữ liệu của tôi. Tôi sẽ chọn một câu trả lời sau các bài kiểm tra của tôi. Tôi đoán nó quá tệ Tôi không thể chọn nhiều hơn một :)
hậu kỳ

Câu trả lời:


15

@Ondrej và @Michelle đã cung cấp một số thông tin tốt ở đây. Tôi tự hỏi nếu tôi có thể đóng góp bằng cách giải quyết một số điểm không được đề cập ở nơi khác. Tôi sẽ không tự đánh bại mình về việc không thể lượm lặt được nhiều từ dữ liệu ở dạng bảng, các bảng nói chung không phải là một cách hay để trình bày thông tin (xem, Gelman và cộng sự, Biến Bảng thành Đồ thị ). Mặt khác, yêu cầu một công cụ sẽ tự động tạo ra tất cả các biểu đồ phù hợp để giúp bạn khám phá một tập dữ liệu mới gần giống như yêu cầu một công cụ sẽ thực hiện suy nghĩ của bạn. (Đừng hiểu sai, tôi nhận ra câu hỏi của bạn làm rõ rằng bạn sẽ không đi xa đến thế; tôi chỉ có nghĩa là sẽ không bao giờ thực sự có một công cụ như vậy.) Một cuộc thảo luận tốt có liên quan đến điều này có thể được tìm thấy ở đây .

Những điều này đã được nói, tôi muốn nói một chút về các loại cốt truyện mà bạn có thể muốn sử dụng để khám phá dữ liệu của mình. Các lô được liệt kê trong câu hỏi sẽ là một khởi đầu tốt, nhưng chúng ta có thể tối ưu hóa điều đó một chút. Để bắt đầu, việc tạo ra một số lượng lớn các cặp tương quan có thể không lý tưởng. Một biểu đồ phân tán chỉ hiển thị mối quan hệ cận biên giữa hai biến. Các mối quan hệ quan trọng thường có thể được ẩn trong một số kết hợp của nhiều biến. Vì vậy, cách đầu tiên để tăng cường phương pháp này là tạo ra một ma trận phân tánhiển thị tất cả các biểu đồ tán xạ đồng thời. Ma trận Scatterplot có thể được tăng cường theo nhiều cách khác nhau: Ví dụ: chúng có thể được kết hợp với các ô mật độ hạt nhân đơn biến của mỗi phân phối biến, các dấu / màu khác nhau có thể được sử dụng để vẽ các nhóm khác nhau và có thể đánh giá các mối quan hệ phi tuyến bằng cách phủ lên một sự phù hợp. Các scatterplot.matrixchức năng trong gói xe trong R có thể làm tất cả những điều độc đáo (ví dụ có thể được nhìn thấy một nửa xuống trang liên kết ở trên).

Tuy nhiên, trong khi ma trận phân tán là một khởi đầu tốt, chúng vẫn chỉ hiển thị các hình chiếu cận biên. Có một vài cách để cố gắng vượt qua điều này. Một là khám phá các ô 3 chiều bằng gói rgl trong R. Một cách tiếp cận khác là sử dụng các ô có điều kiện; coplots có thể giúp mối quan hệ giữa 3 hoặc 4 biến đồng thời. Một cách tiếp cận đặc biệt hữu ích là sử dụng ma trận phân tán tương tác(mặc dù, điều này sẽ đòi hỏi nhiều nỗ lực hơn để học), ví dụ như bằng cách 'đánh răng'. Chải cho phép bạn làm nổi bật một điểm hoặc các điểm trong một khung của ma trận và các điểm đó sẽ đồng thời được tô sáng trong tất cả các khung khác. Bằng cách di chuyển bàn chải xung quanh, bạn có thể thấy tất cả các biến thay đổi cùng nhau như thế nào. CẬP NHẬT: Một khả năng khác mà tôi đã quên đề cập đến là sử dụng biểu đồ tọa độ song song . Điều này có một bất lợi trong việc không làm cho biến trả lời của bạn trở nên khác biệt, nhưng có thể hữu ích, ví dụ, trong việc kiểm tra mối tương quan giữa các biến X của bạn.

Tôi cũng muốn khen ngợi bạn vì đã kiểm tra dữ liệu của bạn được sắp xếp theo ngày thu thập. Mặc dù dữ liệu luôn được thu thập theo thời gian, mọi người không luôn làm điều này. Vẽ biểu đồ đường là tốt, nhưng tôi khuyên bạn nên bổ sung bằng biểu đồ tự tương quantự động tương quan một phần . Trong R, các hàm cho chúng là acfpacftương ứng.

Tôi nhận ra rằng tất cả những điều này không hoàn toàn trả lời câu hỏi của bạn theo nghĩa là cung cấp cho bạn một công cụ sẽ tự động tạo ra tất cả các âm mưu cho bạn, nhưng một hàm ý là bạn thực sự sẽ không phải thực hiện nhiều âm mưu như bạn sợ , ví dụ, ma trận phân tán chỉ là một dòng mã. Ngoài ra, trong R, bạn có thể tự viết một hàm / một số mã có thể sử dụng lại để tự động hóa một phần trong số này (ví dụ: tôi có thể tưởng tượng một hàm có trong danh sách các biến và sắp xếp theo ngày, sắp xếp chúng , bật lên một cửa sổ mới cho mỗi ô với các ô dòng, acf và pacf).


Như mọi khi, điểm tuyệt vời. :)
Michelle

2
(+1) Đừng bỏ lỡ ggobimarginal.plottừ gói latticeExtra .
chl

7

Mối tương quan giữa mỗi cặp cột số có thể được hiển thị trong ma trận tương quan. Nó không cần phải hoàn toàn bằng số, nó có thể được mã hóa màu, để cho phép đánh giá nhanh. Kiểm tra gói Corrplot cho R.

Để phân tích sâu hơn, Rattle là một công cụ GUI hữu ích.

Nếu bạn tìm kiếm Stack Exchange bằng cách sử dụng từ khóa "Corrplot" hay đúng hơn là "Rattle", bạn sẽ tìm thấy một số chủ đề trong đó các công cụ và giải pháp thay thế của chúng được đề cập. Giống như một này .

Chúc may mắn!


4

@Ondrej đã đưa ra một số lời khuyên tốt, vì vậy tôi sẽ tập trung vào câu hỏi của bạn xung quanh cách phần mềm xử lý dữ liệu nhập khẩu. Với dữ liệu ký tự, "Loại 1" và "Loại 2", phần mềm sẽ tự động coi chúng là nhóm hoặc yếu tố vì các hoạt động toán học không thể được tiến hành trên các mẩu dữ liệu này. Điều này có nghĩa là bạn sẽ bị ngăn không cho nhập bất cứ thứ gì từ các danh mục đó (thay vào đó, bạn sẽ gặp lỗi nếu bạn thử nếu bạn đang sử dụng cú pháp hoặc dòng lệnh thay vì hệ thống điều khiển menu) vào một phân tích yêu cầu số.

Đối với dữ liệu như "Số 1" và "Số 2" của bạn, phần mềm sẽ đọc những dữ liệu này dưới dạng số. Nếu bạn có bất kỳ nhóm / yếu tố nào chứa dữ liệu số thuần túy, bạn sẽ cần hướng dẫn phần mềm của mình rằng đây là các nhóm / yếu tố.

Đôi khi ngày có thể được nhập xấu vào phần mềm thống kê. Khi bạn nhập dữ liệu của mình, bạn sẽ thấy loại dữ liệu trong phần mềm thống kê của mình đang hiển thị một số dạng "ngày" cho "Ngày". Nếu bạn thấy kiểu dữ liệu là bất cứ điều gì khác ngoài ngày, bạn có vấn đề. Ngay cả khi nó hiển thị dưới dạng ngày, hãy kiểm tra nhập một số hàng nơi bạn có các ngày như các ngày như ngày 13 hoặc 25 của tháng - tùy thuộc vào cách phần mềm được thiết lập, đôi khi định dạng ngày của người Mỹ / Anh gây ra việc nhập dữ liệu , vì sự đảo ngược của ngày / tháng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.