Hướng dẫn khám phá kiến ​​thức mới trong dữ liệu


9

Tôi âm mưu một cái gì đó để làm cho một điểm cho bản thân hoặc người khác. Thông thường, một câu hỏi bắt đầu quá trình này, và thường người hỏi hy vọng cho một câu trả lời cụ thể.

Làm cách nào tôi có thể tìm hiểu những điều thú vị về dữ liệu theo cách ít sai lệch?

Ngay bây giờ tôi đang theo phương pháp này:

  1. Tóm tắt thống kê.
  2. Vũ nữ thoát y.
  3. Âm mưu phân tán.
  4. Có thể lặp lại với một tập hợp con thú vị của dữ liệu.

Nhưng điều đó dường như không đủ phương pháp hoặc khoa học.

Có hướng dẫn hoặc quy trình nào để tuân theo điều đó tiết lộ những điều về dữ liệu tôi không muốn hỏi không? Làm thế nào để tôi biết khi tôi đã thực hiện một phân tích đầy đủ?

Câu trả lời:


6

Có cả một lĩnh vực phân tích dữ liệu khám phá (EDA), và một cuốn sách tuyệt vời về chủ đề này được gọi là Phân tích dữ liệu khám phá , của John W. Tukey.

Tôi thích rằng bạn đang sử dụng biểu đồ - có nhiều biểu đồ khác có thể hữu ích, tùy thuộc vào dữ liệu của bạn - có bao nhiêu biến? Bản chất của các biến là gì (Phân loại? Số? Liên tục? Đếm? Thông thường?)

Một biểu đồ thường hữu ích cho dữ liệu có nhiều biến là ma trận phân tán.

Bạn có thể tìm kiếm các loại ngoại lệ khác nhau, thường là những điểm thú vị.

Nhưng tôi không nghĩ rằng toàn bộ quá trình này có thể được thực hiện một cách có phương pháp và khoa học - khám phá là những gì xuất hiện TRƯỚC các phương pháp khoa học và phương pháp có thể được đưa vào. Ở đây, tôi nghĩ khía cạnh quan trọng là sự vui tươi.


(+1) Bạn có thể cung cấp một liên kết đến cuốn sách được đề cập?
steffen

EDA từ Cẩm nang Kỹ thuật và Thống kê itl.nist.gov/div898/handbook/eda/eda.htmlm .
Selden

@Peter Flom 13 biến được tạo bằng cách so sánh hai bộ đầu ra được tạo bởi một chương trình chạy trên hai bộ đầu vào. Chương trình chạy định kỳ. Các biến là thứ tự, loại, loại, loại, loại, đếm, đếm, đếm, đếm, số, số, đếm, và đếm. Các tên là id, machineA, inputA, machineB, inputB, new, same, thiếu, newP, thiếuP, lengthA, lengthB, pointsA, pointsB. Nhưng quyết định chỉ so sánh sản phẩm gần đây nhất cũng là ý tưởng tốt / xấu của tôi.
Selden

Cuốn sách thực sự được gọi là Phân tích dữ liệu khám phá (không phải EDA) bởi John W. Tukey (bộ nhớ của tôi đã lừa tôi vì bìa của phiên bản của tôi được gắn nhãn EDA) Liên kết: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 / Hoài
Peter Flom

@selden Chà, ID có lẽ không phải là một biến hữu ích. Giữa hai biến phân loại, bạn có thể nhìn vào các ô khảm; giữa một hộp số phân loại và số, song song có thể là tốt.
Peter Flom

1

Nếu bạn có dữ liệu theo thứ tự thời gian dữ liệu chuỗi thời gian thì có "những điều đã biết" và chờ đợi để được khám phá là những "ẩn số". Ví dụ: nếu bạn có một chuỗi các điểm dữ liệu trong 10 giai đoạn, chẳng hạn như 1,9,1,9,1,5,1,9,1,9 thì dựa trên mẫu này, người ta có thể mong đợi một cách hợp lý 1,9,1,9 , ... sẽ phát sinh trong tương lai. Những gì phân tích dữ liệu tiết lộ là có một cách đọc "bất thường" ở giai đoạn 6 mặc dù nó cũng nằm trong giới hạn + -3 sigma cho thấy DGF đã không giữ. Bộc lộ Đầu vào / Ngoại lệ cho phép chúng tôi tiết lộ những điều về dữ liệu. Chúng tôi cũng lưu ý rằng Giá trị trung bình không phải là Giá trị mong đợi. Ý tưởng này dễ dàng mở rộng để phát hiện các Dịch chuyển trung bình và / hoặc Xu hướng thời gian địa phương có thể chưa được biết trước khi dữ liệu được phân tích (Tạo giả thuyết). Bây giờ hoàn toàn có thể là 10 bài đọc tiếp theo cũng là 1,9,1,9, 1,5,1,9,1,9 cho thấy rằng "5" không nhất thiết là không có. Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. 9 gợi ý rằng "5" không nhất thiết là không có. Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. 9 gợi ý rằng "5" không nhất thiết là không có. Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. không nhất thiết là vô song Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. không nhất thiết là vô song Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. Nếu chúng ta quan sát quá trình lỗi từ một mô hình phù hợp thể hiện phương sai không cố định có thể chứng minh được, chúng ta có thể tiết lộ một trong những trạng thái tự nhiên sau: 1) các tham số có thể đã thay đổi tại một thời điểm cụ thể; 2. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. Có thể cần phân tích trọng số (GLS); 3. Có thể cần phải chuyển đổi dữ liệu thông qua một biến đổi sức mạnh; 4. Có thể cần phải thực sự mô hình hóa phương sai của các lỗi. Nếu bạn có dữ liệu hàng ngày, phân tích tốt có thể tiết lộ rằng có một cửa sổ phản hồi (cấu trúc dẫn, đồng thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. cấu trúc đương thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt. cấu trúc đương thời và độ trễ) xung quanh mỗi Ngày lễ phản ánh hành vi nhất quán / có thể dự đoán được. Bạn cũng có thể tiết lộ rằng một số ngày nhất định trong tháng có ảnh hưởng đáng kể hoặc thứ Sáu trước ngày nghỉ thứ Hai có hoạt động đặc biệt.


0

Datamining có thể được chia thành hai loại. Nếu bạn quan tâm đến việc đo lường hiệu quả của tập dữ liệu / biến trên một biến cụ thể thì điều này sẽ được coi là học có giám sát. Đối với học tập sâu và khám phá không có mục tiêu, bạn đang trải qua học tập không giám sát.

Vẽ đồ thị và phân tích thống kê dữ liệu (hiểu phân phối và đạt được trực giác) là những bước đầu tiên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.