Cách thực hiện phân tích dữ liệu thăm dò để chọn thuật toán học máy phù hợp


16

Chúng tôi đang nghiên cứu về máy học thông qua Machine Learning: A Persidenceistic Persception (Kevin Murphy). Mặc dù văn bản giải thích nền tảng lý thuyết của từng thuật toán, nhưng nó hiếm khi nói trong trường hợp nào thuật toán nào tốt hơn và khi nào, nó không nói làm thế nào để biết tôi đang ở trong trường hợp nào.

Ví dụ, đối với việc lựa chọn kernel, tôi được yêu cầu thực hiện phân tích dữ liệu thăm dò để đánh giá mức độ phức tạp của dữ liệu của tôi. Trong dữ liệu 2 chiều đơn giản, tôi có thể vẽ đồ thị và xem liệu một hạt nhân tuyến tính hay xuyên tâm là phù hợp. Nhưng phải làm gì trong chiều cao hơn?

Nói chung, mọi người có ý nghĩa gì khi họ nói "tìm hiểu dữ liệu của bạn" trước khi chọn một thuật toán? Ngay bây giờ tôi chỉ có thể phân biệt thuật toán phân loại và thuật toán hồi quy và thuật toán tuyến tính và phi tuyến tính (mà tôi không thể kiểm tra).

EDIT: Mặc dù câu hỏi ban đầu của tôi là về quy tắc chung, tôi đã được yêu cầu cung cấp thêm thông tin về vấn đề cụ thể của mình.

Dữ liệu: Một bảng điều khiển với mỗi hàng là một quốc gia (tổng cộng ~ 30.000 hàng, bao gồm ~ 165 quốc gia trong hơn 15 năm).

Trả lời: 5 biến nhị phân quan tâm (nghĩa là phản đối / đảo chính / khủng hoảng, v.v. xảy ra trong tháng đó).

Các tính năng: ~ 400 biến số (hỗn hợp liên tục, phân loại, nhị phân) mô tả chi tiết một loạt các đặc tính của 2 tháng quốc gia trước đó (có thể tạo độ trễ dài hơn). Chúng tôi chỉ sử dụng biến bị trễ vì mục tiêu là dự đoán.

Ví dụ bao gồm, tỷ giá hối đoái, tăng trưởng GDP (liên tục), mức độ báo chí tự do (phân loại), dân chủ, cho dù hàng xóm có xung đột (nhị phân). Lưu ý rằng rất nhiều trong số 400 tính năng này là các biến bị trễ.

Câu trả lời:


15

Đây là một câu hỏi rộng mà không có câu trả lời đơn giản. Tại CMU tôi đã dạy một khóa học 3 tháng về chủ đề này. Nó bao gồm các vấn đề như:

  1. Sử dụng các phép chiếu để hiểu mối tương quan giữa các biến và cấu trúc phân phối tổng thể.
  2. Làm thế nào để xây dựng một mô hình hồi quy bằng cách liên tục mô hình dư.
  3. Xác định thời điểm thêm các thuật ngữ tương tác phi tuyến vào mô hình tuyến tính.
  4. Làm thế nào để quyết định giữa knn so với cây quyết định so với phân loại logistic. Tôi đã xem qua một số bộ dữ liệu UCI và chỉ ra cách bạn có thể biết trình phân loại nào sẽ giành chiến thắng trước khi chạy chúng.

Đáng buồn thay, không có video hoặc sách giáo khoa cho khóa học, nhưng tôi đã có một bài nói chuyện tóm tắt những điểm chính từ lớp học. Tôi không biết về bất kỳ sách giáo khoa bao gồm cùng một nền tảng.


Tôi sẽ mất một hoặc hai ngày để tiêu hóa những tài liệu hữu ích này, nhưng trong khi tôi chú ý: Tại sao chúng ta không có sách giáo khoa / tài nguyên về chủ đề này? Nó không quan trọng vì bất cứ khi nào ai đó tham gia vào một dự án, họ phải suy nghĩ về câu hỏi này?
Heisenberg

1
Câu hỏi hay (+1) và câu trả lời (+1). @Heisenberg: Tôi đồng ý với Tom khi chưa xem sách giáo khoa cụ thể về chủ đề này. Tuy nhiên, ngoài các tài nguyên của anh ấy, tôi sẽ đề xuất hai tài nguyên trực tuyến (mặc dù chúng không tập trung vào các ứng dụng ML): 1) phần EDA của Sổ tay thống kê kỹ thuật NIST; 2) một bài báo thú vị của Giáo sư Andrew Gelman về EDA cho các mô hình phức tạp.
Alexanderr Blekh 28/03/2015

0

Có một số điều mà bạn có thể kiểm tra trong dữ liệu của bạn.

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

Theo những điểm này và loại thông tin bạn muốn trích xuất từ ​​dữ liệu của mình, bạn có thể quyết định sử dụng thuật toán nào.


Bạn có thể giải thích làm thế nào mỗi 4 thông tin này ảnh hưởng đến sự lựa chọn thuật toán của tôi không? Tôi chỉ biết rằng 2 sẽ quyết định phân loại so với hồi quy. Còn 3 người kia thì sao? (đặc biệt là số 4 - Tôi có dữ liệu bảng điều khiển của 165 quốc gia trong hơn 10 năm)
Heisenberg

Trong 2- Tôi đã suy nghĩ về các biến phân loại là đầu vào. Quyết định cuối cùng về thuật toán phụ thuộc vào vấn đề mà bạn đang cố gắng giải quyết. Bây giờ có cách để biết rằng trước đây. Trong 2- có thể một cây quyết định có thể giúp bạn. Trong 3 bạn phải cẩn thận về việc thừa. Trong 4 - bạn phải quyết định cách đánh giá hiệu suất của bạn. Chỉ khi bạn giải thích một vấn đề cụ thể, chúng tôi mới có thể giúp bạn quyết định sử dụng thuật toán nào.
Donbeo

Tôi đã chỉnh sửa câu hỏi của mình để biết thêm chi tiết về vấn đề cụ thể của tôi.
Heisenberg
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.