Chúng tôi đang nghiên cứu về máy học thông qua Machine Learning: A Persidenceistic Persception (Kevin Murphy). Mặc dù văn bản giải thích nền tảng lý thuyết của từng thuật toán, nhưng nó hiếm khi nói trong trường hợp nào thuật toán nào tốt hơn và khi nào, nó không nói làm thế nào để biết tôi đang ở trong trường hợp nào.
Ví dụ, đối với việc lựa chọn kernel, tôi được yêu cầu thực hiện phân tích dữ liệu thăm dò để đánh giá mức độ phức tạp của dữ liệu của tôi. Trong dữ liệu 2 chiều đơn giản, tôi có thể vẽ đồ thị và xem liệu một hạt nhân tuyến tính hay xuyên tâm là phù hợp. Nhưng phải làm gì trong chiều cao hơn?
Nói chung, mọi người có ý nghĩa gì khi họ nói "tìm hiểu dữ liệu của bạn" trước khi chọn một thuật toán? Ngay bây giờ tôi chỉ có thể phân biệt thuật toán phân loại và thuật toán hồi quy và thuật toán tuyến tính và phi tuyến tính (mà tôi không thể kiểm tra).
EDIT: Mặc dù câu hỏi ban đầu của tôi là về quy tắc chung, tôi đã được yêu cầu cung cấp thêm thông tin về vấn đề cụ thể của mình.
Dữ liệu: Một bảng điều khiển với mỗi hàng là một quốc gia (tổng cộng ~ 30.000 hàng, bao gồm ~ 165 quốc gia trong hơn 15 năm).
Trả lời: 5 biến nhị phân quan tâm (nghĩa là phản đối / đảo chính / khủng hoảng, v.v. xảy ra trong tháng đó).
Các tính năng: ~ 400 biến số (hỗn hợp liên tục, phân loại, nhị phân) mô tả chi tiết một loạt các đặc tính của 2 tháng quốc gia trước đó (có thể tạo độ trễ dài hơn). Chúng tôi chỉ sử dụng biến bị trễ vì mục tiêu là dự đoán.
Ví dụ bao gồm, tỷ giá hối đoái, tăng trưởng GDP (liên tục), mức độ báo chí tự do (phân loại), dân chủ, cho dù hàng xóm có xung đột (nhị phân). Lưu ý rằng rất nhiều trong số 400 tính năng này là các biến bị trễ.