Tôi là người mới tham gia Học máy (cũng có một số thống kê), đã học kiến thức (thuật toán học có giám sát / không giám sát, phương pháp tối ưu hóa có liên quan, chính quy hóa, một số triết lý (chẳng hạn như đánh đổi sai lệch?) Trong một thời gian. Tôi biết rằng nếu không có bất kỳ thực hành thực tế nào, tôi sẽ không có được sự hiểu biết sâu sắc về những thứ máy học đó.
Vì vậy, tôi bắt đầu với một số vấn đề phân loại với dữ liệu thực, giả sử phân loại chữ số viết tay (MNIST). Thật ngạc nhiên, không có bất kỳ tính năng học tập / kỹ thuật nào , độ chính xác đạt 0,97 bằng cách sử dụng trình phân loại rừng ngẫu nhiên với các giá trị pixel thô làm đầu vào. Tôi cũng đã thử các thuật toán học tập khác, chẳng hạn như SVM, LR với các tham số được điều chỉnh.
Sau đó tôi bị lạc, nó sẽ quá dễ dàng hay tôi thiếu thứ gì ở đây? Chỉ cần chọn một thuật toán học tập từ bộ công cụ và điều chỉnh một số tham số?
Nếu đó là tất cả về học máy trong thực tế, thì tôi sẽ mất hứng thú với lĩnh vực này. Tôi đã suy nghĩ và đọc một số blog trong một vài ngày, và tôi đã đi đến một số kết luận:
Phần quan trọng nhất của học máy trong thực tế là kỹ thuật tính năng , nghĩa là, được cung cấp dữ liệu, tìm ra cách thể hiện tốt hơn các tính năng.
Thuật toán học nào để sử dụng cũng quan trọng, cũng là điều chỉnh tham số, nhưng lựa chọn cuối cùng là về thử nghiệm.
Tôi không chắc là tôi hiểu chính xác, hy vọng bất cứ ai cũng có thể sửa tôi và cho tôi một số gợi ý về học máy trong thực tế.