Câu hỏi của tôi đến từ thực tế sau đây. Tôi đã được đọc bài viết, blog, bài giảng cũng như sách về học máy. Ấn tượng của tôi là các học viên máy học dường như thờ ơ với nhiều điều mà các nhà thống kê / kinh tế lượng quan tâm. Cụ thể, các học viên máy học nhấn mạnh độ chính xác dự đoán hơn suy luận.
Một ví dụ như vậy xảy ra khi tôi tham gia Machine Learning của Andrew Ng trên Coursera. Khi ông thảo luận về Mô hình tuyến tính đơn giản, ông không đề cập gì đến thuộc tính BLUE của các công cụ ước tính, hoặc mức độ không đồng nhất sẽ "vô hiệu hóa" khoảng tin cậy. Thay vào đó, ông tập trung vào việc thực hiện giảm độ dốc và khái niệm xác thực chéo / đường cong ROC. Những chủ đề này không được đề cập trong các lớp học kinh tế lượng / thống kê của tôi.
Một ví dụ khác xảy ra khi tôi tham gia các cuộc thi Kaggle. Tôi đã đọc mã và suy nghĩ của người khác. Một phần lớn những người tham gia chỉ cần ném mọi thứ vào SVM / rừng ngẫu nhiên / XGBoost.
Một ví dụ khác là về lựa chọn mô hình từng bước. Kỹ thuật này được sử dụng rộng rãi, ít nhất là trực tuyến và trên Kaggle. Nhiều sách giáo khoa máy học cổ điển cũng bao gồm nó, chẳng hạn như Giới thiệu về Học thống kê. Tuy nhiên, theo câu trả lời này (khá thuyết phục), việc lựa chọn mô hình từng bước phải đối mặt với rất nhiều vấn đề, đặc biệt là khi nói đến "khám phá mô hình thực sự". Dường như chỉ có hai khả năng: hoặc là những người thực hành máy học không biết vấn đề theo từng bước, hoặc họ làm nhưng họ không quan tâm.
Vì vậy, đây là những câu hỏi của tôi:
- Có đúng là (nói chung) các học viên học máy tập trung vào dự đoán và do đó không quan tâm đến rất nhiều điều mà các nhà thống kê / nhà kinh tế quan tâm?
- Nếu nó là sự thật, thì lý do đằng sau nó là gì? Có phải bởi vì suy luận là khó khăn hơn trong một số ý nghĩa?
- Có hàng tấn tài liệu về học máy (hoặc dự đoán) trực tuyến. Tuy nhiên, nếu tôi quan tâm đến việc học về suy luận, một số tài nguyên trực tuyến mà tôi có thể tham khảo là gì?
Cập nhật : Tôi mới nhận ra rằng từ "suy luận" có thể có nghĩa là rất nhiều thứ. Ý tôi là "suy luận" đề cập đến những câu hỏi như
Đã làm nguyên nhân hoặc gây ra ? Hay nói chung hơn, mối quan hệ nhân quả giữa gì?
Vì "tất cả các mô hình đều sai", làm thế nào "sai" là mô hình của chúng tôi từ mô hình thực sự?
Đưa ra thông tin của một mẫu, chúng ta có thể nói gì về dân số và chúng ta có thể nói điều đó như thế nào?
Do kiến thức thống kê rất hạn chế của tôi, tôi thậm chí không chắc liệu những câu hỏi đó có rơi vào địa hạt thống kê hay không. Nhưng đó là những loại câu hỏi mà những người thực hành máy học dường như không quan tâm. Có lẽ các nhà thống kê cũng không quan tâm? Tôi không biết.
fortunes
gói trên CRAN. Điều này chỉ để nói rằng, bạn không đơn độc với Ấn tượng, rằng sự chặt chẽ toán học không phải luôn luôn là mối quan tâm chính trong học máy.