IMHO không có sự khác biệt chính thức nào phân biệt học máy và thống kê ở cấp độ cơ bản của mô hình phù hợp với dữ liệu. Có thể có sự khác biệt về văn hóa trong việc lựa chọn mô hình, mục tiêu của mô hình phù hợp với dữ liệu và một số mở rộng các diễn giải.
Trong các ví dụ điển hình tôi có thể nghĩ về chúng ta luôn luôn có
- một tập hợp các mô hình cho cho một số chỉ mục đặt , i ∈ I tôiMii∈II
- và với mỗi một thành phần không xác định (các tham số, có thể là chiều vô hạn) của mô hình .q i M iiθiMi
Việc gắn vào dữ liệu hầu như luôn là một vấn đề tối ưu hóa toán học bao gồm việc tìm ra sự lựa chọn tối ưu của thành phần chưa biết để làm cho phù hợp với dữ liệu được đo bằng một số chức năng yêu thích.θ i M iMiθiMi
Lựa chọn trong số các mô hình là ít tiêu chuẩn hơn, và có một loạt các kỹ thuật có sẵn. Nếu mục tiêu của sự phù hợp mô hình hoàn toàn là dự đoán, việc lựa chọn mô hình được thực hiện với nỗ lực để có được hiệu suất dự đoán tốt, trong khi nếu mục tiêu chính là giải thích các mô hình kết quả, thì các mô hình dễ hiểu hơn có thể được chọn so với các mô hình khác ngay cả khi sức mạnh dự đoán dự kiến sẽ tồi tệ hơn.Mi
Những gì có thể được gọi là lựa chọn mô hình thống kê trường học cũ dựa trên các bài kiểm tra thống kê có thể kết hợp với các chiến lược lựa chọn theo từng bước, trong khi lựa chọn mô hình học máy thường tập trung vào lỗi tổng quát hóa dự kiến, thường được ước tính bằng xác nhận chéo. Tuy nhiên, những phát triển và hiểu biết về lựa chọn mô hình dường như hội tụ về một nền tảng chung hơn, ví dụ, xem, Chọn mô hình và Trung bình mô hình .
Suy ra nhân quả từ các mô hình
Mấu chốt của vấn đề là làm thế nào chúng ta có thể diễn giải một mô hình? Nếu dữ liệu thu được là từ một thử nghiệm được thiết kế cẩn thận và mô hình đầy đủ, chúng ta có thể hiểu tác động của sự thay đổi của một biến trong mô hình là hiệu ứng nhân quả và nếu chúng ta lặp lại thí nghiệm và can thiệp vào biến cụ thể này chúng ta có thể mong đợi để quan sát hiệu quả ước tính. Tuy nhiên, nếu dữ liệu là quan sát, chúng ta không thể mong đợi rằng các hiệu ứng ước tính trong mô hình tương ứng với các hiệu ứng can thiệp có thể quan sát được. Điều này sẽ yêu cầu các giả định bổ sung không quan tâm đến việc mô hình đó là "mô hình học máy" hay "mô hình thống kê cổ điển".
Có thể là những người được đào tạo sử dụng các mô hình thống kê cổ điển tập trung vào ước tính tham số đơn biến và diễn giải kích thước hiệu ứng là ấn tượng rằng một diễn giải nguyên nhân có giá trị hơn trong khung này so với khung học máy. Tôi sẽ nói là không.
Khu vực suy luận nguyên nhân trong thống kê không thực sự loại bỏ vấn đề, nhưng nó đưa ra các giả định mà kết luận nguyên nhân dựa trên đó rõ ràng. Chúng được gọi là giả định không thể kiểm chứng . Bài viết Suy luận nguyên nhân trong thống kê: Tổng quan về Judea Pearl là một bài viết hay để đọc. Đóng góp chính từ suy luận nguyên nhân là tập hợp các phương pháp để ước tính tác động nhân quả theo các giả định trong đó thực sự có các yếu tố gây nhiễu không quan sát được, đó là một mối quan tâm lớn. Xem Phần 3.3 trong bài viết trên Pearl. Một ví dụ nâng cao hơn có thể được tìm thấy trong bài báo Mô hình cấu trúc cận biên và suy luận nguyên nhân trong dịch tễ học .
Đây là một câu hỏi chủ đề cho dù các giả định không thể kiểm soát được. Chúng chính xác là không thể kiểm chứng vì chúng tôi không thể kiểm tra chúng bằng dữ liệu. Để biện minh cho các giả định cần có các đối số khác.
Như một ví dụ về trường hợp học máy và suy luận nguyên nhân gặp nhau, các ý tưởng về ước lượng khả năng tối đa được nhắm mục tiêu như được trình bày trong Học tập khả năng tối đa được nhắm mục tiêu của Mark van der Laan và Daniel Rubin thường khai thác các kỹ thuật học máy để ước tính phi tham số theo sau là "nhắm mục tiêu "Hướng tới một tham số quan tâm. Cái sau rất có thể là một tham số với một giải thích nguyên nhân. Ý tưởng trong Super Learnerlà dựa nhiều vào các kỹ thuật học máy để ước tính các tham số quan tâm. Một điểm quan trọng của Mark van der Laan (giao tiếp cá nhân) là các mô hình thống kê cổ điển, đơn giản và "có thể giải thích" thường sai, dẫn đến các ước lượng sai lệch và đánh giá quá lạc quan về tính không chắc chắn của các ước tính.