Bằng cách đọc mô hình thống kê xuất sắc : Hai nền văn hóa (Breiman 2001) , chúng ta có thể nắm bắt được tất cả sự khác biệt giữa các mô hình thống kê truyền thống (ví dụ: hồi quy tuyến tính) và thuật toán học máy (ví dụ: Bagging, Random Forest, Boosted cây ...).
Breiman chỉ trích các mô hình dữ liệu (tham số) bởi vì chúng dựa trên giả định rằng các quan sát được tạo ra bởi một mô hình chính thức đã biết, được quy định bởi nhà thống kê, có thể mô phỏng kém về Tự nhiên. Mặt khác, đại số ML không giả định bất kỳ mô hình chính thức nào và trực tiếp tìm hiểu mối liên hệ giữa các biến đầu vào và đầu ra từ dữ liệu.
Tôi nhận ra rằng Bagging / RF và Boosting, cũng là một loại tham số: ví dụ, ntree , mtry trong RF, tốc độ học tập , phân số túi , độ phức tạp của cây trong Stochastic Gradient Boosted đều là các tham số điều chỉnh . Chúng tôi cũng sắp xếp ước tính các tham số này từ dữ liệu vì chúng tôi đang sử dụng dữ liệu để tìm giá trị tối ưu của các tham số này.
Vậy sự khác biệt là gì? Là mô hình tham số RF và Boosted cây?