Về dự đoán, thống kê và khoa học máy học bắt đầu giải quyết hầu hết cùng một vấn đề từ các quan điểm khác nhau.
Về cơ bản thống kê giả định rằng dữ liệu được tạo ra bởi một mô hình ngẫu nhiên nhất định. Vì vậy, từ góc độ thống kê, một mô hình được giả định và đưa ra các giả định khác nhau, các lỗi được xử lý và các tham số mô hình và các câu hỏi khác được suy ra.
Học máy xuất phát từ quan điểm khoa học máy tính. Các mô hình là thuật toán và thường rất ít giả định được yêu cầu liên quan đến dữ liệu. Chúng tôi làm việc với không gian giả thuyết và học tập thiên vị. Giải trình tốt nhất về học máy mà tôi tìm thấy có trong cuốn sách của Tom Mitchell có tên là Machine Learning .
Để có một ý tưởng toàn diện và đầy đủ hơn về hai nền văn hóa, bạn có thể đọc bài viết của Leo Breiman có tên là Mô hình thống kê: Hai nền văn hóa
Tuy nhiên, điều cần phải nói thêm là ngay cả khi hai ngành khoa học bắt đầu với những quan điểm khác nhau, cả hai hiện tại đều có chung một lượng kiến thức và kỹ thuật chung. Tại sao, bởi vì các vấn đề là như nhau, nhưng các công cụ là khác nhau. Vì vậy, bây giờ học máy chủ yếu được xử lý từ góc độ thống kê (kiểm tra cuốn sách của Hastie, Tibshirani, Friedman Các yếu tố của học thống kê theo quan điểm học máy với một điều trị thống kê, và có lẽ cuốn sách Machine Learning: A của Kevin P. Murphy quan điểm xác suất , để chỉ một vài trong số những cuốn sách hay nhất hiện nay).
Ngay cả lịch sử phát triển của lĩnh vực này cũng cho thấy những lợi ích của sự hợp nhất các quan điểm này. Tôi sẽ mô tả hai sự kiện.
Đầu tiên là việc tạo ra các cây GIỎI, được Breiman tạo ra với một nền tảng thống kê vững chắc. Gần như cùng lúc, Quinlan đã phát triển ID3, C45, See5, v.v., bộ cây quyết định với nền tảng khoa học máy tính nhiều hơn. Bây giờ cả họ cây này và các phương pháp tập hợp như đóng bao và rừng trở nên khá giống nhau.
Câu chuyện thứ hai là về việc thúc đẩy. Ban đầu chúng được phát triển bởi Freund và Shapire khi họ phát hiện ra AdaBoost. Các lựa chọn để thiết kế AdaBoost được thực hiện chủ yếu từ góc độ tính toán. Ngay cả các tác giả cũng không hiểu tại sao nó hoạt động. Chỉ 5 năm sau Breiman (một lần nữa!) Đã mô tả mô hình adaboost từ góc độ thống kê và đưa ra lời giải thích cho lý do tại sao nó hoạt động. Kể từ đó, các nhà khoa học nổi tiếng khác nhau, với cả hai loại nền tảng, đã phát triển thêm những ý tưởng đó dẫn đến một thuật toán tăng cường, như tăng cường logistic, tăng cường độ dốc, tăng cường nhẹ nhàng. Bây giờ thật khó để nghĩ đến việc tăng mà không có một nền tảng thống kê vững chắc.
Mô hình tuyến tính tổng quát là một sự phát triển thống kê. Tuy nhiên, phương pháp điều trị Bayes mới đưa thuật toán này vào sân chơi máy học. Vì vậy, tôi tin rằng cả hai tuyên bố đều có thể đúng, vì việc giải thích và xử lý cách thức hoạt động của nó có thể khác nhau.