Là rừng ngẫu nhiên và tăng cường tham số hay không tham số?


13

Bằng cách đọc mô hình thống kê xuất sắc : Hai nền văn hóa (Breiman 2001) , chúng ta có thể nắm bắt được tất cả sự khác biệt giữa các mô hình thống kê truyền thống (ví dụ: hồi quy tuyến tính) và thuật toán học máy (ví dụ: Bagging, Random Forest, Boosted cây ...).

Breiman chỉ trích các mô hình dữ liệu (tham số) bởi vì chúng dựa trên giả định rằng các quan sát được tạo ra bởi một mô hình chính thức đã biết, được quy định bởi nhà thống kê, có thể mô phỏng kém về Tự nhiên. Mặt khác, đại số ML không giả định bất kỳ mô hình chính thức nào và trực tiếp tìm hiểu mối liên hệ giữa các biến đầu vào và đầu ra từ dữ liệu.

Tôi nhận ra rằng Bagging / RF và Boosting, cũng là một loại tham số: ví dụ, ntree , mtry trong RF, tốc độ học tập , phân số túi , độ phức tạp của cây trong Stochastic Gradient Boosted đều là các tham số điều chỉnh . Chúng tôi cũng sắp xếp ước tính các tham số này từ dữ liệu vì chúng tôi đang sử dụng dữ liệu để tìm giá trị tối ưu của các tham số này.

Vậy sự khác biệt là gì? Là mô hình tham số RF và Boosted cây?

Câu trả lời:


12

Các mô hình tham số có các tham số (suy ra chúng) hoặc các giả định về phân phối dữ liệu, trong khi RF, mạng lưới thần kinh hoặc cây tăng có các tham số liên quan đến chính thuật toán, nhưng chúng không cần các giả định về phân phối dữ liệu của bạn hoặc phân loại dữ liệu của bạn thành phân phối lý thuyết . Trong thực tế hầu hết tất cả các thuật toán đều có các tham số như lặp hoặc giá trị lề liên quan đến tối ưu hóa.


5
Vì vậy, để tóm tắt: 1) cả tham số mô hình ML và tham số được điều chỉnh / ước tính dựa trên dữ liệu, BUT 2) trong ML, tham số kiểm soát cách thuật toán học từ dữ liệu (không đưa ra bất kỳ giả định nào về dữ liệu và hạ lưu việc tạo dữ liệu), trong khi các tham số của các mô hình tham số (mô hình được giả định là tiên nghiệm) kiểm soát cơ chế được cho là đã tạo ra dữ liệu (với rất nhiều giả định không thực tế mà hiếm khi có trong thực tế). Bạn có nghĩ rằng đây là một bản tóm tắt đầy đủ? Bạn sẽ thêm / thay đổi bất cứ điều gì?
Antoine

4
Tôi nghĩ rằng một câu trong bài viết của Breiman tóm tắt tất cả mọi thứ là "mô hình hóa thuật toán chuyển trọng tâm từ mô hình dữ liệu sang các thuộc tính của thuật toán".
Antoine

1
Bạn có thể tóm tắt như vậy nhưng .. đừng đánh giá thấp các mô hình tham số. Có những tình huống chúng cần thiết và tối ưu để giải quyết nhiều vấn đề. Ngoài ra các giả định của họ không quá phi thực tế. Nhiều phân phối lý thuyết có giá trị để giải thích rất nhiều thứ, từ bình thường đến nhị thức đến logic, hình học, v.v. Không phải là về cái này hay cái khác, đó là về cách chọn đúng cách để giải quyết vấn đề.
D.Castro

4
Tôi đồng ý. Khi quá trình vật lý cơ bản được biết đến, các mô hình tham số là phù hợp. Breiman đang chỉ trích việc sử dụng các mô hình tham số để khám phá và dự đoán kiến ​​thức khi các quy trình cơ bản chưa được biết
Antoine

1

Tôi nghĩ tiêu chí cho tham số và không tham số là thế này: liệu số lượng tham số có tăng theo số lượng mẫu đào tạo hay không. Đối với hồi quy logistic và svm, khi bạn chọn các tính năng, bạn sẽ không nhận được nhiều tham số hơn bằng cách thêm nhiều dữ liệu đào tạo. Nhưng đối với RF và như vậy, các chi tiết của mô hình sẽ thay đổi (như độ sâu của cây) mặc dù số lượng cây không thay đổi.


nhưng trong RF hoặc Boosting, việc tăng độ sâu của cây không phải là thêm tham số. Bạn vẫn có tree.complexitytham số của bạn , bạn chỉ cần thay đổi giá trị của nó. Ngoài ra, trong RF và Tăng số lượng cây trong rừng / chuỗi không thay đổi tùy thuộc vào kích thước mẫu của bạn
Antoine

trong tùy chọn của tôi, khi độ sâu của cây thay đổi, có một số phân chia nhiều hơn trong cây, do đó bạn có nhiều tham số hơn. Khi số lượng cây thay đổi trong RF và Tăng cường khi dữ liệu thay đổi, nhưng điều này sẽ không xảy ra khi mô hình là mô hình tuyến tính.
Yu Zhang

1

Theo nghĩa thống kê, mô hình là tham số, nếu các tham số được học hoặc suy ra dựa trên dữ liệu. Một cây theo nghĩa này là không đối xứng. Tất nhiên độ sâu của cây là một tham số của thuật toán, nhưng nó không bắt nguồn từ dữ liệu, mà là một tham số đầu vào phải được cung cấp bởi người dùng.


Vì vậy, giả sử bạn phải trình bày OLS và các mô hình dựa trên cây cho đối tượng không có kỹ thuật, bạn có thể nói rằng cái trước là tham số trong khi cái sau là không tham số không?
Tanguy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.