Là rừng ngẫu nhiên là một thuật toán thúc đẩy?


51

Định nghĩa ngắn về tăng cường :

Một tập hợp những người học yếu có thể tạo ra một người học mạnh không? Một người học yếu được định nghĩa là một bộ phân loại chỉ tương quan một chút với phân loại thực sự (nó có thể gắn nhãn các ví dụ tốt hơn so với đoán ngẫu nhiên).

Định nghĩa ngắn về Rừng ngẫu nhiên :

Rừng ngẫu nhiên trồng nhiều cây phân loại. Để phân loại một đối tượng mới từ một vectơ đầu vào, đặt vectơ đầu vào xuống từng cây trong rừng. Mỗi cây đưa ra một phân loại và chúng ta nói cây "phiếu" cho lớp đó. Rừng chọn phân loại có nhiều phiếu nhất (trên tất cả các cây trong rừng).

Một định nghĩa ngắn khác về Rừng ngẫu nhiên :

Một khu rừng ngẫu nhiên là một công cụ ước tính meta phù hợp với một số phân loại cây quyết định trên các mẫu con khác nhau của bộ dữ liệu và sử dụng tính trung bình để cải thiện độ chính xác dự đoán và kiểm soát sự phù hợp.

Theo tôi hiểu Random Forest là một thuật toán tăng cường sử dụng cây làm phân loại yếu. Tôi biết rằng nó cũng sử dụng các kỹ thuật khác và cải thiện chúng. Ai đó đã sửa cho tôi rằng Rừng ngẫu nhiên không phải là một thuật toán thúc đẩy?

Ai đó có thể giải thích về điều này, tại sao Random Forest không phải là một thuật toán thúc đẩy?


13
Rừng ngẫu nhiên là một thuật toán đóng bao: en.wikipedia.org/wiki/Bootstrap_aggregating . Tôi đề nghị bạn đọc nhiều hơn mô tả ngắn nhất có thể về việc tăng cường để thấy sự khác biệt. Trong việc thúc đẩy, chiến lược lấy mẫu lại không phải là ngẫu nhiên.
Marc Claesen

12
Sự thật thú vị: trong bài viết về Rừng ngẫu nhiên ban đầu, Breiman gợi ý rằng AdaBoost (chắc chắn là thuật toán tăng tốc) chủ yếu thực hiện Random Forest khi, sau vài lần lặp lại, không gian tối ưu hóa của nó trở nên ồn ào đến mức chỉ đơn giản là trôi đi một cách ngẫu nhiên.

Câu trả lời:


81

Random Forest là một thuật toán đóng bao thay vì thuật toán tăng tốc. Họ là hai cách ngược lại để đạt được một lỗi thấp.

Chúng tôi biết rằng lỗi có thể được tổng hợp từ sai lệch và phương sai. Một mô hình quá phức tạp có độ lệch thấp nhưng phương sai lớn, trong khi một mô hình quá đơn giản có độ sai lệch thấp nhưng độ lệch lớn, cả hai đều dẫn đến một lỗi cao nhưng hai lý do khác nhau. Kết quả là, hai cách khác nhau để giải quyết vấn đề xuất hiện trong tâm trí của mọi người (có thể là Breiman và những người khác), giảm phương sai cho một mô hình phức tạp hoặc giảm sai lệch cho một mô hình đơn giản, trong đó đề cập đến rừng ngẫu nhiên và tăng cường.

Rừng ngẫu nhiên làm giảm phương sai của một số lượng lớn các mô hình "phức tạp" với độ lệch thấp. Chúng ta có thể thấy các thành phần thành phần không phải là mô hình "yếu" mà là mô hình quá phức tạp. Nếu bạn đọc về thuật toán, các cây bên dưới được trồng "phần nào" lớn nhất có thể. Các cây bên dưới là các mô hình song song độc lập. Và lựa chọn biến ngẫu nhiên bổ sung được đưa vào chúng để làm cho chúng độc lập hơn nữa, điều này làm cho nó hoạt động tốt hơn so với đóng bao thông thường và đặt tên là "ngẫu nhiên".

Trong khi tăng cường làm giảm sự thiên vị của một số lượng lớn các mô hình "nhỏ" với phương sai thấp. Họ là những người mẫu "yếu" như bạn đã trích dẫn. Các yếu tố cơ bản bằng cách nào đó giống như một mô hình lặp "chuỗi" hoặc "lồng nhau" về độ lệch của mỗi cấp. Vì vậy, chúng không phải là các mô hình song song độc lập mà mỗi mô hình được xây dựng dựa trên tất cả các mô hình nhỏ trước đây bằng cách tính trọng số. Cái đó được gọi là "tăng cường" từng cái một.

Các bài báo và sách của Breiman thảo luận về cây cối, rừng ngẫu nhiên và thúc đẩy khá nhiều. Nó giúp bạn hiểu nguyên tắc đằng sau thuật toán.


26

Một khu rừng ngẫu nhiên không được coi là một loại thuật toán thúc đẩy.

Như đã giải thích trong liên kết thúc đẩy của bạn:

... hầu hết các thuật toán thúc đẩy bao gồm việc lặp đi lặp lại học các phân loại yếu liên quan đến phân phối và thêm chúng vào một phân loại mạnh cuối cùng. Khi chúng được thêm vào, chúng thường có trọng số theo một cách nào đó thường liên quan đến độ chính xác của người học yếu. Sau khi một người học yếu được thêm vào, dữ liệu sẽ được xem lại ...

Một ví dụ về quy trình lặp này là adaboost, theo đó các kết quả yếu hơn được tăng cường hoặc xem xét lại qua nhiều lần lặp lại để người học tập trung hơn vào các lĩnh vực mà nó sai và ít quan sát đúng hơn.

Ngược lại, một khu rừng ngẫu nhiên là một phương pháp đóng gói hoặc lấy trung bình tổng hợp nhằm mục đích giảm phương sai của từng cây bằng cách chọn ngẫu nhiên (và do đó không tương quan) nhiều cây từ bộ dữ liệu và lấy trung bình chúng.


7

Nó là một phần mở rộng của đóng gói. Quy trình như sau, bạn lấy một mẫu bootstrap của dữ liệu của bạn và sau đó sử dụng dữ liệu này để phát triển cây phân loại hoặc hồi quy (GIỎI). Điều này được thực hiện với số lần xác định trước và dự đoán sau đó là tổng hợp các dự đoán của từng cây, nó có thể là một phiếu bầu đa số (để phân loại) hoặc trung bình (cho hồi quy). Cách tiếp cận này được gọi là đóng bao (Breiman 1994). Hơn nữa, biến số ứng cử viên cho mỗi phân chia của mỗicây được lấy từ một mẫu ngẫu nhiên của tất cả các biến độc lập có sẵn. Điều này giới thiệu thậm chí nhiều thay đổi và làm cho cây đa dạng hơn. Đây được gọi là phương pháp không gian con ngẫu nhiên (Ho, 1998). Như đã đề cập, điều này tạo ra những cây rất đa dạng, chuyển thành những cây có tính độc lập cao với nhau. Do sự bất bình đẳng của Jensen, chúng tôi biết rằng trung bình các lỗi của các dự đoán cây này sẽ nhỏ hơn hoặc bằng với lỗi của cây trung bình được phát triển từ tập dữ liệu đó. Một cách khác để xem xét nó là xem xét Lỗi bình phương trung bình và chú ý làm thế nào nó có thể được phân tách trong các phần sai lệch và sai lệch (điều này có liên quan đến một vấn đề trong học tập có giám sát được gọi là sự đánh đổi sai lệch). Rừng ngẫu nhiên đạt được độ chính xác tốt hơn bằng cách giảm phương sai thông qua việc tính trung bình dự đoán của cây trực giao. Cần lưu ý rằng nó thừa hưởng sự thiên vị của cây, đây là một vấn đề được thảo luận, ví dụ kiểm tra câu hỏi này .


5

Tôi tin rằng bạn đang nhầm lẫn việc tăng cường nói riêng với các phương pháp tập hợp nói chung, trong đó có rất nhiều. "Định nghĩa" tăng cường của bạn không phải là định nghĩa đầy đủ, được trình bày chi tiết trong câu trả lời của Pat. Nếu bạn muốn tìm hiểu thêm về các phương pháp tập hợp, tôi khuyên bạn nên chọn cuốn sách sau:

John Elder & Giovanni Seni. Các phương pháp tập hợp trong khai thác dữ liệu: Cải thiện độ chính xác thông qua việc kết hợp các dự đoán . (2010)


3

Rừng ngẫu nhiên là một kỹ thuật đóng bao và không phải là một kỹ thuật thúc đẩy. Trong việc thúc đẩy như tên cho thấy, một người đang học hỏi từ người khác, từ đó thúc đẩy việc học tập.

Cây trong rừng ngẫu nhiên được chạy song song. Không có tương tác giữa các cây trong khi xây dựng cây. Khi tất cả các cây được xây dựng, thì một biểu quyết hoặc trung bình sẽ được thực hiện trên tất cả các dự đoán của cây tùy thuộc vào vấn đề là vấn đề phân loại hay hồi quy.

Các cây trong các thuật toán thúc đẩy như máy tăng tốc GBM-Gradient được đào tạo tuần tự.

Giả sử cây đầu tiên được đào tạo và nó đã thực hiện một số dự đoán về dữ liệu đào tạo. Không phải tất cả các dự đoán sẽ là chính xác. Hãy nói trong tổng số 100 dự đoán, cây đầu tiên đã mắc sai lầm trong 10 lần quan sát. Bây giờ 10 quan sát này sẽ được cân nhắc nhiều hơn khi xây dựng cây thứ hai. Lưu ý rằng việc học cây thứ hai đã được thúc đẩy từ việc học cây thứ nhất. Do đó, thuật ngữ thúc đẩy. Bằng cách này, mỗi cây được xây dựng tuần tự qua các bài học từ các cây trong quá khứ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.