Giả định rừng ngẫu nhiên

43

Tôi là người mới đến rừng ngẫu nhiên nên tôi vẫn đang vật lộn với một số khái niệm cơ bản.
Trong hồi quy tuyến tính, chúng tôi giả định các quan sát độc lập, phương sai không đổi

Các giả định / giả thuyết cơ bản mà chúng ta đưa ra, khi chúng ta sử dụng rừng ngẫu nhiên là gì?
Sự khác biệt chính giữa rừng ngẫu nhiên và vịnh ngây thơ về các giả định mô hình là gì?

regression classification random-forest

— người dùng1848018
nguồn

33

Cảm ơn cho một câu hỏi rất hay! Tôi sẽ cố gắng đưa ra trực giác của mình đằng sau nó.

Để hiểu điều này, hãy nhớ "thành phần" của phân loại rừng ngẫu nhiên (có một số sửa đổi, nhưng đây là đường ống chung):

Ở mỗi bước xây dựng cây riêng lẻ, chúng tôi tìm thấy sự phân chia dữ liệu tốt nhất
Trong khi xây dựng một cây, chúng tôi không sử dụng toàn bộ dữ liệu, mà là mẫu bootstrap
Chúng tôi tổng hợp các kết quả đầu ra của từng cây bằng cách lấy trung bình (thực tế 2 và 3 có nghĩa là quy trình đóng bao chung hơn ).

Giả sử điểm đầu tiên. Không phải lúc nào cũng có thể tìm thấy sự phân chia tốt nhất. Ví dụ trong tập dữ liệu sau đây, mỗi phần tách sẽ cung cấp chính xác một đối tượng phân loại sai. Ví dụ về tập dữ liệu không có phân chia tốt nhất

Và tôi nghĩ rằng chính xác điểm này có thể gây nhầm lẫn: thực sự, hành vi của phân tách riêng lẻ tương tự như hành vi của trình phân loại Naive Bayes: nếu các biến phụ thuộc - không có phân chia nào tốt hơn cho phân loại Cây quyết định và phân loại Naive Bayes cũng thất bại (chỉ để nhắc nhở: các biến độc lập là giả định chính mà chúng ta đưa ra trong phân loại Naive Bayes; tất cả các giả định khác đến từ mô hình xác suất mà chúng ta chọn).

Nhưng ở đây có lợi thế lớn của cây quyết định: chúng tôi thực hiện bất kỳ sự phân tách nào và tiếp tục chia tách hơn nữa. Và đối với các phân tách sau, chúng ta sẽ tìm thấy một sự tách biệt hoàn hảo (màu đỏ). Ví dụ về ranh giới quyết định

Và vì chúng tôi không có mô hình xác suất, nhưng chỉ phân chia nhị phân, chúng tôi không cần phải đưa ra bất kỳ giả định nào cả.

Đó là về Cây quyết định, nhưng nó cũng áp dụng cho Rừng ngẫu nhiên. Sự khác biệt là đối với Rừng ngẫu nhiên, chúng tôi sử dụng Tập hợp Bootstrap. Nó không có mô hình bên dưới, và giả định duy nhất mà nó dựa vào đó là lấy mẫu là đại diện . Nhưng đây thường là một giả định phổ biến. Ví dụ: nếu một lớp bao gồm hai thành phần và trong tập dữ liệu của chúng tôi, một thành phần được đại diện bởi 100 mẫu và một thành phần khác được đại diện bởi 1 mẫu - có lẽ hầu hết các cây quyết định riêng lẻ sẽ chỉ thấy thành phần đầu tiên và Rừng ngẫu nhiên sẽ phân loại sai thành phần thứ hai . Ví dụ về thành phần thứ hai được trình bày yếu

Hy vọng nó sẽ cung cấp cho một số hiểu biết thêm.

— Dmitry Laptev
nguồn

10

Trong một bài báo năm 2010, các tác giả đã ghi nhận rằng các mô hình rừng ngẫu nhiên ước tính không đáng tin cậy tầm quan trọng của các biến khi các biến là đa tuyến trên không gian thống kê đa chiều. Tôi thường kiểm tra điều này trước khi chạy các mô hình rừng ngẫu nhiên.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

— Mina
nguồn

3

Bạn có tin vào kết luận của "Định lượng kết nối Bufo boreas trong Công viên quốc gia Yellowstone với di truyền cảnh quan" trong Sinh thái học của các tác giả bang Colorado qua các tác giả Berkeley trong Machine Learning về chủ đề thuật toán học máy?

— Hack-R

8

Tôi không nghĩ rằng họ đang bất hòa với nhau. Breiman đã không điều tra 'trường hợp đặc biệt' này về đa tuyến trên không gian đa chiều. Ngoài ra, mọi người ở bang Colorado cũng có thể thông minh - và những người này cũng vậy.

— Mina