Là rừng ngẫu nhiên cho hồi quy là một hồi quy 'đúng'?


18

Rừng ngẫu nhiên được sử dụng để hồi quy. Tuy nhiên, từ những gì tôi hiểu, họ chỉ định giá trị mục tiêu trung bình ở mỗi lá. Vì chỉ có các lá giới hạn trong mỗi cây, nên chỉ có các giá trị cụ thể mà mục tiêu có thể đạt được từ mô hình hồi quy của chúng tôi. Do đó, nó không chỉ là hồi quy 'rời rạc' (như hàm bước) và không giống như hồi quy tuyến tính mà là 'liên tục'?

Tôi có hiểu điều này một cách chính xác không? Nếu có, rừng ngẫu nhiên có lợi thế gì trong hồi quy?


Câu trả lời:


23

Điều này là chính xác - các khu rừng ngẫu nhiên phân biệt các biến liên tục vì chúng dựa trên các cây quyết định, có chức năng thông qua phân vùng nhị phân đệ quy. Nhưng với đủ dữ liệu và phân chia đủ, một chức năng bước với nhiều bước nhỏ có thể xấp xỉ một chức năng trơn tru. Vì vậy, điều này không cần phải là một vấn đề. Nếu bạn thực sự muốn thu được một phản hồi mượt mà bởi một yếu tố dự đoán duy nhất, bạn tính toán hiệu ứng một phần của bất kỳ biến cụ thể nào và phù hợp với chức năng trơn tru của nó (điều này không ảnh hưởng đến chính mô hình, sẽ giữ lại ký tự từng bước này).

Rừng ngẫu nhiên cung cấp khá nhiều lợi thế so với các kỹ thuật hồi quy tiêu chuẩn cho một số ứng dụng. Chỉ đề cập đến ba:

  1. Chúng cho phép sử dụng nhiều dự đoán tùy ý (có thể dự đoán nhiều hơn điểm dữ liệu)
  2. Họ có thể gần đúng hình dạng phi tuyến phức tạp mà không cần một tiên nghiệm đặc điểm kỹ thuật
  3. Họ có thể chụp tương tác phức tạp giữa những dự đoán mà không một tiên nghiệm đặc điểm kỹ thuật.

Về việc nó có phải là hồi quy 'đúng' hay không, điều này có phần ngữ nghĩa. Rốt cuộc, hồi quy piecewise là hồi quy quá, nhưng cũng không trơn tru. Như là bất kỳ hồi quy với một công cụ dự đoán phân loại, như được chỉ ra trong các ý kiến ​​dưới đây.


7
Ngoài ra, hồi quy chỉ với các tính năng phân loại cũng sẽ không được trơn tru.
Tim

3
Có thể hồi quy với một tính năng phân loại được trơn tru không?
Dave

4

Nó là rời rạc, nhưng sau đó bất kỳ đầu ra nào ở dạng số dấu phẩy động với số bit cố định sẽ rời rạc. Nếu một cây có 100 lá, thì nó có thể cho 100 số khác nhau. Nếu bạn có 100 cây khác nhau với 100 lá mỗi cây, thì về mặt lý thuyết, khu rừng ngẫu nhiên của bạn có thể có 100 ^ 100 giá trị khác nhau, có thể cho độ chính xác 200 (thập phân), hoặc ~ 600 bit. Tất nhiên, sẽ có một số trùng lặp, vì vậy bạn thực sự sẽ không thấy 100 ^ 100 giá trị khác nhau. Phân phối có xu hướng rời rạc hơn khi bạn càng đi đến cực đoan; mỗi cây sẽ có một số lá tối thiểu (một lá cho sản lượng nhỏ hơn hoặc bằng tất cả các lá khác), và một khi bạn nhận được lá tối thiểu từ mỗi cây, bạn không thể lấy thấp hơn. Vì vậy, sẽ có một số giá trị tổng thể tối thiểu cho rừng, và khi bạn đi chệch khỏi giá trị đó, bạn sẽ bắt đầu với tất cả trừ một vài cây ở lá tối thiểu của chúng, tạo ra những sai lệch nhỏ so với mức tăng giá trị tối thiểu trong các lần nhảy rời rạc. Nhưng độ tin cậy giảm ở các thái cực là một đặc tính của hồi quy nói chung, không chỉ là các khu rừng ngẫu nhiên.


Các lá có thể lưu trữ bất kỳ giá trị nào từ dữ liệu huấn luyện (vì vậy với dữ liệu huấn luyện phù hợp, 100 cây 100 lá có thể lưu trữ tới 10.000 giá trị riêng biệt). Nhưng giá trị trả về là giá trị trung bình của lá được chọn từ mỗi cây. Vì vậy, số bit có độ chính xác của giá trị đó là như nhau cho dù bạn có 2 cây hay 100 cây.
Darren Cook

3

Câu trả lời sẽ phụ thuộc vào định nghĩa hồi quy của bạn là gì, xem Định nghĩa và phân định mô hình hồi quy . Nhưng một định nghĩa thông thường (hoặc một phần của định nghĩa) là mô hình hồi quy kỳ vọng có điều kiện . Và một cây hồi quy thực sự có thể được coi là một công cụ ước tính của kỳ vọng có điều kiện.

Trong các nút lá, bạn dự đoán trung bình của các quan sát mẫu đạt đến lá đó và một giá trị trung bình là một ước lượng của một kỳ vọng. Các mô hình phân nhánh trong cây đại diện cho điều hòa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.