Phương pháp rừng ngẫu nhiên có thể được áp dụng cho áp lực tuyến tính?


14

Rừng ngẫu nhiên hoạt động bằng cách tạo ra một tập hợp các cây quyết định trong đó mỗi cây được tạo bằng cách sử dụng mẫu bootstrap của dữ liệu huấn luyện ban đầu (mẫu của cả hai biến đầu vào và quan sát).

Một quá trình tương tự có thể được áp dụng cho hồi quy tuyến tính? Tạo mô hình hồi quy tuyến tính k bằng cách sử dụng mẫu bootstrap ngẫu nhiên cho mỗi hồi quy k

Các lý do KHÔNG tạo ra một "hồi quy ngẫu nhiên" như mô hình là gì?

Cảm ơn. Nếu có điều gì đó tôi chỉ hiểu nhầm về cơ bản thì xin vui lòng cho tôi biết.


Khi bootstrap tổng hợp cây, hàm hồi quy tổng thể sẽ ngày càng phức tạp hơn với mỗi cây được thêm vào. Mặt khác, khi bootstrap tổng hợp các hàm tuyến tính của biểu mẫu a_0 + a_1 * x_1 + ... + a_d * x_d, hàm tuyến tính trung bình kết quả (sau khi tổng hợp bootstrap) vẫn có dạng hàm tuyến tính giống như bạn bắt đầu (ví dụ: 'người học cơ sở').
Andre Holzner

1
@Andre Holzner - những gì bạn nói là đúng, nhưng, nhưng, nhưng ... việc thực hiện ngẫu nhiên này thực sự là một hình thức chính quy, trong một lớp tương tự như bỏ đi. Tôi sẽ nói cho bạn một bí mật, cây hồi quy thực sự là một mô hình tuyến tính - lớp tương tự như splines. đặt chiếc mũ Bayes của tôi lên, bộ chỉnh lưu forrest ngẫu nhiên có khả năng tương ứng với các linh mục "cành và phiến" được sử dụng trong bối cảnh Bayes.
xác suất

@probabilityislogic, bạn có thể giải thích?
Simon Kuang

Bạn có thể nghĩ về cây như mô hình tuyến tính . Z t là một ma trận thiết kế chỉ ra nút đầu cuối mà mỗi quan sát thuộc về cây tθ t là vectơ tương ứng của các dự đoán nút đầu cuối. Bất kỳ cây nào cũng có thể được mô tả theo cách này - chọn cây tương đương với lựa chọn mô hình tuyến tính tiêu chuẩn trong không gian của Z t - trong đó có 2 n cấu hình "nút cuối" có thể tôi nghĩ (trong đó n là cỡ mẫu đào tạo). y=Ztθt+eZttθtZt2nn
xác suất

Câu trả lời:


5

Tôi không đồng ý một phần với các câu trả lời hiện tại vì rừng ngẫu nhiên phương pháp được xây dựng dựa trên giới thiệu phương sai (GIỎ HÀNG được xây dựng trên các mẫu khởi động + phương pháp không gian con ngẫu nhiên) để làm cho chúng độc lập. Khi bạn có cây trực giao thì trung bình dự đoán của chúng có xu hướng (trong nhiều trường hợp) sẽ tốt hơn dự đoán của cây trung bình (vì bất bình đẳng của Jensen). Mặc dù GIỎ HÀNG có các đặc quyền đáng chú ý khi áp dụng phương pháp điều trị này, phương pháp này chắc chắn áp dụng cho bất kỳ mô hình nào và mô hình tuyến tính cũng không ngoại lệ. Đây là một gói R chính xác là những gì bạn đang tìm kiếm. Nó trình bày một hướng dẫn tốt đẹp về cách điều chỉnh và giải thích chúng và thư mục về chủ đề: Mô hình tuyến tính tổng quát ngẫu nhiên .


14

Để phản hồi của @ ziggystar về thuật ngữ máy học: ý tưởng đằng sau các kỹ thuật tổng hợp bootstrap (ví dụ Rừng ngẫu nhiên) là để phù hợp với nhiều mô hình sai lệch thấp, sai lệch cao với dữ liệu với một số yếu tố "ngẫu nhiên" hoặc "không ổn định". Trong trường hợp rừng ngẫu nhiên, tính không ổn định được thêm vào thông qua bootstrapping và bằng cách chọn một bộ tính năng ngẫu nhiên để phân chia từng nút của cây. Tính trung bình trên các cây ồn ào, nhưng độ lệch thấp này làm giảm bớt phương sai cao của bất kỳ cây riêng lẻ nào.

Trong khi cây hồi quy / phân loại là mô hình "độ lệch thấp, độ sai lệch cao", mô hình hồi quy tuyến tính thường ngược lại - "độ lệch cao, độ sai lệch thấp". Do đó, vấn đề người ta thường gặp phải với các mô hình tuyến tính là giảm sai lệch, không giảm phương sai. Tổng hợp Bootstrap đơn giản là không được thực hiện để làm điều này.

Một vấn đề khác là bootstrapping có thể không cung cấp đủ "tính ngẫu nhiên" hoặc "không ổn định" trong một mô hình tuyến tính điển hình. Tôi hy vọng cây hồi quy sẽ nhạy hơn với tính ngẫu nhiên của các mẫu bootstrap, vì mỗi lá thường chỉ chứa một số điểm dữ liệu. Ngoài ra, cây hồi quy có thể được tăng trưởng ngẫu nhiên bằng cách chia cây trên một tập hợp con ngẫu nhiên của các biến tại mỗi nút. Xem câu hỏi trước đây để biết tại sao điều này lại quan trọng: Tại sao Rừng ngẫu nhiên được chia tách dựa trên các tính năng ngẫu nhiên?

Tất cả những gì đang được nói, bạn chắc chắn có thể sử dụng bootstrapping trên các mô hình tuyến tính [LINK] và điều này có thể rất hữu ích trong các bối cảnh nhất định. Tuy nhiên, động lực khác nhiều so với các kỹ thuật tổng hợp bootstrap.


Cảm ơn các liên kết và phản hồi. Nếu phương pháp ngẫu nhiên hữu ích cho các mô hình "độ lệch thấp, phương sai cao", thì có phương pháp nào để xử lý loại mô hình ngược lại "độ lệch cao, phương sai thấp" không?
Rick

Nếu bạn có độ lệch thấp, mô hình phương sai cao, các phương pháp như đóng bao có thể làm giảm phương sai ở mức tăng nhẹ về độ lệch. Nếu bạn có độ lệch cao, phương sai thấp, hãy sử dụng mô hình có độ lệch thấp hơn và phương sai cao hơn - như hồi quy đa thức hoặc nói chung là các phương thức kernel.
Joe

10

kk

Và đây là lý do tại sao nó không hấp dẫn để làm điều "ngẫu nhiên" với các mô hình tuyến tính như với các cây quyết định:

Một cây quyết định lớn được tạo ra từ một mẫu lớn rất có khả năng phù hợp với dữ liệu và phương pháp rừng ngẫu nhiên chống lại hiệu ứng này bằng cách dựa vào phiếu bầu của nhiều cây nhỏ.

Mặt khác, hồi quy tuyến tính là một mô hình không dễ bị quá mức và do đó không bị tổn thương bằng cách đào tạo nó trên mẫu hoàn chỉnh ngay từ đầu. Và ngay cả khi bạn có nhiều biến hồi quy, bạn có thể áp dụng các kỹ thuật khác, chẳng hạn như chính quy, để chống lại tình trạng thừa.


0

k

X1,X2,...,XnBe(p)
p1p
θ=1{p>0}
và cố gắng ước tính nó. Đương nhiên, nó đủ để thấy một điểm dữ liệu duy nhấtXTôi= =1 biết rằng θ= =1. Toàn bộ mẫu có thể chứa một điểm dữ liệu như vậy và cho phép chúng tôi ước tínhθkhông có lỗi Mặt khác, bất kỳ mẫu bootstrap nào cũng không thể chứa điểm dữ liệu như vậy và khiến chúng ta ước tính saiθvới 0 (chúng tôi áp dụng không có khung Bayes ở đây, sử dụng phương pháp cũ tốt nhất có khả năng tối đa). Nói cách khác,
BTôimộtS bmộtggTôing= =Prob(Tôin một bootStrmộtp Smộtmptôie X(1)= =...= =X(n)= =0)>0,
có điều kiện trên θ= =1.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.