Làm cách nào tôi có thể đưa các hiệu ứng ngẫu nhiên (hoặc các biện pháp lặp lại) vào một RandomForest


22

Tôi thậm chí không chắc chắn rằng câu hỏi có ý nghĩa nhiều, nhưng tôi nghĩ rằng tôi đã thấy một vài tiêu đề của bài báo nơi họ đề xuất rừng ngẫu nhiên với các hiệu ứng ngẫu nhiên. Điều này có thể trong R?


1
Vâng, nó không có nhiều ý nghĩa. Bạn có ý nghĩa gì bởi các hiệu ứng ngẫu nhiên?
Simone

Tôi đang nghĩ về một cái gì đó tương tự như những gì bạn có thể làm với hàm lmer nơi bạn có thể bao gồm một hiệu ứng ngẫu nhiên là (1 | hiệu ứng).
mguzmann

Vì vậy, đây là mô phỏng ủ trên một khu rừng ngẫu nhiên? econpapers.repec.org/article/bpjjqsprt/... researchgate.net/publication/...
EngrStudent - Khôi phục Monica

2
Tôi không chắc chắn về loại ngẫu nhiên nào là phương pháp mà bạn đang xem địa chỉ. Rừng ngẫu nhiên là một cải tiến đơn giản so với việc đóng bao bằng cách chặt cây. Lý do tại sao nó được gọi là 'ngẫu nhiên' là vì trong mọi trường hợp, khi phân tách được xem xét trong một cây, ứng cử viên phân tách được chọn từ một tập hợp con ngẫu nhiên m của các dự đoán p. Thông thường, m ~ sqrt (p). Và mỗi khi sự phân chia xảy ra, một tập hợp con dự đoán ngẫu nhiên được chọn do đó, rừng ngẫu nhiên.
psteelk

Câu trả lời:


13

Chúng không được sử dụng phổ biến cùng nhau, và cần cẩn thận trước khi kết hợp chúng.

Rừng ngẫu nhiên thường được sử dụng làm phân loại. Lý do bạn sẽ sử dụng một khu rừng ngẫu nhiên thay vì một phương thức khác (ví dụ: phân cụm K-nghĩa là) bạn có thể có một số lượng lớn kích thước mà bạn muốn phân loại theo. Vấn đề với việc có số lượng kích thước lớn là nếu bạn muốn kiểm tra tất cả các kết hợp của thứ tự kích thước, bạn sẽ có một số lượng lớn các lựa chọn (nó tăng nhanh hơn số lượng yếu tố kích thước).

Hiệu ứng ngẫu nhiên thường được sử dụng trong hồi quy với các biện pháp lặp đi lặp lại của cùng một điều. Chúng thường được sử dụng trong các mô hình hiệu ứng hỗn hợp trong đó thuật ngữ hỗn hợp đề cập đến cả hiệu ứng cố định và ngẫu nhiên. Các hiệu ứng cố định được cho là đại diện cho các thông số mà bạn sẽ thấy lại (ví dụ: thuốc hoặc tuổi của một người). Các hiệu ứng ngẫu nhiên được cho là đại diện cho một trường hợp biến đổi xung quanh một tham số mà bạn sẽ không gặp lại (ví dụ: một người cụ thể).

Có các ví dụ sử dụng chúng cùng nhau khi có dữ liệu được phân cụm http://dx.doi.org/10.1080/00949655.2012.741599http://www2.ims.nus.edu.sg/Programs/014sw class / files / denis.pdf .

Tôi không biết về bất kỳ gói R nào có thể thực hiện phân tích này.


2
Ngoài ra, các tác giả của tác phẩm này rất vui khi chia sẻ mã R về việc triển khai của họ với bạn. Chỉ cần gửi email cho họ. Đó là những gì tôi đã làm.
Cân bằng Brash

Tôi đã liên lạc với Larocque, người đã liên lạc với Hajjam, người đã gửi email cho tôi trong vài ngày.
Cân bằng Brash

2
Mặc dù vậy, cảnh báo công bằng, mã R có sẵn chỉ thực hiện rừng ngẫu nhiên cho dữ liệu liên tục. Bạn sẽ cần phải mở rộng nó để đối phó với dữ liệu phân loại.
Cân bằng Brash

10

Vâng, điều đó là có thể. Bạn nên xem " Cây RE-EM: Cách tiếp cận khai thác dữ liệu cho dữ liệu theo chiều dọc và cụm", và gói R liên quan REEMtree .

Lâu lắm rồi tôi mới nhìn vào tờ giấy. Tôi nhớ rằng các tác giả chưa thử tạo thành các nhóm cây này, nhưng không có gì cho thấy nó không hoạt động.


1
REEMtree không phải là hiệu ứng ngẫu nhiên áp dụng cho các khu rừng ngẫu nhiên. Nó được áp dụng cho phân vùng đệ quy, đây chỉ là một phần của mô hình rừng ngẫu nhiên. Vì vậy, tôi không nghĩ câu trả lời này xứng đáng được điểm cao hơn Bill Denney. Thật không may, upvote của tôi trên đó đã bị khóa.
Cân bằng Brash

1
Thôi nào, một khi bạn đã có cây, việc xây dựng rừng khó đến mức nào? Và bạn được chào đón.
Ben Ogorek

1
Chà, xem cách rừng ngẫu nhiên thêm vào lấy mẫu bootstrap, điều chỉnh số lượng tính năng được chọn ngẫu nhiên để thử, tổng hợp kết quả của cây, v.v., và chúng tôi cần một hiệu ứng ngẫu nhiên trên các dự đoán rừng ngẫu nhiên, chứ không phải dự đoán của từng cây trong đó rừng, tăng cường REEMtree không phải là một giải pháp tốt như đọc bài viết mà Bill đã trích dẫn và yêu cầu mã R từ các tác giả của nó.
Cân bằng Brash

8

Hiệu ứng hỗn hợp Rừng ngẫu nhiên (MERFs) là một điều. Như câu trả lời ở trên, có một số nghiên cứu tuyệt vời về chúng bởi nhóm của Tiến sĩ Larocque tại HEC Montreal. Bài viết ở đây: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Về cơ bản, đây là một cách hợp lý về mặt lý thuyết để kết hợp mô hình phi tuyến tính của các khu rừng ngẫu nhiên với các hiệu ứng ngẫu nhiên tuyến tính.

Chúng tôi vừa phát hành một gói nguồn mở trong Python triển khai MERF bằng thuật toán trên trong bài báo.

Chúng tôi đã viết một bài đăng blog chi tiết về gói và cách sử dụng nó cho các tập dữ liệu được nhóm.


1
bất kỳ suy nghĩ nào để thực hiện điều này trong R hoặc thêm chức năng cốt truyện phụ thuộc một phần
OliverFishCode
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.