Liệu rừng ngẫu nhiên của Breiman sử dụng thông tin đạt được hoặc chỉ số Gini?

Tôi muốn biết liệu rừng ngẫu nhiên của Breiman (rừng ngẫu nhiên trong gói R RandomForest) sử dụng làm tiêu chí chia tách (tiêu chí lựa chọn thuộc tính) hay chỉ số Gini? Tôi đã cố gắng tìm ra nó trên http: //www.stat.ber siêu.edu / ~zonamiman/RandomForests/cc_home.htmlm và trong tài liệu cho gói RandomForest trong R. Nhưng điều duy nhất tôi tìm thấy là chỉ số Gini có thể được sử dụng cho tính toán quan trọng thay đổi.

r random-forest entropy gini

— có ai
nguồn

Tôi cũng tự hỏi nếu cây rừng ngẫu nhiên trong gói RandomForest là nhị phân hay không.

— ai đó

Gói RandomForest trong R của A. Liaw là một cổng của mã gốc là sự pha trộn của mã c (đã được dịch) một số mã fortran còn lại và mã trình bao bọc R. Để quyết định sự phân chia tốt nhất tổng thể giữa các điểm dừng và trên các biến mtry, mã sử dụng chức năng chấm điểm tương tự như gini-gain:

$GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2})$

Trong trường hợp là một tính năng nhất định, là nút mà chia tay là được thực hiện, và và là hai nút con được tạo ra bằng cách tách . là số phần tử trong một nút. $X$ $N$ $N_{1}$ $N_{2}$ $N$ $\lvert . \rvert$

Và , nơi là số chủng loại trong nút $Gini(N)=1-\sum_{k=1}^{K}p_{k}^2$ $K$

$Gini(N)$

$\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2}) \propto |N_2| Gini(N_{2}) = |N_2| (1-\sum_{k=1}^{K}p_{k}^2 ) = |N_2| \sum \frac{nclass_{2,k}^2}{|N_2|^2}$

where $nclass_{1,k}$ is the class count of target-class k in daughter node 1. Notice $|N_2|$ is placed both in nominator and denominator.

removing the trivial constant $1-$ from equation such that best split decision is to maximize nodes size weighted sum of squared class prevalence...

score= $|N_1| \sum_{k=1}^{K}p_{1,k}^2 + |N_2| \sum_{k=1}^{K}p_{2,k}^2 = |N_1|\sum_{k=1}^{K}\frac{nclass_{1,k}^2}{|N_1|^2} + |N_2|\sum_{k=1}^{K}\frac{nclass_{2,k}^2}{|N_2|^2}$ $= \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-1} + \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-2}$ $= nominator_1/denominator_1 + nominator_2/denominator_2$

The implementation also allows for classwise up/down weighting of samples. Also very important when the implementation update this modified gini-gain, moving a single sample from one node to the other is very efficient. The sample can be substracted from nominators/denominators of one node and added to the others. I wrote a prototype-RF some months ago, ignorantly recomputing from scratch gini-gain for every break-point and that was slower :)

If several splits scores are best, a random winner is picked.

This answer was based on inspecting source file "randomForest.x.x.tar.gz/src/classTree.c" line 209-250

— Soren Havelund Welling
nguồn