Gini giảm và tạp chất Gini của các nút trẻ em


15

Tôi đang làm việc trên thước đo tầm quan trọng của tính năng Gini cho rừng ngẫu nhiên. Do đó, tôi cần tính toán giảm Gini trong tạp chất nút. Đây là cách tôi làm như vậy, dẫn đến mâu thuẫn với định nghĩa, cho thấy tôi phải sai ở đâu đó ... :)

Đối với cây nhị phân và được cung cấp xác suất của con trái và phải, tôi có thể tính tạp chất Gini của nút :n

Tôi(n)= =1-ptôi2-pr2

Và Gini giảm:

ΔTôi(n)= =Tôi(n)-ptôiTôi(ntôi)-prTôi(nr)

Vì vậy, với ví dụ này với 110 quan sát trên một nút:

- node (110)
   - left (100)
      - left_left (60)
      - left_right (40)
   - right (10)
      - right_left (5)
      - right_right (5)

Tôi sẽ tính mức giảm Gini cho nút như thế này:

i(left)=1(60/100)²(40/100)²=0.48i(right)=1(5/10)²-(5/10)²= =0,50Tôi(node)= =1-(100/110)²-(10/110)²= =0,16

Nhưng theo định nghĩa Breiman (hoặc câu trả lời này trên CV: Cách đo / xếp hạng "tầm quan trọng thay đổi" khi sử dụng GIỎI , nhưng tôi không có quyền truy cập vào sách được tham chiếu), tiêu chí tạp chất của con cháu nên nhỏ hơn cha mẹ nút:

Tầm quan trọng của Gini
Mỗi lần phân chia một nút được thực hiện trên biến m, tiêu chí tạp chất gini cho hai nút con cháu nhỏ hơn nút cha. Cộng các mức giảm gini cho từng biến riêng lẻ trên tất cả các cây trong rừng mang lại tầm quan trọng biến nhanh, thường rất phù hợp với thước đo tầm quan trọng hoán vị.

Bởi vì nếu không, nó dẫn đến giảm Gini tiêu cực ...

Δi(node)=i(node)(100/110)i(left)(10/110)i(right)=0,32

Vì vậy, nếu ai đó có thể nói tôi sai ở đâu, tôi sẽ rất biết ơn vì có vẻ như tôi bỏ lỡ điều gì đó hiển nhiên ở đây ...

Câu trả lời:


16

Bạn chỉ đơn giản là không sử dụng biến lớp mục tiêu. Gini tạp chất như tất cả các chức năng tạp chất khác, đo lường tạp chất của đầu ra sau khi tách. Những gì bạn đã làm là để đo một cái gì đó chỉ sử dụng kích thước mẫu.

Tôi cố gắng rút ra công thức cho trường hợp của bạn.

Giả sử để đơn giản bạn có một bộ phân loại nhị phân. Suy ra với thuộc tính test, với thuộc tính class có các giá trị .C c + , c -MộtCc+,c-

Chỉ số gini ban đầu trước khi phân tách được cho bởi trong đó là tỷ lệ các điểm dữ liệu có giá trị cho lớp Biến đổi.

Tôi(Một)= =1-P(Một+)2-P(Một-)2
P(Một+)c+

Bây giờ, tạp chất cho nút bên trái sẽ là trong đó là tỷ lệ các điểm dữ liệu từ tập hợp con bên trái của có giá trị trong biến lớp, v.v.

Tôi(Mộttôi)= =1-P(Mộttôi+)2-P(Mộttôi-)2
Tôi(Mộtr)= =1-P(Mộtr+)2-P(Mộtr-)2
P(Mộttôi+)Mộtc+

Bây giờ công thức cuối cùng cho GiniGain sẽ là

GTôinTôiGmộtTôin(Một)= =Tôi(Một)-ptôieftTôi(Mộttôi)-prTôightTôi(Mộtr)
trong đó là tỷ lệ phiên bản của tập hợp con bên trái hoặc (có bao nhiêu trường hợp là tập hợp con trong trái chia cho tổng số các trường hợp từ .ptôieft#|Mộttôi|#|Mộttôi|+#|Mộtr|Một

Tôi cảm thấy ký hiệu của mình có thể được cải thiện, tôi sẽ xem sau khi tôi có nhiều thời gian hơn.

Phần kết luận

Chỉ sử dụng số lượng điểm dữ liệu là không đủ, tạp chất có nghĩa là một tính năng (tính năng kiểm tra) có thể tái tạo phân phối của một tính năng khác (tính năng lớp) tốt như thế nào. Phân phối tính năng kiểm tra tạo ra số lượng bạn đã sử dụng (cách bên trái, cách bên phải), nhưng phân phối tính năng lớp không được sử dụng trong các công thức của bạn.

Chỉnh sửa sau - đề xuất tại sao nó giảm

Bây giờ tôi nhận thấy rằng tôi đã bỏ lỡ phần chứng minh tại sao nó luôn chỉ số gini trên nút con nhỏ hơn nút cha. Tôi không có một proove hoàn chỉnh hoặc một xác minh, nhưng tôi nghĩ đó là một bằng chứng hợp lệ. Đối với những điều xen kẽ khác liên quan đến chủ đề, bạn có thể kiểm tra Lưu ý kỹ thuật: Một số thuộc tính của tiêu chí chia tách - Leo Breiman . Bây giờ nó sẽ theo bằng chứng của tôi.

Giả sử rằng chúng ta đang ở trong trường hợp nhị phân và tất cả các giá trị trong một nút có thể được mô tả hoàn toàn bởi một cặp với ý nghĩa của thể hiện của lớp thứ nhất và thể hiện của lớp thứ hai. Chúng ta có thể nói rõ hơn trong nút cha mà chúng ta có .(một,b)mộtb(một,b)

Để tìm ra sự phân chia tốt nhất, chúng tôi sắp xếp các trường hợp theo tính năng kiểm tra và chúng tôi thử tất cả các phân tách nhị phân có thể. Sắp xếp theo một tính năng nhất định thực sự là một hoán vị của các thể hiện, trong đó các lớp bắt đầu bằng một thể hiện của lớp thứ nhất hoặc của lớp thứ hai. Không mất tính tổng quát, chúng tôi sẽ giả sử rằng nó bắt đầu bằng một thể hiện của lớp đầu tiên (nếu đây không phải là trường hợp chúng tôi có một bằng chứng gương với cùng một phép tính).

Sự phân chia đầu tiên để thử là ở các trường hợp bên trái và bên phải . Làm thế nào chỉ số gini cho những ứng cử viên có thể cho các nút con trái và phải được so sánh với nút cha? Rõ ràng ở bên trái ta có . Vì vậy, ở phía bên trái, chúng ta có một giá trị chỉ số gini nhỏ hơn. Làm thế nào về nút bên phải?(1,0)(một-1,b)h(tôieft)= =1-(1/1)2-(0/1)2= =0

h(pmộtrent)= =1-(mộtmột+b)2-(bmột+b)2
h(rTôight)= =1-(một-1(một-1)+b)2-(b(một-1)+b)2

Xem xét rằng lớn hơn hoặc bằng (vì nếu không thì làm cách nào chúng ta có thể tách một thể hiện của lớp đầu tiên trong nút bên trái?) Và sau khi đơn giản hóa, chỉ đơn giản là chỉ số gini cho nút bên phải có giá trị nhỏ hơn so với nút cha.một0

Bây giờ, giai đoạn cuối cùng của bằng chứng là nút trong khi xem xét tất cả các điểm phân chia có thể được xác định bởi dữ liệu chúng tôi có, chúng tôi giữ một điểm có chỉ số gini tổng hợp nhỏ nhất, có nghĩa là mức tối ưu chúng tôi chọn là ít hơn hoặc bằng một thứ tầm thường mà tôi yêu thích đó là nhỏ hơn. Mà kết luận rằng cuối cùng chỉ số gini sẽ giảm.

Như một kết luận cuối cùng, chúng ta phải lưu ý ngay cả khi các phân chia khác nhau có thể cung cấp các giá trị lớn hơn cho nút cha, thì cái mà chúng ta chọn sẽ là nhỏ nhất trong số chúng và cũng nhỏ hơn giá trị chỉ số gini cha.

Hy vọng nó giúp.


Cảm ơn bạn rất nhiều, bạn đã mở khóa bộ não của tôi ... Thực tế, vì tôi đang xử lý cây hồi quy, sử dụng biến lớp mục tiêu xuất hiện ít rõ ràng hơn so với nhiệm vụ phân loại thuần túy. Nhưng bây giờ nó hoàn toàn có ý nghĩa.
Remi Mélisson

Tôi cập nhật câu trả lời để chứa các phần còn thiếu.
rapaio 30/03/2015
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.