Bạn chỉ đơn giản là không sử dụng biến lớp mục tiêu. Gini tạp chất như tất cả các chức năng tạp chất khác, đo lường tạp chất của đầu ra sau khi tách. Những gì bạn đã làm là để đo một cái gì đó chỉ sử dụng kích thước mẫu.
Tôi cố gắng rút ra công thức cho trường hợp của bạn.
Giả sử để đơn giản bạn có một bộ phân loại nhị phân. Suy ra với thuộc tính test, với thuộc tính class có các giá trị .C c + , c -MộtCc+, c-
Chỉ số gini ban đầu trước khi phân tách được cho bởi
trong đó là tỷ lệ các điểm dữ liệu có giá trị cho lớp Biến đổi.
Tôi( A ) = 1 - P( Một+)2- P( Một-)2
P( Một+)c+
Bây giờ, tạp chất cho nút bên trái sẽ là
trong đó là tỷ lệ các điểm dữ liệu từ tập hợp con bên trái của có giá trị trong biến lớp, v.v.
Tôi( A l ) = 1 - P( Một l+)2- P( Một l-)2
Tôi( A r ) = 1 - P( Một r+)2- P( Một r-)2
P( Một l+)Mộtc+
Bây giờ công thức cuối cùng cho GiniGain sẽ là
G i n i G a i n ( A ) = I( A ) - pl e ftTôi( A l ) - pr i gh tTôi( A r )
trong đó là tỷ lệ phiên bản của tập hợp con bên trái hoặc (có bao nhiêu trường hợp là tập hợp con trong trái chia cho tổng số các trường hợp từ .
pl e ft# | Một l |# | Một l | + # | Một r |Một
Tôi cảm thấy ký hiệu của mình có thể được cải thiện, tôi sẽ xem sau khi tôi có nhiều thời gian hơn.
Phần kết luận
Chỉ sử dụng số lượng điểm dữ liệu là không đủ, tạp chất có nghĩa là một tính năng (tính năng kiểm tra) có thể tái tạo phân phối của một tính năng khác (tính năng lớp) tốt như thế nào. Phân phối tính năng kiểm tra tạo ra số lượng bạn đã sử dụng (cách bên trái, cách bên phải), nhưng phân phối tính năng lớp không được sử dụng trong các công thức của bạn.
Chỉnh sửa sau - đề xuất tại sao nó giảm
Bây giờ tôi nhận thấy rằng tôi đã bỏ lỡ phần chứng minh tại sao nó luôn chỉ số gini trên nút con nhỏ hơn nút cha. Tôi không có một proove hoàn chỉnh hoặc một xác minh, nhưng tôi nghĩ đó là một bằng chứng hợp lệ. Đối với những điều xen kẽ khác liên quan đến chủ đề, bạn có thể kiểm tra Lưu ý kỹ thuật: Một số thuộc tính của tiêu chí chia tách - Leo Breiman . Bây giờ nó sẽ theo bằng chứng của tôi.
Giả sử rằng chúng ta đang ở trong trường hợp nhị phân và tất cả các giá trị trong một nút có thể được mô tả hoàn toàn bởi một cặp với ý nghĩa của thể hiện của lớp thứ nhất và thể hiện của lớp thứ hai. Chúng ta có thể nói rõ hơn trong nút cha mà chúng ta có .( a , b )mộtb( a , b )
Để tìm ra sự phân chia tốt nhất, chúng tôi sắp xếp các trường hợp theo tính năng kiểm tra và chúng tôi thử tất cả các phân tách nhị phân có thể. Sắp xếp theo một tính năng nhất định thực sự là một hoán vị của các thể hiện, trong đó các lớp bắt đầu bằng một thể hiện của lớp thứ nhất hoặc của lớp thứ hai. Không mất tính tổng quát, chúng tôi sẽ giả sử rằng nó bắt đầu bằng một thể hiện của lớp đầu tiên (nếu đây không phải là trường hợp chúng tôi có một bằng chứng gương với cùng một phép tính).
Sự phân chia đầu tiên để thử là ở các trường hợp bên trái và bên phải . Làm thế nào chỉ số gini cho những ứng cử viên có thể cho các nút con trái và phải được so sánh với nút cha? Rõ ràng ở bên trái ta có . Vì vậy, ở phía bên trái, chúng ta có một giá trị chỉ số gini nhỏ hơn. Làm thế nào về nút bên phải?( 1 , 0 )( a - 1 , b )h ( l e ft ) = 1 - ( 1 / 1 )2- ( 0 / 1 )2= 0
h ( p a r e n t ) = 1 - ( aa + b)2- ( ba + b)2
h ( r i gh t ) = 1 - ( a - 1( a - 1 ) + b)2- ( b( a - 1 ) + b)2
Xem xét rằng lớn hơn hoặc bằng (vì nếu không thì làm cách nào chúng ta có thể tách một thể hiện của lớp đầu tiên trong nút bên trái?) Và sau khi đơn giản hóa, chỉ đơn giản là chỉ số gini cho nút bên phải có giá trị nhỏ hơn so với nút cha.một0
Bây giờ, giai đoạn cuối cùng của bằng chứng là nút trong khi xem xét tất cả các điểm phân chia có thể được xác định bởi dữ liệu chúng tôi có, chúng tôi giữ một điểm có chỉ số gini tổng hợp nhỏ nhất, có nghĩa là mức tối ưu chúng tôi chọn là ít hơn hoặc bằng một thứ tầm thường mà tôi yêu thích đó là nhỏ hơn. Mà kết luận rằng cuối cùng chỉ số gini sẽ giảm.
Như một kết luận cuối cùng, chúng ta phải lưu ý ngay cả khi các phân chia khác nhau có thể cung cấp các giá trị lớn hơn cho nút cha, thì cái mà chúng ta chọn sẽ là nhỏ nhất trong số chúng và cũng nhỏ hơn giá trị chỉ số gini cha.
Hy vọng nó giúp.