Hệ số Gini so với tạp chất Gini - cây quyết định


25

Vấn đề đề cập đến việc xây dựng cây quyết định. Theo Wikipedia ' Hệ số Gini ' không nên bị nhầm lẫn với ' tạp chất Gini '. Tuy nhiên cả hai biện pháp có thể được sử dụng khi xây dựng cây quyết định - những biện pháp này có thể hỗ trợ các lựa chọn của chúng tôi khi tách bộ vật phẩm.

1) 'Tạp chất Gini' - đó là một số liệu phân chia cây quyết định tiêu chuẩn (xem trong liên kết ở trên);

2) 'Hệ số Gini' - mỗi lần phân tách có thể được đánh giá dựa trên tiêu chí AUC. Đối với mỗi kịch bản phân tách, chúng ta có thể xây dựng một đường cong ROC và tính toán số liệu AUC. Theo Wikipedia AUC = (GiniCoeff + 1) / 2;

Câu hỏi là: cả hai biện pháp này có tương đương không? Một mặt, tôi được thông báo rằng không nên nhầm lẫn hệ số Gini với tạp chất Gini. Mặt khác, cả hai biện pháp này đều có thể được sử dụng để làm cùng một việc - đánh giá chất lượng của việc phân chia cây quyết định.


Tôi đến câu hỏi này để tìm một định nghĩa: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Câu trả lời:


28

Không, mặc dù tên của họ không tương đương hoặc thậm chí tương tự.

  • Tạp chất Gini là thước đo phân loại sai, áp dụng trong bối cảnh phân loại đa lớp.
  • Hệ số Gini áp dụng cho phân loại nhị phân và yêu cầu một bộ phân loại có thể theo một cách nào đó các ví dụ xếp hạng theo khả năng nằm trong một lớp tích cực.

Cả hai có thể được áp dụng trong một số trường hợp, nhưng chúng là các biện pháp khác nhau cho những thứ khác nhau. Tạp chất là những gì thường được sử dụng trong cây quyết định .


7

Tôi lấy một ví dụ về Dữ liệu với hai người A và B với sự giàu có của đơn vị 1 và đơn vị 3 tương ứng. Tạp chất Gini theo Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Hệ số Gini theo Wikipedia sẽ là tỷ lệ diện tích giữa đường màu đỏ và màu xanh lam trên tổng diện tích dưới đường màu xanh lam trong biểu đồ sau

nhập mô tả hình ảnh ở đây

Diện tích dưới vạch đỏ là 1/2 + 1 + 3/2 = 3

Tổng diện tích dưới đường màu xanh = 4

Vậy hệ số Gini = 3/4

Rõ ràng hai con số là khác nhau. Tôi sẽ kiểm tra thêm các trường hợp để xem liệu chúng có tỷ lệ thuận hay có mối quan hệ chính xác và chỉnh sửa câu trả lời.

Chỉnh sửa: Tôi cũng đã kiểm tra các kết hợp khác, tỷ lệ không phải là hằng số. Dưới đây là danh sách một vài kết hợp tôi đã thử. nhập mô tả hình ảnh ở đây


Thật là một lời giải thích !!
Ngoại

0

Tôi nghĩ rằng cả hai đều đại diện cho cùng một khái niệm.

Trong các cây phân loại, Chỉ số Gini được sử dụng để tính tạp chất của phân vùng dữ liệu. Vì vậy, Giả sử phân vùng dữ liệu D liên quan đến 4 lớp mỗi lớp có xác suất bằng nhau. Khi đó, Chỉ số Gini (Tạp chất Gini) sẽ là: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

Trong GIỎ HÀNG chúng tôi thực hiện phân chia nhị phân. Vì vậy, chỉ số gini sẽ được tính là tổng trọng số của các phân vùng kết quả và chúng tôi chọn phân chia với chỉ số gini nhỏ nhất.

Vì vậy, việc sử dụng tạp chất Gini (Chỉ số Gini) không giới hạn trong các tình huống nhị phân.

Một thuật ngữ khác cho tạp chất Gini là Hệ số Gini được sử dụng bình thường như một thước đo phân phối thu nhập.


3
Hệ số Gini không phải là tạp chất Gini. Xem các liên kết trong câu hỏi
Sean Owen

2
Wikipedia không phải lúc nào cũng là một nguồn thông tin đáng tin cậy :-)
Pasmod Turing

2
Chắc chắn rồi. Hãy tìm nó ở một nơi khác: mathworld.wolfram.com/GiniCoe enough.html Điều gì khiến bạn nghĩ hệ số Gini = tạp chất Gini?
Sean Owen


1
Tôi nghĩ rằng chúng ta đang nói về cây quyết định. Vì vậy, chúng tôi đang trong lĩnh vực học máy! Vui lòng đọc kỹ câu hỏi hơn
Pasmod Turing
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.