Một lời giải thích đơn giản và rõ ràng về tạp chất Gini?


9

Trong bối cảnh chia tách cây quyết định, không rõ ràng tại sao tạp chất Gini là thước đo của tạp chất nút t . Có một lời giải thích dễ dàng về điều này?

Tôi(t)= =1-Σj= =1kp2(j|t)

Câu trả lời này cho một câu hỏi liên quan có thể giúp bạn hiểu rõ hơn về trực giác: stats.stackexchange.com/a/339514/27974
Scott

Câu trả lời:


13

Hãy tưởng tượng một thí nghiệm với kdanh mục đầu ra có thể. thể loạij có khả năng xảy ra p(j|t) (Ở đâu j= =1,..k)

Sau đó tái tạo trải nghiệm hai lần và thực hiện các quan sát sau:

  • xác suất để có được hai đầu ra giống hệt nhau của thể loại jp2(j|t)
  • xác suất để có được hai đầu ra giống hệt nhau , độc lập với danh mục của chúng, là:Σj= =1kp2(j|t)
  • do đó xác suất thu được hai đầu ra khác nhau là:1-Σj= =1kp2(j|t)

Đó là nó! Tạp chất Gini chỉ đơn giản là xác suất thu được hai đầu ra khác nhau , đó là "thước đo tạp chất". Theo hướng khác, nếu chúng ta có mộtj như vậy mà p(j|t)= =1 (và do đó, p (j | t) = 0) khác, chúng ta có tạp chất Gini Tôi(t)= =0 và chúng tôi sẽ luôn nhận được hai kết quả đầu ra giống nhau j, đó là một tình huống "thuần túy"!.


Cùng một môn toán nhưng với cách giải thích thực tế hơn: việc dự đoán lớp là điều tự nhiên j= =1Giáo dụck của một phần tử trong tập hợp bằng cách chọn một lớp j với xác suất p(j). 1-Gini sau đó chỉ đơn giản cung cấp cho bạn độ chính xác (Rand). Do đó, tạp chất Gini bằng 0 có nghĩa là độ chính xác 100% trong việc dự đoán lớp của các phần tử, vì vậy chúng đều thuộc cùng một lớp. Tương tự, tạp chất Gini là 0,5 có nghĩa là 50% cơ hội phân loại chính xác một yếu tố của tập hợp bằng phương pháp tự nhiên này, v.v.
Eric O Lebigot

0

Tạp chất Gini = entropy logic = Chỉ số đa dạng sinh học Gini-Simpson = entropy bậc hai với hàm khoảng cách logic (1-Kroneckerdelta), v.v. Xem: Ellerman, David. 2018. Entropy Enticaly: Giới thiệu về Lý thuyết thông tin logic cổ điển và lượng tử. Entropy 20 (9): ID bài viết 679. https://doi.org/10.3390/e20090679 và các tài liệu tham khảo có trong đó.


Các nhà kinh tế có thể gọi đây là chỉ số Herfindahl-Hirschman.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.