Mối quan hệ giữa điểm GINI và tỷ lệ khả năng đăng nhập là gì


21

Tôi đang nghiên cứu cây phân loại và hồi quy, và một trong những biện pháp cho vị trí phân tách là điểm GINI.

Bây giờ tôi đã quen với việc xác định vị trí phân chia tốt nhất khi nhật ký tỷ lệ khả năng của cùng một dữ liệu giữa hai phân phối bằng 0, có nghĩa là khả năng thành viên là có khả năng như nhau.

Trực giác của tôi nói rằng phải có một mối liên hệ nào đó, rằng GINI phải có một nền tảng tốt trong một lý thuyết thông tin toán học (Shannon) nhưng tôi không hiểu rõ về GINI đủ để tự mình rút ra mối quan hệ.

Câu hỏi:

  • "Nguyên tắc đầu tiên" của điểm tạp chất GINI là thước đo để phân chia là gì?
  • Làm thế nào để điểm GINI liên quan đến nhật ký tỷ lệ khả năng hoặc các nguyên tắc cơ bản thông tin khác (Shannon Entropy, pdf và entropy chéo là một phần của những điều đó)?

Tài liệu tham khảo:

Entropy của Shannon được mô tả là:

H(x)= =ΣtôiP(xtôi)đăng nhậpbP(xtôi)

Mở rộng điều này sang trường hợp đa biến chúng ta nhận được:

H(X,Y)= =ΣxΣyP(x,y)đăng nhậpbP(x,y)

Entropy có điều kiện được định nghĩa như sau:

H(X|Y)= =Σyp(x,y)đăng nhậpbp(x)p(x,y)hoặc là,H(X|Y)= =H(X,Y)-H(Y)

Nhật ký của tỷ lệ khả năng được sử dụng để phát hiện thay đổi đột ngột và được bắt nguồn bằng cách sử dụng chúng. (Tôi không có đạo hàm trước mặt tôi.)

Tạp chất GINI:

  • Dạng chung của tạp chất GINI làtôi= =Σtôi= =1mftôi(1-ftôi)

Suy nghĩ:

  • Việc tách được thực hiện trên thước đo tạp chất. "Độ tinh khiết" cao có khả năng giống như entropy thấp. Cách tiếp cận có khả năng liên quan đến giảm thiểu entropy.
  • Có khả năng phân phối cơ sở giả định là đồng nhất, hoặc có thể bằng cách vẫy tay, Gaussian. Họ có khả năng thực hiện một hỗn hợp phân phối.
  • Tôi tự hỏi nếu dẫn xuất biểu đồ Shewhart có thể áp dụng ở đây?
  • Tạp chất GINI trông giống như tích phân của hàm mật độ xác suất cho phân phối nhị thức với 2 thử nghiệm và một thành công. P(x= =k)= =(21)p(1-p)

(bổ sung)

  • Biểu mẫu cũng phù hợp với phân phối nhị thức Beta, là liên hợp trước khi phân phối Hypergeometric. Các xét nghiệm siêu âm thường được sử dụng để xác định mẫu nào vượt quá hoặc dưới đại diện trong mẫu. Ngoài ra còn có mối quan hệ với bài kiểm tra chính xác của Fisher, bất kể đó là gì (lưu ý đến bản thân, hãy tìm hiểu thêm về điều này).

Chỉnh sửa: Tôi nghi ngờ rằng có một dạng GINI hoạt động rất tốt với logic kỹ thuật số và / hoặc rb-cây. Tôi hy vọng sẽ khám phá điều này trong một dự án lớp học vào mùa thu này.


1
Có vấn đề gì không nếu tôi trả lời câu hỏi của chính mình?
EngrStudent - Phục hồi Monica

1
Không hoàn toàn không. Nếu bạn đã đưa ra những gì bạn nghĩ là một câu trả lời hợp lý, hãy bắn đi.
gung - Phục hồi Monica

@EngrStudent. câu hỏi hay nhưng liên kết đầu tiên bạn cung cấp trong phần tài liệu tham khảo liên quan đến hệ số Gini, không liên quan gì đến biện pháp Gini được sử dụng trong GIỎ HÀNG
Antoine

Liên quan đến chỉ số Gini Tôi vừa đăng một cách giải thích đơn giản: stats.stackexchange.com/questions/308885/ Kẻ
Picaud Vincent

Câu trả lời:


11

Tôi sẽ sử dụng cùng một ký hiệu tôi đã sử dụng ở đây: Toán học đằng sau cây phân loại và hồi quy

Gini Gain và Information Gain ( ) đều là tiêu chí phân tách dựa trên tạp chất. Sự khác biệt duy nhất là trong hàm tạp chất :tôitôiGtôi

  1. Gini:Gtôintôi(E)= =1-Σj= =1cpj2
  2. Entropy:H(E)= =-Σj= =1cpjđăng nhậppj

Chúng thực sự là các giá trị cụ thể của một biện pháp entropy tổng quát hơn (Entropy của Tsallis) được tham số hóa trong :β

Hβ(E)= =1β-1(1-Σj= =1cpjβ)

Gini thu được với và với .β= =2Hβ1

Khả năng đăng nhập, còn được gọi là -statistic, là một chuyển đổi tuyến tính của Thông tin đạt được:G

G-statistic= =2|E|tôiG

Tùy thuộc vào cộng đồng (thống kê / khai thác dữ liệu), mọi người thích một biện pháp này hoặc biện pháp khác (Câu hỏi liên quan ở đây ). Chúng có thể tương đương khá nhiều trong quá trình cảm ứng cây quyết định. Khả năng đăng nhập có thể cho điểm cao hơn đối với các phân vùng cân bằng khi có nhiều lớp mặc dù [Lưu ý kỹ thuật: Một số thuộc tính của tiêu chí chia tách. Breiman 1996].

Gini Gain có thể đẹp hơn vì nó không có logarit và bạn có thể tìm thấy dạng đóng cho giá trị và phương sai dự kiến ​​của nó theo giả định phân chia ngẫu nhiên [Alin Dobra, Johannes Gehrke: Bias Correction trong Phân loại cây xây dựng. ICML 2001: 90-97]. Nó không phải là dễ dàng cho thông tin đạt được (Nếu bạn quan tâm, xem tại đây ).


1

Câu hỏi hay. Thật không may, tôi không có đủ danh tiếng để upvote hoặc bình luận, vì vậy thay vào đó trả lời!

Tôi không rành lắm về kiểm tra tỷ lệ, nhưng tôi nhận ra rằng đó là một hình thức được sử dụng để so sánh khả năng dữ liệu phát sinh từ hai (hoặc nhiều) phân phối khác nhau , trong khi hệ số Gini là một thống kê tóm tắt của một phân phối.

Một cách hữu ích để nghĩ về hệ số Gini (IMO) là khu vực dưới đường cong Lorenz (liên quan đến cdf).

Có thể đánh đồng entropy của Shannon với Gini bằng cách sử dụng định nghĩa được đưa ra trong OP cho entropy:

H= =ΣtôiP(xtôi)đăng nhậpbP(xtôi)

và định nghĩa của Gini:

G= =1-1μΣtôiP(xtôi)(Stôi-1+Stôi)

Stôi= =Σj= =1tôiP(xtôi)xtôixtôi

Nó không giống như một nhiệm vụ dễ dàng!


Một tỷ lệ khả năng đăng nhập được vận hành trên cùng một dữ liệu. Một trong những bản phân phối có thể có dạng chung như các bản phân phối khác, nhưng các tham số của nó được gắn vào dữ liệu khi một số tiêu chí khác là đúng. Chẳng hạn, bạn có thể có một phân phối có tham số mô tả biến thể quy trình sản xuất lành mạnh (không nhất thiết là Gaussian) và phân phối khác phù hợp với các giá trị quy trình sản xuất hiện tại và hoạt động cả trên các giá trị quy trình sản xuất hiện tại so sánh tỷ lệ khả năng ghi nhật ký với giá trị ngưỡng cho biết khả năng du ngoạn. Nó có thể thực tế để được so sánh với lý tưởng.
EngrStudent - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.