Tôi đang nghiên cứu cây phân loại và hồi quy, và một trong những biện pháp cho vị trí phân tách là điểm GINI.
Bây giờ tôi đã quen với việc xác định vị trí phân chia tốt nhất khi nhật ký tỷ lệ khả năng của cùng một dữ liệu giữa hai phân phối bằng 0, có nghĩa là khả năng thành viên là có khả năng như nhau.
Trực giác của tôi nói rằng phải có một mối liên hệ nào đó, rằng GINI phải có một nền tảng tốt trong một lý thuyết thông tin toán học (Shannon) nhưng tôi không hiểu rõ về GINI đủ để tự mình rút ra mối quan hệ.
Câu hỏi:
- "Nguyên tắc đầu tiên" của điểm tạp chất GINI là thước đo để phân chia là gì?
- Làm thế nào để điểm GINI liên quan đến nhật ký tỷ lệ khả năng hoặc các nguyên tắc cơ bản thông tin khác (Shannon Entropy, pdf và entropy chéo là một phần của những điều đó)?
Tài liệu tham khảo:
- Tiêu chí Gini có trọng số được định nghĩa như thế nào?
- Toán học đằng sau cây phân loại và hồi quy
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(đã thêm) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/ Shared / document / con / Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurance
Entropy của Shannon được mô tả là:
Mở rộng điều này sang trường hợp đa biến chúng ta nhận được:
Entropy có điều kiện được định nghĩa như sau:
Nhật ký của tỷ lệ khả năng được sử dụng để phát hiện thay đổi đột ngột và được bắt nguồn bằng cách sử dụng chúng. (Tôi không có đạo hàm trước mặt tôi.)
Tạp chất GINI:
- Dạng chung của tạp chất GINI là
Suy nghĩ:
- Việc tách được thực hiện trên thước đo tạp chất. "Độ tinh khiết" cao có khả năng giống như entropy thấp. Cách tiếp cận có khả năng liên quan đến giảm thiểu entropy.
- Có khả năng phân phối cơ sở giả định là đồng nhất, hoặc có thể bằng cách vẫy tay, Gaussian. Họ có khả năng thực hiện một hỗn hợp phân phối.
- Tôi tự hỏi nếu dẫn xuất biểu đồ Shewhart có thể áp dụng ở đây?
- Tạp chất GINI trông giống như tích phân của hàm mật độ xác suất cho phân phối nhị thức với 2 thử nghiệm và một thành công.
(bổ sung)
- Biểu mẫu cũng phù hợp với phân phối nhị thức Beta, là liên hợp trước khi phân phối Hypergeometric. Các xét nghiệm siêu âm thường được sử dụng để xác định mẫu nào vượt quá hoặc dưới đại diện trong mẫu. Ngoài ra còn có mối quan hệ với bài kiểm tra chính xác của Fisher, bất kể đó là gì (lưu ý đến bản thân, hãy tìm hiểu thêm về điều này).
Chỉnh sửa: Tôi nghi ngờ rằng có một dạng GINI hoạt động rất tốt với logic kỹ thuật số và / hoặc rb-cây. Tôi hy vọng sẽ khám phá điều này trong một dự án lớp học vào mùa thu này.