Nói chung, thông tin giá trị gia tăng cung cấp một biện pháp tốt như thế nào một biến có khả năng phân biệt giữa một phản ứng nhị phân (ví dụ: "tốt" so với "xấu") trong một số biến mục tiêu Y . Ý tưởng là nếu một biến X có Giá trị thông tin thấp, nó có thể không thực hiện đủ công việc phân loại biến mục tiêu và do đó được loại bỏ như một biến giải thích.XYX
Để xem cách thức hoạt động của nó, hãy để được nhóm thành n thùng. Mỗi x ∈ X tương ứng với một y ∈ Y rằng có thể mất một trong hai giá trị, nói 0 hoặc 1. Sau đó cho thùng X i , 1 ≤ i ≤ n ,Xnx ∈ Xy∈ YXTôi1 ≤ i ≤ n
TôiV= ∑i = 1n( gTôi- bTôi) ∗ ln( gTôi/ bTôi)
Ở đâu
of 0 's in X i ) / ( # of 0 ' s in X ) = tỷ lệ 0 's trong bin i so với tất cả các thùngbTôi= ( #0XTôi) / ( #0X) = =0Tôi
of 1 'in X i ) / ( # of 1 ' s in X ) = tỷ lệ 1 's trong bin i so với tất cả các thùnggTôi= ( #1XTôi) / ( #1X) = =1Tôi
còn được gọi là Trọng số chứng cứ (đối với bin X i ). Giá trị ngưỡng có thể thay đổi và lựa chọn là chủ quan. Tôi thường sử dụng I V < 0,3 (cũng như [1] bên dưới).ln( gTôi/ bTôi)XTôiTôiV< 0,3
Trong bối cảnh chấm điểm tín dụng, hai tài nguyên này sẽ giúp:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf
[2] http://support.sas.com/resource/auge/proceedings12/141-2012.pdf