Tại sao chúng ta tính giá trị Thông tin?

Tôi có dữ liệu với các biến phân loại và biến liên tục, nhưng là nhu cầu tìm giá trị thông tin trong phân tích dữ liệu giải thích.

Chỉ cần đưa ra lý do tại sao chúng tôi tính toán giá trị thông tin cho từng biến khi bắt đầu phân tích dữ liệu và đâu sẽ là điểm giới hạn của GIÁ TRỊ THÔNG TIN khi thực hiện phân tích

data-visualization

— người dùng43247
nguồn

Vui lòng cho chúng tôi biết cụ thể hơn "giá trị thông tin" tính toán đề cập đến điều gì: dường như không có ý nghĩa định lượng được tiêu chuẩn hóa cho thuật ngữ đó mà tất cả người đọc sẽ hiểu theo cùng một cách. Khi bạn chỉnh sửa câu hỏi của mình, vui lòng cung cấp thêm ngữ cảnh để giúp chúng tôi hiểu loại phân tích bạn đang thảo luận và bạn đang sử dụng "điểm cắt" để làm gì.

— whuber

Nói chung, thông tin giá trị gia tăng cung cấp một biện pháp tốt như thế nào một biến có khả năng phân biệt giữa một phản ứng nhị phân (ví dụ: "tốt" so với "xấu") trong một số biến mục tiêu . Ý tưởng là nếu một biến có Giá trị thông tin thấp, nó có thể không thực hiện đủ công việc phân loại biến mục tiêu và do đó được loại bỏ như một biến giải thích. $X$ $Y$ $X$

Để xem cách thức hoạt động của nó, hãy để được nhóm thành thùng. Mỗi tương ứng với một rằng có thể mất một trong hai giá trị, nói 0 hoặc 1. Sau đó cho thùng , , $X$ $n$ $x \in X$ $y \in Y$ $X_i$ $1 \leq i \leq n$

Tôi V = = Σ_{Tôi = = 1}^{n} (g_{Tôi} - b_{Tôi}) * \ln (g_{Tôi} / b_{Tôi})

$IV= \sum_{i=1}^n (g_i-b_i)*\ln(g_i/b_i)$

Ở đâu

of 's in of ' s in tỷ lệ 's trong bin so với tất cả các thùng $b_i= (\#$ $0$ $X_i)/(\#$ $0$ $X) =$ $0$ $i$

of 'in of ' s in tỷ lệ 's trong bin so với tất cả các thùng $g_i= (\#$ $1$ $X_i)/(\#$ $1$ $X) =$ $1$ $i$

còn được gọi là Trọng số chứng cứ (đối với bin ). Giá trị ngưỡng có thể thay đổi và lựa chọn là chủ quan. Tôi thường sử dụng (cũng như [1] bên dưới). $\ln(g_i/b_i)$ $X_i$ $IV < 0.3$

Trong bối cảnh chấm điểm tín dụng, hai tài nguyên này sẽ giúp:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resource/auge/proceedings12/141-2012.pdf

— người lùn
nguồn

Bạn có biết bất kỳ loại hiệu chỉnh nào để tính giá trị thông tin khi một trong các thùng là tốt hay xấu không? Ý tưởng của tôi là thêm 1 vào mỗi cột của mỗi thùng để sửa cho tình huống này. Tôi tự hỏi nếu đây là một thực tế phổ biến hoặc nếu có bất kỳ mối quan tâm lý thuyết nào khác. Tôi chủ yếu xem xét bước này ra khỏi chủ nghĩa thực dụng.

— Zelazny7

Tôi đã thấy một số học viên loại bỏ thuật ngữ này với tất cả tốt hoặc xấu từ tổng kết, nhưng tôi không khuyến nghị điều này vì về cơ bản bạn sẽ vô hiệu hóa một hiệp hội hoàn hảo. Thêm một hằng số (giả sử c) là một giải pháp thú vị, nhưng sự lựa chọn và hằng số và kích thước của thùng sẽ ảnh hưởng lớn đến IV của bạn. Khi c tiến đến 0 hoặc kích thước bin tiến đến vô cùng, IV tiến đến vô cùng. Để có được IV đại diện hơn, bạn có thể muốn xem xét kết hợp các thùng liền kề có tất cả hàng hóa hoặc tất cả các mặt xấu.

— dmanuge