Tại sao người ta phải thực hiện chuyển đổi WOE của các yếu tố dự báo phân loại trong hồi quy logistic?


10

Khi nào trọng số của bằng chứng (WOE) biến đổi các biến phân loại hữu ích?

Ví dụ có thể được nhìn thấy trong chuyển đổi WOE

(Vì vậy, đối với phản hồi , và một công cụ dự đoán phân loại với loại, & thành công trong số các thử nghiệm trong danh mục thứ của công cụ dự đoán này, WOE cho danh mục thứ được định nghĩa làk y j n j j jykyjnjjj

logyjjkyjjk(njyj)njyj

& phép biến đổi bao gồm mã hóa từng loại của bộ dự báo phân loại bằng WOE của nó để tạo thành một bộ dự đoán liên tục mới.)

Tôi muốn tìm hiểu lý do tại sao chuyển đổi WOE giúp hồi quy logistic. Lý thuyết đằng sau điều này là gì?

Câu trả lời:


6

Trong ví dụ bạn liên kết đến, bộ dự đoán phân loại được biểu thị bằng một biến liên tục duy nhất lấy giá trị cho mỗi cấp bằng với tỷ lệ cược nhật ký quan sát của phản hồi ở mức đó (cộng với hằng số):

đăng nhậpyjnj-yj+đăng nhậpΣjk(nj-yj)Σjkyj

Sự giấu giếm này không phục vụ bất kỳ mục đích nào mà tôi có thể nghĩ đến: bạn sẽ nhận được phản hồi dự đoán tương tự như khi bạn sử dụng mã hóa giả thông thường; nhưng mức độ tự do là sai, làm mất hiệu lực một số hình thức suy luận hữu ích về mô hình.

Trong hồi quy bội, với một số dự đoán phân loại để chuyển đổi, tôi cho rằng bạn tính toán WOE cho mỗi lần sử dụng tỷ lệ cược nhật ký cận biên. Điều đó sẽ thay đổi các phản ứng dự đoán; nhưng vì gây nhiễu không được tính đến, nên tỷ lệ cược log có điều kiện không phải là hàm tuyến tính của tỷ lệ cược log cận biên. Tôi không thể thấy bất kỳ lý do nào để cho rằng đó là một sự cải thiện, và vẫn còn những vấn đề suy diễn.


Bạn có thể giải thích tại sao mức độ tự do là sai với WOE? Nó chỉ là một sự chuyển đổi phải không? Ngoài ra, điều gì sẽ xảy ra nếu chúng ta có một vài biến phân loại và chúng ta có WOE cho từng biến một? Theo kinh nghiệm của tôi khi bạn có nhiều biến phân loại, thì một số nhóm giữa các biến khác nhau trùng nhau rất nhiều và bạn bắt đầu thấy một số hệ số không đáng kể. Và bạn cũng cần phải mang theo một số hệ số.
adam

1
(1) Một phép biến đổi phụ thuộc vào việc đánh giá mối quan hệ của các yếu tố dự đoán với phản ứng - thứ gì đó được cho là để lại hồi quy. Vì vậy, ví dụ thống kê kiểm tra tỷ lệ khả năng sẽ không có phân phối giống như khi chuyển đổi được chỉ định trước. (2) Điểm tốt! - hồi quy bội trên WOE sẽ không tương đương với biến giả (trừ khi các mô hình đã bão hòa). (3) Vậy thì sao? (4) Hệ số không nặng hơn WOE.
Scortchi - Tái lập Monica

1

Phân loại thô bằng cách sử dụng thước đo bằng chứng (WoE) có lợi thế sau đây - WoE hiển thị mối quan hệ tuyến tính với logarit tự nhiên của tỷ lệ chênh lệch là biến phụ thuộc trong hồi quy logistic.
Do đó, câu hỏi về lỗi chính tả mô hình không xuất hiện trong hồi quy logistic khi chúng ta sử dụng WoE thay vì các giá trị thực của biến.

tôin(p/1-p)αβWoE(Vmộtr1)γWoE(Vmộtr2)ηWoE(Vmộtr3)

Nguồn: Trong một trong những PPT, huấn luyện viên của tôi đã chỉ cho tôi trong quá trình đào tạo của công ty.


1
"Lỗi chính tả mô hình không phát sinh trong hồi quy logistic khi chúng ta sử dụng WoE thay vì các giá trị thực của biến". Bạn có thể giải thích / chứng minh điều này một cách toán học?
adam

Tôi không từ nền phân tích nguy cơ nhưng pg 131.132 của cuốn sách này dường như nói như vậy books.google.co.in/...
Srikanth Guhan

Ngoài ra, liên kết này khẳng định tương tự mặc dù không có toán học nào được giải thích analyticbridge.com/forum/topics/,
Srikanth Guhan

Cảm ơn các liên kết, nhưng rõ ràng là không đúng sự thật rằng tỷ lệ cược log cận biên mà WoE tỷ lệ có mối quan hệ tuyến tính với tỷ lệ cược log có điều kiện mà chính hồi quy logistic liên quan. Nhầm lẫn với các dự đoán khác thậm chí có thể dẫn đến các loại đặt hàng WoE khác nhau.
Scortchi - Tái lập Monica

1

Các phép biến đổi WOE giúp ích khi bạn có cả dữ liệu số và phân loại mà bạn cần kết hợp và thiếu các giá trị trong suốt mà bạn muốn trích xuất thông tin từ đó. Chuyển đổi mọi thứ thành WOE giúp "chuẩn hóa" nhiều loại dữ liệu khác nhau (thậm chí thiếu dữ liệu) trên cùng một tỷ lệ cược nhật ký. Bài đăng trên blog này giải thích những điều hợp lý: http://multithreaded.stitchfix.com/blog/2015/08/13/gra-of-evidence/

Tóm lại của câu chuyện là Hồi quy logistic với WOE, nên được gọi là (và được) gọi là Phân loại Bayes Nai-Naive (SNBC). Nếu bạn đang cố gắng để hiểu thuật toán, tên SNBC, với tôi, nhiều thông tin hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.