Thay thế các biến bằng WoE (Trọng số của bằng chứng) trong hồi quy logistic


13

Đây là một câu hỏi liên quan đến một thực hành hoặc phương pháp theo sau bởi một số đồng nghiệp của tôi. Trong khi thực hiện mô hình hồi quy logistic, tôi đã thấy mọi người thay thế các biến phân loại (hoặc các biến liên tục được đánh dấu) bằng Trọng số bằng chứng tương ứng (WoE). Điều này được cho là được thực hiện để thiết lập một mối quan hệ đơn điệu giữa biến hồi quy và biến phụ thuộc. Bây giờ theo tôi hiểu, một khi mô hình được tạo ra, các biến trong phương trình KHÔNG phải là biến trong tập dữ liệu. Thay vào đó, các biến trong phương trình bây giờ là loại tầm quan trọng hoặc trọng số của các biến trong việc phân tách biến phụ thuộc !

Câu hỏi của tôi là: làm thế nào để chúng ta giải thích mô hình hoặc các hệ số mô hình? Ví dụ cho phương trình sau:

log(p1p)=β0+β1x1

chúng ta có thể nói rằng mức tăng tương đối trong tỷ lệ lẻ cho 1 đơn vị tăng trong biến x 1 .exp(β1) x1

Nhưng nếu biến được thay thế bằng WoE của nó, thì cách hiểu sẽ được thay đổi thành: tăng tương đối tỷ lệ lẻ cho 1 đơn vị tăng trong QUAN TRỌNG / TRỌNG LƯỢNG của biến

Tôi đã thấy thực hành này trên internet, nhưng không nơi nào tôi tìm thấy câu trả lời cho câu hỏi này. Liên kết này từ chính cộng đồng này có liên quan đến truy vấn có phần tương tự nơi ai đó đã viết:

WoE hiển thị một mối quan hệ tuyến tính với logarit tự nhiên của tỷ lệ cược là biến phụ thuộc trong hồi quy logistic. Do đó, câu hỏi về lỗi chính tả mô hình không xuất hiện trong hồi quy logistic khi chúng ta sử dụng WoE thay vì các giá trị thực của biến.

Nhưng tôi vẫn không nhận được lời giải thích. Xin hãy giúp tôi hiểu những gì tôi đang thiếu.


là tỷ số chênh liên w / A tăng 1 đơn vị trongexp(β1) , không phải "sự gia tăng tương đốitrong tỷ số chênh liên w / A tăng 1 đơn vị x 1 ". x1x1
gung - Phục hồi Monica

Không. Rõ ràng để thoát khỏi bạn phải lấy tỉ số của LHS sau lũy thừaβ0
SamRoy

Tỷ lệ cược là p / (1-p), vì vậy nếu p (x) = exp (0 + 1x) và p (x + 1) = exp (0 + 1x + 1) lưu ý rằng p (x + 1) = exp (𝛽0 + 1x) exp (1) và cuối cùng là tỷ lệ cược p (x + 1) / p (x) = exp (1) như được nêu bởi stats.stackexchange.com/users/7290/gung
hwrd

Câu trả lời:


11

Phương pháp WoE bao gồm hai bước:

Biến 1 - để phân tách (một biến liên tục) thành một vài loại hoặc biến nhóm (một biến rời rạc) thành một vài loại (và trong cả hai trường hợp, bạn cho rằng tất cả các quan sát trong một loại đều có tác động "giống nhau" đến biến phụ thuộc)
2 - để tính WoE giá trị cho mỗi danh mục (sau đó các giá trị x gốc được thay thế bằng các giá trị WoE)

Phép biến đổi WoE có (ít nhất) ba tác động tích cực:
1) Nó có thể biến đổi một biến độc lập để nó thiết lập mối quan hệ đơn điệu với biến phụ thuộc. Trên thực tế, nó còn làm được nhiều hơn thế - để bảo đảm mối quan hệ đơn điệu, nó sẽ đủ để "mã hóa" nó thành bất kỳ biện pháp nào được đặt hàng (ví dụ 1,2,3,4 ...) nhưng chuyển đổi WoE thực sự ra lệnh cho các danh mục theo "logistic "Thang đo tự nhiên cho hồi quy logistic
2) Đối với các biến có quá nhiều giá trị rời rạc (dân cư thưa thớt), chúng có thể được nhóm thành các loại (dân cư đông đúc) và WoE có thể được sử dụng để thể hiện thông tin cho toàn thể loại
3) Hiệu ứng (đơn biến) của từng loại đối với biến phụ thuộc có thể được so sánh đơn giản giữa các loại và giữa các biến vì WoE là giá trị chuẩn (ví dụ: bạn có thể so sánh WoE của người đã kết hôn với WoE của người lao động chân tay)

Nó cũng có (ít nhất) ba nhược điểm:
1) Mất thông tin (biến thể) do binning đến vài loại
2) Đó là một "đơn biến" biện pháp để nó không đi vào tương quan tài khoản giữa các biến độc lập
3) Nó rất dễ dàng để Thao tác (overfit) hiệu ứng của các biến theo cách tạo danh mục

Thông thường, các betas của hồi quy (trong đó x được thay thế bằng WoE) không được giải thích theo từng se nhưng chúng được nhân với WoE để lấy "điểm" (ví dụ beta cho biến "tình trạng hôn nhân" có thể được nhân với WoE của Nhóm "người đã kết hôn" để xem điểm của những người đã kết hôn, beta cho "nghề nghiệp" có thể được nhân với WoE của "người lao động chân tay" để xem điểm của người lao động chân tay. Sau đó, nếu bạn quan tâm đến điểm số của người lao động chân tay, bạn tổng hợp hai điểm số này và xem mức độ ảnh hưởng đến kết quả). Điểm càng cao, xác suất kết quả bằng 1 càng lớn.


1
(+1) Tại sao lại là một lợi thế để mã hóa lại một người dự đoán có mối quan hệ đơn điệu với phản hồi?
Scortchi - Tái lập Monica

1
@Scortchi Tôi có thể nghĩ về một ví dụ - biến độc lập là chiều cao của người (tính bằng cm), mọi người đang đi mua quần áo đẹp, biến phụ thuộc sẽ là một sự kiện nhị phân - cho dù họ có thể hoặc không thể mua quần áo phù hợp và thoải mái. Rõ ràng những người rất nhỏ và rất cao sẽ gặp khó khăn khi mua quần áo phù hợp, trong khi những người ở giữa có thể làm điều đó một cách dễ dàng. Với hồi quy đơn giản (không tương tác và không biến đổi), bạn chỉ có thể mô hình xác suất mua quần áo phù hợp tăng hoặc giảm theo chiều cao của con người
Ngựa của vua Solomon

1
Mọi người thường không sử dụng các phép biến đổi không đơn điệu của các yếu tố dự đoán - dù sao không phải trong mô hình thực nghiệm. Bao gồm các tương tác có thể loại bỏ hoặc giới thiệu các mối quan hệ không đơn điệu có điều kiện, như có thể bao gồm các dự đoán khác. Nhưng đại diện cho một công cụ dự đoán với hàm cơ bản đa thức hoặc spline là một cách đơn giản cho phép chúng; & cái khác đang tạo ra nó và từ đó coi nó là phân loại, sử dụng mã hóa ở mức tham chiếu. Cái cuối cùng, ít nhất, đơn giản hơn đáng kể so với phép biến đổi WoE này; không ai chia sẻ bất lợi cho ...
Scortchi - Tái lập Monica

1
... suy luận và khả năng diễn giải phát sinh từ việc xác định một yếu tố dự đoán theo các phản ứng; & tất cả cho phép một mối quan hệ có điều kiện không đơn điệu được mô hình hóa ngay cả khi mối quan hệ cận biên là đơn điệu (hoặc ngược lại). Tôi cho rằng điều tôi nhận được là sự biến đổi WoE đối với tôi dường như là một giải pháp để tìm kiếm một vấn đề. Có một lớp các tình huống mà nó tạo ra các dự đoán tốt hơn các phương thức được sử dụng rộng rãi hơn không? - mặc dù đó là một câu hỏi khác với câu hỏi bạn đã trả lời ở đây (có lẽ là stats.stackexchange.com/q/166816/17230 ).
Scortchi - Phục hồi Monica

Nếu bạn đã có dữ liệu phân loại thì sao? Vậy thì lợi thế duy nhất "thiết lập mối quan hệ đơn điệu" là gì? Có vẻ như thành phần quan trọng của WoE thực tế đang trong quá trình tạo thùng
information_interchange

7

Lý do để sử dụng WOE trong hồi quy logistic là tạo ra cái mà đôi khi được gọi là Trình phân loại Bay-Naive Bayesian (SNBC). Phần đầu của bài đăng trên blog này giải thích mọi thứ khá tốt: http://multithreaded.stitchfix.com/blog/2015/08/13/gra-of-evidence/

Các tham số beta trong mô hình là độ lệch tuyến tính của từng hiệu ứng ngây thơ (còn gọi là trọng số bằng chứng) do sự hiện diện của các yếu tố dự đoán khác và chúng có thể được hiểu là sự thay đổi tuyến tính trong tỷ lệ cược log của các yếu tố dự đoán cụ thể do sự hiện diện của dự đoán khác.


1

Trọng lượng bằng chứng (WoE) là kỹ thuật mạnh mẽ để thực hiện chuyển đổi và lựa chọn biến. Nó được sử dụng rộng rãi Trong chấm điểm tín dụng để đo lường sự phân tách giữa khách hàng tốt và khách hàng xấu. (Biến). Ưu điểm :: - Xử lý các giá trị bị thiếu Xử lý các ngoại lệ chuyển đổi dựa trên giá trị logrithmic của phân phối. Không cần biến giả bằng cách sử dụng kỹ thuật tạo thùng thích hợp, nó có thể thiết lập mối quan hệ đơn điệu btw độc lập & phụ thuộc.

mono_bin () = được sử dụng cho các biến số. char_bin () = được sử dụng cho các biến ký tự.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.