Là một hồi quy logistic thiên vị khi biến kết quả được chia 5% - 95%?


10

Tôi đang xây dựng một mô hình xu hướng sử dụng hồi quy logistic cho một máy khách tiện ích. Mối quan tâm của tôi là trong tổng số các tài khoản 'xấu' của tôi chỉ là 5% và phần còn lại đều tốt. Tôi dự đoán "xấu".

  • Kết quả sẽ được biassed?
  • Điều gì là tối ưu 'xấu đến tỷ lệ tốt' để xây dựng một mô hình tốt?

Tôi nghĩ sẽ tốt hơn nếu có 50% hàng hóa và 50% xấu theo quy tắc ngón tay cái. Việc ra khỏi mô hình không được sai lệch trên mẫu.

Câu trả lời:


7

Tôi không đồng ý với các câu trả lời khác trong các bình luận, vì vậy thật công bằng khi tôi đưa ra ý kiến ​​của riêng mình. Đặt là phản hồi (tài khoản tốt / xấu) và là đồng biến.XYX

Đối với hồi quy logistic, mô hình như sau:

log(p(Y=1|X=x)p(Y=0|X=x))=α+i=1kxiβi

Hãy suy nghĩ về cách dữ liệu có thể được thu thập:

  • Bạn có thể chọn ngẫu nhiên các quan sát từ một số "dân số" giả định
  • Bạn có thể chọn dữ liệu dựa trên và xem giá trị nào của xảy ra.YXY

Cả hai trong số này là okay cho mô hình trên, như bạn chỉ mô hình hóa sự phân bố của . Đây sẽ được gọi là một nghiên cứu trong tương lai .Y|X

Cách khác:

  • Bạn có thể chọn các quan sát dựa trên (giả sử 100 mỗi cái) và xem tỷ lệ tương đối của (tức là bạn đang phân tầng trên ). Đây được gọi là nghiên cứu hồi cứu hoặc kiểm soát trường hợp .X YYXY

(Bạn cũng có thể chọn dữ liệu dựa trên và một số biến nhất định của : đây sẽ là nghiên cứu kiểm soát trường hợp phân tầng và phức tạp hơn nhiều khi làm việc, vì vậy tôi sẽ không đi sâu vào đây).XYX

Có một kết quả tốt đẹp từ dịch tễ học (xem Prentice và Pyke (1979) ) rằng đối với một nghiên cứu kiểm soát trường hợp, ước tính khả năng tối đa cho có thể được tìm thấy bằng hồi quy logistic, đó là sử dụng mô hình triển vọng cho dữ liệu hồi cứu.β

Vì vậy, làm thế nào điều này có liên quan đến vấn đề của bạn?

Chà, điều đó có nghĩa là nếu bạn có thể thu thập thêm dữ liệu, bạn chỉ cần xem các tài khoản xấu và vẫn sử dụng hồi quy logistic để ước tính (nhưng bạn sẽ cần điều chỉnh để giải quyết vấn đề quá mức đại diện). Giả sử chi phí $ 1 cho mỗi tài khoản bổ sung, thì điều này có thể hiệu quả hơn về chi phí sau đó chỉ cần xem tất cả các tài khoản. αβiα

Nhưng mặt khác, nếu bạn đã có TẤT CẢ dữ liệu có thể, không có điểm nào để phân tầng: bạn chỉ đơn giản là vứt bỏ dữ liệu (đưa ra ước tính tồi tệ hơn), và sau đó gặp phải vấn đề về ước tính .α


Điều này chỉ đúng mặc dù nếu bạn có đủ dữ liệu để đại diện đầy đủ cho nhóm thiểu số (thường là vấn đề mất cân bằng lớp lớn - vấn đề là mất cân bằng mỗi se, nhưng bạn không có đủ mẫu từ nhóm thiểu số lớp học). Trong trường hợp đó, trọng số chênh lệch dựa trên xác thực chéo của các lớp dương và âm, điều chỉnh alpha hoặc điều chỉnh nhân (tất cả IIRC tương đương) sẽ là một ý tưởng tốt để tăng lớp thiểu số. Phân tầng dữ liệu sẽ là một tương đương rẻ tiền và vui vẻ.
Dikran Marsupial

@Dikran: Tôi không thấy bất kỳ điều nào trong số này không đúng trong trường hợp đó: bạn không phải đại diện cho nhóm thiểu số, bạn chỉ cần đại diện cho sự khác biệt tương đối với đa số. Nếu bạn không có đủ dữ liệu cho điều đó, thì việc loại bỏ các quan sát khỏi đa số sẽ không có ích.
Simon Byrne

@Simon, tôi đã đồng ý với bạn rằng phân tầng không phải là một ý tưởng hay trừ khi bạn không muốn điều chỉnh alpha, xem lại các mẫu hoặc điều chỉnh đầu ra của mô hình. Như tôi đã nói, vấn đề với sự mất cân bằng lớp học không phải là sự mất cân bằng mỗi se, mà là không có đủ dữ liệu cho lớp thiểu số để xác định đầy đủ "sự khác biệt tương đối so với đa số". Khi điều đó xảy ra, trung bình nó thiên vị đầu ra cho lớp đa số, và do đó làm một cái gì đó để bù cho sự thiên vị đó là hữu ích. Sự phân tầng là một cách để làm điều đó, nhưng gần như không phải là tốt nhất.
Dikran Marsupial

@Simon, BTW cảm ơn bạn đã tham khảo Prentice và Pyke, có vẻ hữu ích.
Dikran Marsupial

1
@Dikran: Nó có thể được thiên vị cho các mô hình khác, nhưng KHÔNG cho hồi quy logistic, đó là toàn bộ vấn đề.
Simon Byrne

3

Không có triệu chứng, tỷ lệ dương tính với các mẫu âm tính về cơ bản là không liên quan. Vấn đề phát sinh chủ yếu khi bạn có quá ít mẫu của nhóm thiểu số để mô tả đầy đủ phân phối thống kê của nó. Làm cho tập dữ liệu lớn hơn thường giải quyết được vấn đề (nếu có thể).

Nếu điều này là không thể, điều tốt nhất cần làm là lấy mẫu lại dữ liệu để có được một tập dữ liệu cân bằng, sau đó áp dụng điều chỉnh nhân cho đầu ra của bộ phân loại để bù cho sự khác biệt giữa tập huấn luyện và tần số lớp tương đối hoạt động. Mặc dù bạn có thể tính toán hệ số điều chỉnh tối ưu (không có triệu chứng), nhưng trong thực tế, tốt nhất là điều chỉnh điều chỉnh bằng cách sử dụng xác thực chéo (vì chúng tôi đang xử lý một trường hợp thực tế hữu hạn thay vì trường hợp không có triệu chứng).

Trong tình huống này, tôi thường sử dụng một ủy ban mô hình, trong đó mỗi mô hình được đào tạo về tất cả các mẫu thiểu số và một mẫu ngẫu nhiên khác nhau của các mẫu đa số có cùng kích thước với các mẫu thiểu số. Điều này bảo vệ chống lại sự xui xẻo trong việc lựa chọn một tập hợp con duy nhất của các mẫu đa số.


2
Nhưng điều này có thích hợp với hồi quy logistic không? Chúng ta không cần mô tả phân phối thống kê của một trong hai lớp, chỉ là tỷ lệ tỷ lệ cược tương đối (xem nhận xét của tôi với @Henry).
Simon Byrne

Trong một ví dụ đơn biến có lẽ, nhưng nếu bạn có nhiều hơn một biến giải thích thì bạn cần thông tin về phân phối các mẫu để định hướng chính xác "phân biệt đối xử".
Dikran Marsupial

Sẽ không tốt hơn nếu áp dụng điều chỉnh nhân trong không gian tỷ lệ cược log trước khi chức năng logistic được áp dụng?
rm999

IIRC, điều chỉnh tối ưu về mặt giả định là nhân với tỷ lệ hoạt động so với tần số của tập huấn luyện, điều này dựa trên quy tắc Bayes, do đó, nó được áp dụng cho xác suất thay vì tỷ lệ chênh lệch log. Tuy nhiên, vì chúng tôi chỉ đang cố gắng sửa lỗi cho tính hiệu quả toán học có thể thu được trong ước tính, nên có lẽ không quá quan trọng việc điều chỉnh được thực hiện như thế nào, nó thực sự chỉ là một "yếu tố mờ nhạt".
Dikran Marsupial

@Dikran: Tôi không hiểu ý của bạn về việc định hướng chính xác "phân biệt đối xử". Ngay cả trong trường hợp đa biến, hồi quy logistic vẫn chỉ là tính toán tỷ lệ cược tương đối.
Simon Byrne

1

Về lý thuyết, bạn sẽ có thể phân biệt tốt hơn nếu tỷ lệ "tốt" và "xấu" có kích thước gần giống nhau. Bạn có thể có thể tiến tới điều này bằng cách lấy mẫu phân tầng, ghi đè các trường hợp xấu và sau đó xem xét lại để trở về tỷ lệ thực sau đó.

Điều này mang một số rủi ro. Cụ thể, mô hình của bạn có thể được gắn nhãn cá nhân là "có khả năng xấu" - có lẽ là những người không thể thanh toán hóa đơn tiện ích của họ khi đến hạn. Điều quan trọng là tác động của lỗi khi thực hiện việc này phải được nhận ra một cách chính xác: cụ thể có bao nhiêu "khách hàng tốt" sẽ bị mô hình gắn nhãn "có khả năng xấu" và bạn sẽ ít gặp phải lỗi sai nếu bạn không làm sai mô hình bằng cách lấy mẫu phân tầng.


Trên thực tế, tôi không nghĩ điều này đúng với hồi quy logistic: tham số tỷ lệ cược (thực hiện phân biệt đối xử) là bất biến đối với phân tầng trên biến phản ứng. Đây là lý do tại sao nó có thể được sử dụng cho các nghiên cứu kiểm soát trường hợp.
Simon Byrne

@Simon: Tôi không đồng ý với nhận xét của bạn về tỷ lệ chênh lệch, nhưng tôi đã thấy mọi người thất bại trong việc đưa lại hậu quả cho dân số một cách chính xác sau khi lấy mẫu phân tầng khi họ đã làm như vậy trong các trường hợp khác. Ví dụ: nếu bạn thấy rằng những người có yếu tố A đúng có tỷ lệ "xấu" gấp đôi so với những người không có yếu tố A, thì điều này không nên thay đổi với lấy mẫu phân tầng, nhưng nếu bạn muốn biết tỷ lệ dân số sẽ là bao nhiêu bị ảnh hưởng không cần thiết nếu bạn nhắm mục tiêu đến những người có yếu tố A, thì bạn cần cân nhắc cẩn thận thông tin từ các mẫu của bạn.
Henry

xin lỗi, đó không phải là thứ tôi không đồng ý Đó là bit đầu tiên: hậu quả của sự bất biến là một khi bạn có dữ liệu, không có điểm nào trong việc phân tầng, bạn chỉ cần vứt bỏ dữ liệu. (câu chuyện là khác nhau khi nói đến chi phí thu thập dữ liệu, do đó tồn tại các nghiên cứu kiểm soát trường hợp).
Simon Byrne

@Simon: Khi bạn nói "nghiên cứu trường hợp", bạn có nghĩa là ban đầu bạn dự định lấy một mẫu các trường hợp "xấu" và một mẫu các trường hợp "tốt"? Với tỷ lệ các trường hợp "xấu" cao hơn so với tỷ lệ nhỏ trong dân số? Nếu vậy, đó là những gì tôi dự định bằng cách "lấy mẫu phân tầng, ghi đè các trường hợp xấu" trong câu trả lời của tôi.
Henry

Vâng, đó chính xác là những gì tôi muốn nói. Câu hỏi dường như chỉ ra rằng họ đã có dữ liệu, do đó sẽ không có điểm nào trong việc phân tầng.
Simon Byrne

0

Có nhiều cách mà bạn có thể nghĩ về hồi quy logistic. Cách ưa thích của tôi là nghĩ rằng biến phản hồi của bạn, , tuân theo phân phối Bernoulli với xác suất . Một , lần lượt, là một chức năng của một số dự đoán. Chính thức hơn:p i p iyipipi

p i = logit - 1 ( một + b 1 x 1 + . . . + b n x n ) logit - 1 = exp ( X )

yiBernoulli(pi)
pi=logit1(a+b1x1+...+bnxn)
trong đólogit1=exp(X)1+exp(x)

Bây giờ có vấn đề gì không nếu bạn có tỷ lệ thất bại thấp (tài khoản xấu)? Không thực sự, miễn là dữ liệu mẫu của bạn được cân bằng, như một số người đã chỉ. Tuy nhiên, nếu dữ liệu của bạn không được cân bằng, thì việc lấy thêm dữ liệu có thể gần như vô dụng nếu có một số hiệu ứng lựa chọn mà bạn không tính đến. Trong trường hợp này, bạn nên sử dụng kết hợp, nhưng sự thiếu cân bằng có thể biến kết hợp khá vô dụng. Một chiến lược khác đang cố gắng tìm một thử nghiệm tự nhiên, vì vậy bạn có thể sử dụng thiết kế biến đổi công cụ biến hoặc hồi quy.

Cuối cùng, nhưng không kém phần quan trọng, nếu bạn có một mẫu cân bằng hoặc không có sai lệch lựa chọn, bạn có thể lo lắng với thực tế là tài khoản xấu rất hiếm. Tôi không nghĩ 5% là hiếm, nhưng chỉ trong trường hợp, hãy xem bài báo của Gary King về việc điều hành một sự kiện logistic hiếm. Trong gói Zelig, trong R, bạn có thể chạy một logistic sự kiện hiếm gặp.


0

Được rồi vì vậy tôi làm việc trong Phát hiện gian lận nên loại vấn đề này không phải là mới đối với tôi. Tôi nghĩ rằng cộng đồng học máy có khá nhiều điều để nói về dữ liệu không cân bằng (như trong các lớp không cân bằng). Vì vậy, có một vài chiến lược dễ chết mà tôi nghĩ đã được đề cập, và một vài ý tưởng gọn gàng, và một số cách ra khỏi đó. Tôi thậm chí sẽ không giả vờ để biết điều này có nghĩa gì đối với sự không triệu chứng cho vấn đề của bạn, nhưng dường như nó luôn mang lại cho tôi kết quả hợp lý trong hồi quy logistic. Có thể có một tờ giấy ở đó ở đâu đó, không chắc chắn.

Dưới đây là các lựa chọn của bạn như tôi thấy:

  1. Bao trùm lớp thiểu số. Số tiền này để lấy mẫu lớp thiểu số thay thế cho đến khi bạn có cùng số lượng quan sát với lớp đa số. Có nhiều cách thú vị để làm điều này để bạn làm những việc như xáo trộn các giá trị quan sát, để bạn có các giá trị gần với bản gốc nhưng không phải là bản sao hoàn hảo, v.v.
  2. Dưới mẫu, đây là nơi bạn lấy mẫu phụ của lớp đa số. Một lần nữa các cách ưa thích để làm điều này để bạn loại bỏ đa số các mẫu gần nhất với các mẫu thiểu số, sử dụng các thuật toán lân cận gần nhất, v.v.
  3. Thưởng cho các lớp. Đối với hồi quy logistic đây là những gì tôi làm. Về cơ bản, bạn đang thay đổi chức năng mất để xử phạt một trường hợp thiểu số bị phân loại sai nặng hơn nhiều so với một nhóm đa số bị phân loại sai. Nhưng sau đó một lần nữa bạn về mặt kỹ thuật không làm khả năng tối đa.
  4. Mô phỏng dữ liệu. Rất nhiều ý tưởng gọn gàng mà tôi đã chơi ở đây. Bạn có thể sử dụng SMOTE để tạo dữ liệu, Mạng đối thủ tạo, Bộ tạo tự động bằng cách sử dụng phần tổng quát, ước tính mật độ hạt nhân để vẽ mẫu mới.

Ở mức độ nào, tôi đã sử dụng tất cả các phương pháp này, nhưng tôi thấy đơn giản nhất là chỉ xem xét lại vấn đề cho hồi quy logistic. Một điều bạn có thể làm để kiểm tra mô hình của mình mặc dù là:

-Intercept/beta

Đó phải là ranh giới quyết định (xác suất 50% là thuộc một trong hai lớp) trên một biến số ceteris paribus đã cho . Nếu nó không có ý nghĩa, ví dụ: ranh giới quyết định là một số âm trên một biến hoàn toàn dương, thì bạn đã có sự thiên vị trong hồi quy logistic cần được sửa chữa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.