Phân tích hồi quy logistic


12

Câu hỏi này là loại chung chung và dài dòng, nhưng xin vui lòng chịu đựng với tôi.

Trong ứng dụng của mình, tôi có nhiều bộ dữ liệu, mỗi bộ gồm ~ 20.000 datapoint với ~ 50 tính năng và một biến nhị phân phụ thuộc duy nhất. Tôi đang cố gắng mô hình hóa các bộ dữ liệu bằng cách sử dụng hồi quy logistic thường xuyên (gói glmnet R )

Là một phần trong phân tích của tôi, tôi đã tạo ra các lô dư như sau. Đối với mỗi tính năng, tôi sắp xếp các điểm dữ liệu theo giá trị của tính năng đó, chia các điểm dữ liệu thành 100 nhóm và sau đó tính giá trị đầu ra trung bình và giá trị dự đoán trung bình trong mỗi nhóm. Tôi âm mưu những khác biệt.

Dưới đây là một ví dụ cốt truyện còn lại:

Trong cốt truyện trên, tính năng này có phạm vi [0,1] (với nồng độ nặng ở 1). Như bạn có thể thấy, khi giá trị tính năng thấp, mô hình dường như bị thiên lệch về việc đánh giá quá cao khả năng của đầu ra 1. Ví dụ, trong nhóm ngoài cùng bên trái, mô hình đánh giá quá cao xác suất khoảng 9%.

Được trang bị thông tin này, tôi muốn thay đổi định nghĩa tính năng theo cách đơn giản để gần đúng cho sai lệch này. Thay đổi như thay thế

xx

hoặc là

xfmột(x)= ={một nếu x<một x khác

Tôi có thể làm cái này như thế nào? Tôi đang tìm kiếm một phương pháp chung để con người có thể nhanh chóng cuộn qua tất cả ~ 50 lô và thực hiện các thay đổi, và thực hiện điều này cho tất cả các bộ dữ liệu và lặp lại thường xuyên để giữ cho các mô hình được cập nhật khi dữ liệu phát triển theo thời gian.

Như một câu hỏi chung, đây có phải là cách tiếp cận đúng? Google tìm kiếm "phân tích dư hồi quy logistic" không trả về nhiều kết quả với lời khuyên thực tế tốt. Họ dường như được cố định khi trả lời câu hỏi, "Mô hình này có phù hợp không?" và đưa ra các bài kiểm tra khác nhau như Hosmer-Lemeshow để trả lời. Nhưng tôi không quan tâm đến việc liệu mô hình của tôi có tốt không, tôi muốn biết làm thế nào để làm cho nó tốt hơn!

Câu trả lời:


4

Bạn thực sự không thể đánh giá sự thiên vị theo cách đó trong hồi quy logistic. Hồi quy logisitic chỉ được dự kiến ​​là không thiên vị về tỷ lệ cược log hoặc điểm logit, log (p / (1-p)). Các tỷ lệ sẽ bị sai lệch và do đó trông sai lệch. Bạn cần vẽ các phần dư theo tỷ lệ cược log.


Làm cách nào để kết hợp các phần dư log-lẻ trong một thùng? Trung bình số học? Đây là một chút bất ổn với tôi. Theo trực giác, nếu phân tích dư cho thấy không có sai lệch, thì tôi hy vọng rằng khi mô hình dự đoán Pr [y = 1] <0,2, thì y sẽ bằng 1 với xác suất nhỏ hơn 0,2. Nhưng câu trả lời của bạn dường như cho thấy đây không phải là trường hợp. Tôi có hiểu đúng không?
dshin

điều này có lẽ tốt hơn được đăng dưới dạng một bình luận.
xác suất

Không có David, nó không ngụ ý bất cứ điều gì ngoài xác suất 0,2, có thể các chỉnh sửa của tôi làm cho nó rõ ràng hơn.
Giăng

Xin lỗi, tôi vẫn còn một chút bối rối. Sự hiểu biết trực quan của tôi về một mô hình không thiên vị là nếu mô hình dự đoán p = 0,2 trên mỗi một số lượng lớn các biểu dữ liệu, thì 20% trong số các biểu dữ liệu đó sẽ có y = 1. Sự hiểu biết này có đúng không? Nếu vậy, có vẻ như phương pháp âm mưu của tôi sẽ hiển thị chính xác sai lệch. Nếu không ... thì tôi không hài lòng lắm với khái niệm "thiên vị" này! Nếu một mô hình không thiên vị đọc 0,2 không cho tôi biết bất cứ điều gì về xác suất y = 1, thì điều gì là không thiên vị?
dshin

Có, 20% nên có y = 1. Nhưng nó sẽ không chết, nó sẽ bị giảm đi một số tiền. Trong không gian xác suất bạn nghĩ nó sẽ đi theo hướng nào và bao nhiêu? Nếu không thiên vị, nó sẽ rơi vào một nơi nào đó trong .2: 1 hoặc 0: .2. Tuy nhiên, như bạn có thể thấy bằng kích thước của những không gian đó, chúng sẽ có xu hướng xa hơn trong khu vực lớn hơn chỉ vì chúng có thể. Trong không gian logit, khoảng cách xa phải bằng + hoặc -.
Giăng

2

không có khả năng tồn tại bất kỳ phần mềm chung nào để làm việc này. rất có thể bởi vì không có lý thuyết chung để khắc phục các vấn đề trong hồi quy. do đó đây là nhiều hơn một loại câu trả lời "những gì tôi sẽ làm" hơn là một thủ tục dựa trên lý thuyết.

cốt truyện bạn sản xuất về cơ bản là một thử nghiệm HL trực quan với 100 thùng, nhưng sử dụng một công cụ dự đoán duy nhất thay vì xác suất dự đoán để thực hiện việc tạo thùng. điều này có nghĩa là quy trình của bạn có khả năng kế thừa một số thuộc tính của xét nghiệm HL.

thủ tục của bạn nghe có vẻ hợp lý, mặc dù bạn nên biết về việc "quá mức" các tiêu chí của bạn. tiêu chí của bạn cũng ít hữu ích hơn khi chẩn đoán vì nó đã trở thành một phần của quá trình ước tính. Ngoài ra, bất cứ khi nào bạn làm một cái gì đó bằng trực giác, bạn nên viết ra quá trình ra quyết định của bạn càng chi tiết càng thiết thực. điều này là do bạn có thể khám phá các hạt giống của một quy trình hoặc lý thuyết chung, khi được phát triển dẫn đến một quy trình tốt hơn (tự động hơn và tối ưu hơn đối với một số lý thuyết).

Tôi nghĩ rằng một cách để đi là trước tiên hãy giảm số lượng lô bạn cần điều tra. một cách để làm điều này là khớp từng biến như một spline hình khối, và sau đó điều tra các ô có ước tính phi tuyến tính khác không. với số lượng điểm dữ liệu, đây cũng là một sửa chữa tự động dễ dàng cho phi tuyến tính. điều này sẽ mở rộng mô hình của bạn từ 50 đến 200 + 50k trong đó k là số nút. bạn có thể nghĩ về điều này khi áp dụng "mở rộng chuỗi taylor thống kê" của phép biến đổi "thật".

nếu chẩn đoán của bạn trông có vẻ tệ sau đó, thì tôi sẽ thử thêm các thuật ngữ tương tác.

các phần của câu hỏi của bạn có vẻ nhiều hơn về việc viết một chương trình tương tác, đó là miền của stackoverflow hơn ở đây. nó cũng có thể hữu ích để tìm kiếm các công cụ phân tích dữ liệu khám phá vì chúng có nhiều khả năng có các tính năng mà bạn có thể "cõng" ra.


Cảm ơn phản hồi này. Tôi sẽ xem xét ý tưởng spline khối. Tôi đã sử dụng phương pháp "nhìn vào các ô và điều chỉnh các tính năng" này trong một thiết lập hồi quy tuyến tính, trong đó có vẻ rõ ràng hơn làm thế nào để đạt được sự phù hợp tốt hơn. Ví dụ: nếu bạn thấy một cây gậy khúc côn cầu, rõ ràng việc áp dụng hiệu chỉnh f_a (x) sẽ dẫn đến sự phù hợp tốt hơn. Thông thường, kiến ​​thức từ miền vấn đề trùng khớp với quyết định này: nếu bạn dự đoán hạnh phúc từ thu nhập, chẳng hạn, sẽ có ý nghĩa đối với thu nhập, trừ khi bạn nghĩ tỷ phú hạnh phúc hơn 1000 triệu so với triệu phú.
dshin

Nhưng khi tôi chuyển sang cài đặt hồi quy logistic, tôi nhận ra rằng tôi không thực sự chắc chắn làm thế nào để chuyển phương pháp của mình. Do đó trình này.
dshin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.