Hồi quy logistic đa thức so với hồi quy logistic nhị phân một-vs-rest


36

Hãy nói rằng chúng ta có một biến phụ thuộc với một vài loại và tập hợp các biến độc lập. Y

Những lợi thế của hồi quy logistic đa phương so với tập hồi quy logistic nhị phân (tức là sơ đồ một so với nghỉ ) là gì? Theo tập hợp hồi quy logistic nhị phân, ý tôi là với mỗi loại chúng tôi xây dựng mô hình hồi quy logistic nhị phân riêng biệt với target = 1 khi và 0 khác.Y = y iyiYY=yi


3
Về mặt toán học, một mô hình logit đa phương là một tập hợp các mô hình logit nhị phân, tất cả được so sánh với một sự thay thế cơ sở. Nhưng vì bạn có thể thu gọn các tham số chung và có thể kết hợp một số tham số khác, nên MNL sẽ luôn luôn ít nhất là hiệu quả (và có lẽ còn hơn thế nữa). Tôi thấy không có lý do gì để sử dụng một loạt các mô hình nhị thức.
gregmacfarlane

2
@gmacfarlane: Tôi đã cố gắng mô phỏng dữ liệu trong đó MNL sẽ tốt hơn chuỗi hồi quy logistic nhị phân, nhưng trung bình mỗi lần chất lượng đều như nhau. Tôi đã so sánh các biểu đồ thang máy và sau khi kết quả trung bình từ một vài mô phỏng, chúng gần như giống nhau. Có lẽ bạn có một ý tưởng làm thế nào để tạo ra dữ liệu để MNL đánh bại các hồi quy logistic nhị phân? Mặc dù MNL có lợi thế lớn, điểm số của nó có thể được hiểu là xác suất.
Tomek Tarczynski

Hồi quy đa biến logistic là sự mở rộng của hồi quy logit nhị phân. Nó được sử dụng khi các biến phụ thuộc của nghiên cứu là ba trở lên, trong khi đó, logit nhị phân được sử dụng khi các biến phụ thuộc của nghiên cứu là hai.

Đối với độc giả: Tôi khuyên bạn nên bắt đầu từ câu trả lời của @ julieth và theo dõi bằng cách đọc ttnphns '. Tôi nghĩ rằng cái trước trực tiếp trả lời câu hỏi ban đầu nhưng cái sau thêm một số bối cảnh thú vị. ttnphns cũng cho thấy các tính năng khác nhau có sẵn cho cả hai trong một thói quen phần mềm phổ biến, chính nó có thể tạo thành một lý do để sử dụng cái này hơn cái kia (xem tuyên bố của gregmacfarlane).
Ben Ogorek

Câu trả lời:


21

Nếu có nhiều hơn hai loại, câu hỏi của bạn về "lợi thế" của một hồi quy so với loại khác có lẽ là vô nghĩa nếu bạn định so sánh các tham số của các mô hình , bởi vì các mô hình sẽ khác nhau về cơ bản:Y

ilogP(i)P(not i)=logiti=linear combination cho mỗi hồi quy logistic nhị phâni

irirlogP(i)P(r)=logiti=linear combination cho mỗi loại trong hồi quy logistic nhiều , là loại tham chiếu được chọn ( ).irir

Tuy nhiên, nếu mục đích của bạn chỉ là dự đoán xác suất của từng loại cách tiếp cận là hợp lý, mặc dù họ có thể đưa ra các ước tính xác suất khác nhau. Công thức để ước tính xác suất là chung chung:i

i,j,...,rrexp(logit)=1P'(iP(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr) , trong đó là tất cả các danh mục, và nếu được chọn làm tham chiếu thì . Vì vậy, đối với logistic nhị phân có cùng công thức trở thành . Logistic đa quốc gia dựa trên giả định (không phải luôn luôn thực tế) về tính độc lập của các lựa chọn không liên quan trong khi một loạt các dự đoán logistic nhị phân thì không.i,j,,rrexp(logit)=1P(i)=exp(logiti)exp(logiti)+1


Một chủ đề riêng biệt là sự khác biệt kỹ thuật giữa hồi quy logistic đa thức và nhị phân trong trường hợp khi là nhị phân . Sẽ có sự khác biệt trong kết quả? Hầu hết thời gian không có đồng biến, kết quả sẽ giống nhau, tuy nhiên, vẫn có sự khác biệt trong các thuật toán và trong các tùy chọn đầu ra. Hãy để tôi chỉ trích dẫn SPSS Trợ giúp về vấn đề đó trong SPSS:Y

Các mô hình hồi quy logistic nhị phân có thể được trang bị bằng cách sử dụng thủ tục Hồi quy logistic hoặc thủ tục hồi quy logistic đa thức. Mỗi thủ tục có các tùy chọn không có sẵn trong khác. Một điểm khác biệt quan trọng về mặt lý thuyết là quy trình Hồi quy logistic tạo ra tất cả các dự đoán, số dư, thống kê ảnh hưởng và kiểm tra mức độ phù hợp bằng cách sử dụng dữ liệu ở cấp độ trường hợp riêng lẻ, bất kể dữ liệu được nhập như thế nào và có hay không số lượng mẫu đồng biến nhỏ hơn tổng số trường hợp, trong khi thủ tục Hồi quy đa biến logistic tổng hợp các trường hợp để tạo thành các quần thể với các mẫu đồng biến giống hệt nhau cho các yếu tố dự đoán, đưa ra dự đoán, số dư và kiểm tra mức độ phù hợp dựa trên các quần thể này.

Logistic Regression cung cấp các tính năng độc đáo sau:

• Kiểm tra mức độ phù hợp của Hosmer-Lemeshow cho mô hình

• Phân tích từng bước

• Tương phản để xác định tham số mô hình

• Điểm cắt thay thế để phân loại

• Sơ đồ phân loại

• Mô hình được trang bị trên một bộ vỏ cho một bộ vỏ

• Lưu dự đoán, số dư và thống kê ảnh hưởng

Đa thức Logistic Regression cung cấp các tính năng độc đáo sau đây:

• Các xét nghiệm chi bình phương Pearson và lệch lạc về mức độ phù hợp của mô hình

• Đặc điểm kỹ thuật của các nhóm dân số để phân nhóm dữ liệu cho các bài kiểm tra mức độ phù hợp

• Liệt kê số lượng, số lượng dự đoán và số dư theo dân số

• Sửa chữa các ước tính phương sai cho phân tán quá mức

• Ma trận hiệp phương sai của các ước tính tham số

• Kiểm tra kết hợp tuyến tính của các tham số

• Đặc tả kỹ thuật của các mô hình lồng nhau

• Fit 1-1 phù hợp với mô hình hồi quy logistic có điều kiện bằng cách sử dụng các biến khác nhau


Tôi biết rằng những mô hình này sẽ khác nhau, nhưng tôi không biết cái nào tốt hơn trong tình huống nào. Tôi sẽ đặt câu hỏi theo cách khác. Nếu bạn được giao một nhiệm vụ: Đối với mỗi người dự đoán xác suất một số công ty điện thoại di động là công ty yêu thích (giả sử mọi người đều có công ty điện thoại di động yêu thích). Bạn sẽ sử dụng phương pháp nào trong số những phương pháp đó và những ưu điểm so với phương pháp thứ hai là gì?
Tomek Tarczynski

@Tomek Tôi đã mở rộng câu trả lời của mình một chút
ttnphns

Mặc dù tôi nghĩ rằng @ julieth là câu trả lời tốt nhất cho câu hỏi ban đầu của OP, nhưng tôi nợ bạn vì đã giới thiệu về giả định thay thế độc lập không liên quan. Một câu hỏi tôi vẫn có là liệu hậu cần riêng biệt có thực sự khắc phục được không; bài viết Wikipedia mà bạn đã liên kết với probit đã đề cập và "logit lồng nhau" khi cho phép vi phạm IIA
Ben Ogorek

iriir

13

Do tiêu đề, tôi cho rằng "lợi thế của hồi quy logistic nhiều" có nghĩa là "hồi quy đa phương thức". Thường có những lợi thế khi mô hình phù hợp đồng thời. Tình huống cụ thể này được mô tả trong Agresti (Phân tích dữ liệu phân loại, 2002) trang 273. Tóm lại (paraphrasing Agresti), bạn mong đợi các ước tính từ mô hình chung sẽ khác với mô hình phân tầng. Các mô hình logistic riêng biệt có xu hướng có lỗi tiêu chuẩn lớn hơn mặc dù nó có thể không quá tệ khi mức độ thường xuyên nhất của kết quả được đặt là mức tham chiếu.


Cảm ơn! Tôi sẽ cố gắng tìm cuốn sách này, không may google.books chỉ cung cấp nội dung cho đến trang 268.
Tomek Tarczynski

@TomekTarczynski Tôi đã tóm tắt các thông tin liên quan từ đoạn văn, vì vậy bạn không thể có thêm thông tin nào liên quan đến câu hỏi này khi nhìn vào cuốn sách (mặc dù cuốn sách rất hay vì vậy bạn sẽ có được thông tin tốt khác).
julieth

4
Trích dẫn từ cuốn sách Agresti: "Các ước tính phù hợp riêng biệt khác với ước tính ML cho việc phù hợp đồng thời các bản ghi J-1. Chúng kém hiệu quả hơn, có xu hướng có lỗi tiêu chuẩn lớn hơn. Tuy nhiên, Begg và Gray 1984 cho thấy sự mất hiệu quả là nhỏ khi loại phản ứng có tỷ lệ lưu hành cao nhất là cơ sở. ".
Franck Dernoncourt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.