Lựa chọn giữa hồi quy logistic và Mann Whitney / t-tests


8

Tôi có một biến nhị phân , không có tỷ lệ xác định trước là 0 và 1 và biến liên tục .Mộtb

Trong kịch bản 1, tôi quyết định chỉ định là biến độc lập và là biến phụ thuộc . Sau đó, tôi kiểm tra với bằng các thử nghiệm như Mann Whitney (không phân phối), kiểm tra t (phân phối bình thường), v.v.MộtXbyXy

Trong kịch bản 2, tôi quyết định chỉ định là biến phụ thuộc và là biến độc lập . Sau đó tôi kiểm tra với bằng phương pháp hồi quy logistic.MộtYbxxY

  1. Tôi nên chọn mô hình nào khi tôi không biết tính định hướng của mối quan hệ giữa và , tức là tôi không thể quyết định liệu là biến độc lập hay là biến độc lập?MộtbMộtb

  2. Nếu tôi không chắc chắn đó là biến phụ thuộc hay biến độc lập, thì tôi có thể sử dụng t-test / Mann-Whitney trong trường hợp đầu tiên như một loại phân tích đơn biến, và sau đó sử dụng hồi quy logistic như một phân tích đa biến?

Câu trả lời:


6

Câu trả lời cho câu hỏi 1 sẽ phụ thuộc vào câu hỏi nghiên cứu của bạn và đối tượng là ai cho kết quả.

Nếu câu hỏi nghiên cứu của bạn chỉ ra việc nói về sự khác biệt trong b dựa trên hồ sơ của A, thì điều đó rõ ràng sẽ giúp đóng khung tóm tắt của bạn. Trong một nghiên cứu dịch tễ học, ngay cả khi bạn không lấy mẫu dựa trên A (biến độc lập là trạng thái phơi nhiễm / không phơi sáng), vẫn nên sử dụng phân loại này như một biến độc lập [phơi nhiễm] và biến liên tục làm biến phụ thuộc [kết quả ]. Có vẻ như bạn đã biết câu trả lời cho điều này.

Bạn cũng nên xem xét cách bạn có thể diễn giải kết quả theo cách trình bày kết quả cho người khác (và tự giải thích nó). Một mô hình [kết quả] biến phụ thuộc biến liên tục sẽ có sự khác biệt trung bình (hoặc tương tự) như một bản tóm tắt; một mô hình nhị phân biến-kết quả sẽ có tỷ lệ chênh lệch (tỷ lệ tăng tỷ lệ cược trên một đơn vị của biến liên tục, có thể được thu nhỏ để tăng ví dụ tăng thêm năm kg trọng lượng cho khả năng mắc bệnh tiểu đường loại II.)

Kinh nghiệm của tôi từ các thiết lập tư vấn và giải thích điều này cho mọi người là cái trước đây (sự khác biệt về phương tiện) thường dễ giải thích hơn cho người khác so với cái sau (tỷ lệ chênh lệch trên một đơn vị của biến độc lập liên tục.)

Đối với câu hỏi 2 của bạn , nếu bạn muốn chạy một mô hình đa biến, trong đó bạn đang kiểm soát các biến số, thì điều đó sẽ giúp chọn các biến phụ thuộc / độc lập khi bắt đầu. Có lẽ tốt nhất là gắn bó với cùng một phương pháp từ phân tích đơn biến sang phân tích đa biến, thay vì thay đổi giữa hai cách tiếp cận, chỉ từ việc giải thích dễ dàng.

Lưu ý cuối cùng về điểm thứ hai này: từ góc độ kiểm tra giả thuyết, hồi quy logistic với biến độc lập liên tục [phơi sáng] và [đơn] biến phụ thuộc nhị phân sẽ trả về cùng giá trị p như một phép thử t không ghép cặp với giả định phương sai không bằng nhau với các biến đảo ngược (từ bộ nhớ - tôi không hoàn toàn chắc chắn nếu điều này luôn luôn đúng.)


2
Trả lời câu hỏi này ( stats.stackexchange.com/questions/48381/... ) Tôi tìm thấy giấy sau đó chính thức thảo luận về tính tương đương quyền lực giữa hồi quy logistic nhị phân và một t-test lẻ ncbi.nlm.nih.gov/pubmed/9699234
James Stanley

6

Thử nghiệm Wilcoxon-Mann-Whitney là một trường hợp đặc biệt của mô hình logistic thứ tự tỷ lệ cược tỷ lệ để bạn có thể nói rằng không cần phải xoay mô hình để sử dụng hồi quy logistic. Nhưng vấn đề cơ bản trong việc lựa chọn mô hình là xác định biến nào có ý nghĩa để điều chỉnh.


2
Của bạn là một khái niệm rất thú vị và sắc sảo, @Frank, nhưng không chi tiết. Xin hãy giải thích cho tôi: 'trường hợp đặc biệt' này là gì khi hồi quy logistic thông thường của một biến định lượng trên biến nhị phân hoàn toàn tương đương với phép thử Mann-Whitney?
ttnphns

1
Một mô hình tỷ lệ cược tỷ lệ chỉ có một loạt các biến giả làm dự đoán, đại diện cho các nhóm k, tương đương với xếp hạng ANOVA của Kruskal-Wallis với k nhóm (k = 2 -> Wilcoxon). Tử số của thống kê điểm là thống kê ANOVA xếp hạng (Wilcoxon).
Frank Harrell

1
Xin vui lòng, @Frank, bạn có thể tìm thấy thời gian để chứng minh (chứng minh) sự tương đương trên một số dữ liệu nhỏ ngay trong câu trả lời của bạn không? Nó sẽ rất thú vị và quan trọng. Một tài liệu tham khảo, nếu có, cũng có thể là tốt đẹp. Cảm ơn nhiều.
ttnphns

1
Xem Whitehead, John: Tính toán kích thước mẫu cho dữ liệu phân loại được đặt hàng. Thống kê trong Y học 12 : 2257-2271; 1993. Xem thư gửi biên tập viên SM 15: 1065-6 cho trường hợp nhị phân, xem errata trong SM 13: 871 1994
Frank Harrell

2
Bạn có thể mở rộng câu cuối cùng của bạn trong câu trả lời? Cảm ơn.
jetistat001

1

Đó là một nỗ lực của một câu trả lời một phần:

YXY= =1Y= =0

Mặt khác, Mann Whitney dường như không có vấn đề gì với điều này, tức là, liệu có hay không đó là một nghiên cứu kiểm soát trường hợp.


1
YY

Chà, hồi quy logistic được thiết kế đặc biệt để làm việc với các nghiên cứu kiểm soát trường hợp, xem stats.stackexchange.com/questions/67903/ mẹo
kjetil b halvorsen

0

Như với nhiều câu hỏi, câu trả lời phụ thuộc vào mục đích cơ bản của bạn trong việc thực hiện phân tích. Nếu bạn quan tâm không chỉ cho thấy có mối liên quan đáng kể giữa biến nhị phân A và biến liên tục b, mà còn có thể tính toán khả năng dự kiến ​​của sự kiện được ghi trong biến A, thì bạn muốn sử dụng logistic hồi quy, vì phương pháp này cung cấp cho bạn một phương trình hồi quy. Ngoài ra, hồi quy logistic trong trường hợp bivariate của A và b có thể được mở rộng sang trường hợp đa biến dự đoán A từ b và nhiều biến độc lập khác cho mục đích kiểm soát đồng biến, kiểm tra mô hình trung gian, kiểm tra tương tác và tất cả những điều tốt đẹp khác chúng ta có thể làm với hồi quy bội. Có nói rằng, có lẽ bạn nên xem xét hàm liên kết liên quan đến biến nhị phân A với biến liên tục B. Hồi quy logistic sử dụng liên kết logit, phù hợp hơn khi xác suất của kết quả rất cao hoặc thấp, trong khi liên kết probit có thể phù hợp hơn khi xác suất của sự kiện gần với 0,5. Chọn chức năng liên kết phù hợp với dữ liệu của bạn là rất quan trọng để xây dựng mô hình hồi quy tốt. Một số thông tin thêm về các chức năng liên kết có thể được tìm thấy tại các liên kết sau: 5 Chọn chức năng liên kết phù hợp với dữ liệu của bạn là rất quan trọng để xây dựng mô hình hồi quy tốt. Một số thông tin thêm về các chức năng liên kết có thể được tìm thấy tại các liên kết sau: 5 Chọn chức năng liên kết phù hợp với dữ liệu của bạn là rất quan trọng để xây dựng mô hình hồi quy tốt. Một số thông tin thêm về các chức năng liên kết có thể được tìm thấy tại các liên kết sau:

http://www.stat.ufl.edu/CferenceINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf


2
Tôi không nghĩ rằng sự lựa chọn giữa việc sử dụng liên kết logit & probit có nhiều việc phải làm với việc xác suất có gần với 0,5 không. Tôi đã viết về sự lựa chọn liên kết ở đây: sự khác biệt giữa mô hình logit và mô hình probit . Tôi đã nghe mọi người đề xuất cloglogkhi các loại phản ứng không cân bằng, nhưng các tùy chọn khác tồn tại.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.