Biến đổi các biến liên tục cho hồi quy logistic


11

Tôi có dữ liệu khảo sát lớn, một biến kết quả nhị phân và nhiều biến giải thích bao gồm nhị phân và liên tục. Tôi đang xây dựng các bộ mô hình (thử nghiệm với cả GLM và GLM hỗn hợp) và sử dụng các phương pháp lý thuyết thông tin để chọn mô hình hàng đầu. Tôi đã xem xét cẩn thận các giải thích (cả liên tục và phân loại) về mối tương quan và tôi chỉ sử dụng những giải thích trong cùng một mô hình có Pearson hoặc Phicorr coeff dưới 0,3. Tôi muốn cung cấp cho tất cả các biến liên tục của tôi một cơ hội công bằng trong việc cạnh tranh cho mô hình hàng đầu. Theo kinh nghiệm của tôi, việc biến đổi những người cần nó dựa trên độ lệch sẽ cải thiện mô hình mà họ tham gia (AIC thấp hơn).

Câu hỏi đầu tiên của tôi là: sự cải thiện này có phải vì sự biến đổi giúp cải thiện tính tuyến tính với logit không? Hoặc là sửa sai lệch cải thiện sự cân bằng của các biến giải thích bằng cách nào đó bằng cách làm cho dữ liệu đối xứng hơn? Tôi ước tôi hiểu những lý do toán học đằng sau điều này nhưng bây giờ, nếu ai đó có thể giải thích điều này một cách dễ dàng, điều đó sẽ rất tuyệt. Nếu bạn có bất kỳ tài liệu tham khảo nào tôi có thể sử dụng, tôi thực sự sẽ đánh giá cao nó.

Nhiều trang web nói rằng vì tính quy phạm không phải là một giả định trong hồi quy logistic nhị phân, không biến đổi các biến. Nhưng tôi cảm thấy rằng bằng cách không biến đổi các biến của mình, tôi gặp một số bất lợi so với các biến khác và nó có thể ảnh hưởng đến mô hình hàng đầu là gì và thay đổi suy luận (tốt, nó thường không, nhưng trong một số bộ dữ liệu thì không). Một số biến của tôi hoạt động tốt hơn khi chuyển đổi nhật ký, một số biến khi bình phương (hướng xiên khác nhau) và một số biến không được dịch.

Ai đó có thể cho tôi một hướng dẫn những gì cần cẩn thận khi chuyển đổi các biến giải thích cho hồi quy logistic và nếu không làm điều đó, tại sao không?


2
Thật vậy, trong hồi quy logistic không có giả định về tính quy tắc (hoặc phân phối logistic trong trường hợp này). Hàm liên kết (đôi khi được ký hiệu là ) được sử dụng để mô hình hóa mối quan hệ giữa xác suất quan sát ( ) với các hiệp phương sai thông qua . Sự phù hợp / hiệu suất kém có thể là do sự lựa chọn của chức năng liên kết. Một cách khác để sắp xếp vấn đề này bao gồm sử dụng phân phối linh hoạt hơn, xem ví dụ trong bài viết này . FF110P(Y=1|β,X)=F(Xβ)

Mặc dù được viết trong một ngữ cảnh khác nhau, phần lớn những gì bạn đang yêu cầu nằm trong câu trả lời của tôi (hoặc trong các liên kết trong câu trả lời của tôi) ở đây: X và Y thường được phân phối có nhiều khả năng dẫn đến dư lượng phân phối bình thường không?
gung - Phục hồi Monica

Câu trả lời:


3

Bạn nên cảnh giác khi quyết định chuyển đổi hay không các biến chỉ dựa trên cơ sở thống kê . Bạn phải nhìn vào giải thích. Có hợp lý không khi các câu trả lời của bạn là tuyến tính theo ? hoặc có lẽ là tuyến tính hơn trong ? Và để thảo luận về điều đó, chúng ta cần biết những thay đổi của bạn ... Chỉ là một ví dụ: không phụ thuộc vào sự phù hợp với mô hình, tôi sẽ không tin rằng tỷ lệ tử vong là một hàm tuyến tính của tuổi tác!xlog(x)

Vì bạn nói rằng bạn có "dữ liệu lớn", bạn có thể xem xét các spline, để cho dữ liệu nói về các phép biến đổi ... ví dụ, gói mgcv trong R. Nhưng ngay cả khi sử dụng công nghệ đó (hoặc tự động tìm kiếm các phép biến đổi khác), kiểm tra cuối cùng là để tự hỏi những gì làm cho ý nghĩa khoa học . Những người khác trong lĩnh vực của bạn làm gì với dữ liệu tương tự?


Cảm ơn đã ủng hộ những lo lắng của tôi: thực sự, tôi có mặc dù về những gì có ý nghĩa sinh học. Vấn đề là, tôi thực sự có hai bộ dữ liệu liên quan và tôi muốn rút ra kết luận từ cả hai cùng một lúc. Nhưng trong một tập hợp con, biến mật độ là tốt nhất trong các mô hình chưa được dịch trong khi trong chuyển đổi nhật ký khác là tốt nhất. Chuyển đổi nhật ký cải thiện mối quan hệ trong tập dữ liệu có các giá trị thấp hơn cho biến đó, do đó tôi sẽ rất khó để điều hòa hai bộ dữ liệu này, trừ khi tôi để biến không được dịch trong cả hai.
Zsuzsa

1
Các chuyên gia trong một lĩnh vực hiếm khi có khả năng biết apriori các biến đổi "đúng" cho các biến. Tôi hầu như không bao giờ thấy các mối quan hệ tuyến tính vì vậy khi kích thước mẫu đảm bảo, tôi thư giãn giả định này bằng cách sử dụng các hàm hồi quy. Tôi làm cho kết quả có thể giải thích bằng hình ảnh.
Frank Harrell

3

Vấn đề quan trọng là những con số nào được cho là đại diện trong thế giới thực và đâu là mối quan hệ được đưa ra giả thuyết giữa các biến đó và biến phụ thuộc. Bạn có thể cải thiện mô hình của mình bằng cách 'làm sạch' dữ liệu của bạn, nhưng nếu nó không phản ánh tốt hơn thế giới thực thì bạn đã không thành công. Có thể việc phân phối dữ liệu của bạn có nghĩa là phương pháp mô hình hóa của bạn không chính xác và bạn cần một cách tiếp cận khác hoàn toàn, có thể dữ liệu của bạn có vấn đề.

Tại sao bạn loại bỏ các biến nếu chúng có sửa> .3 nằm ngoài tôi. Có lẽ những điều đó thực sự có liên quan và cả hai đều quan trọng đối với biến phụ thuộc. Bạn có thể đối phó với điều này với một chỉ mục hoặc một hàm đại diện cho sự đóng góp chung của các biến tương quan. Có vẻ như bạn đang mù quáng đưa ra thông tin dựa trên một tiêu chí thống kê tùy ý. Tại sao không sử dụng đúng> .31 hoặc .33?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.