Mô hình tuyến tính với phản ứng chuyển đổi log so với mô hình tuyến tính tổng quát với liên kết log


46

Trong bài báo này có tiêu đề "LỰA CHỌN MÔ HÌNH LINEAR TỔNG HỢP AMONG ÁP DỤNG CHO DỮ LIỆU Y TẾ", các tác giả viết:

Trong một mô hình tuyến tính tổng quát, giá trị trung bình được biến đổi, bằng hàm liên kết, thay vì tự chuyển đổi đáp ứng. Hai phương pháp chuyển đổi có thể dẫn đến kết quả khá khác nhau; ví dụ: giá trị trung bình của các phản hồi chuyển đổi log không giống như logarit của phản hồi trung bình . Nói chung, trước đây không thể dễ dàng được chuyển đổi thành một phản ứng trung bình. Do đó, việc chuyển đổi giá trị trung bình thường cho phép các kết quả được diễn giải dễ dàng hơn, đặc biệt là các tham số trung bình đó vẫn ở cùng thang đo với các phản ứng đo được.

Dường như họ khuyên nên lắp mô hình tuyến tính tổng quát (GLM) với liên kết nhật ký thay vì mô hình tuyến tính (LM) với phản ứng chuyển đổi log. Tôi không nắm bắt được những ưu điểm của phương pháp này và nó có vẻ khá bất thường đối với tôi.

Biến phản ứng của tôi trông log được phân phối bình thường. Tôi nhận được kết quả tương tự về các hệ số và sai số chuẩn của chúng với cả hai cách tiếp cận.

Tôi vẫn băn khoăn: Nếu một biến có phân phối log-log bình thường, thì không phải là giá trị trung bình của biến được chuyển đổi log thích hợp hơn log của biến trung bình chưa được chuyển đổi , vì trung bình là tóm tắt tự nhiên của phân phối bình thường và nhật ký Biến -transformed thường được phân phối, trong khi đó biến không phải là?


3
Tôi đồng ý với đầu mối của bạn nếu chúng ta có một biến phân phối log-normal. Tuy nhiên, giá trị trung bình cần được "chuyển đổi ngược" để có được một thống kê dễ hiểu dựa trên quy mô dữ liệu ban đầu. Điều này có thể giải thích kết luận của bài viết. Ngoài ra, sau khi chuyển đổi log, chúng ta có thể không nhận được một biến phân phối thông thường và trong trường hợp này, tôi không biết cách tiếp cận nào sẽ tốt hơn.
soufanom

Câu trả lời:


46

Mặc dù có vẻ như giá trị trung bình của các biến được chuyển đổi log là thích hợp hơn (vì đây là cách log-normal thường được tham số hóa), theo quan điểm thực tế, nhật ký của giá trị trung bình thường hữu ích hơn nhiều.

Điều này đặc biệt đúng khi mô hình của bạn không chính xác và trích dẫn George Box: "Tất cả các mô hình đều sai, một số là hữu ích"

Giả sử một số lượng được ghi nhật ký phân phối bình thường, huyết áp nói (tôi không phải là một bác sĩ!), Và chúng tôi có hai dân số, nam và nữ. Người ta có thể đưa ra giả thuyết rằng huyết áp trung bình ở phụ nữ cao hơn nam giới. Điều này chính xác tương ứng với việc hỏi liệu nhật ký huyết áp trung bình có cao hơn ở phụ nữ so với nam giới hay không. Nó không giống như hỏi liệu trung bình của huyết áp log cao hơn ở phụ nữ mà người đàn ông đó .

Đừng nhầm lẫn bởi tham số hóa sách giáo khoa của một bản phân phối - nó không có bất kỳ ý nghĩa "thực sự" nào. Phân phối log-normal được tham số hóa bằng giá trị trung bình của nhật ký ( ) vì sự thuận tiện về mặt toán học, nhưng chúng ta có thể chọn tham số hóa nó theo trung bình và phương sai thực tế của nóμln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Rõ ràng, làm như vậy làm cho đại số phức tạp khủng khiếp, nhưng nó vẫn hoạt động và có nghĩa là điều tương tự.

Nhìn vào công thức trên, chúng ta có thể thấy một sự khác biệt quan trọng giữa việc chuyển đổi các biến và biến đổi giá trị trung bình. Nhật ký của giá trị trung bình, , tăng khi tăng, trong khi giá trị trung bình của nhật ký, thì không.σ 2 lnln(μ)σln2μln

Điều này có nghĩa là trung bình phụ nữ có thể có huyết áp cao hơn nam giới, mặc dù thông số trung bình của phân phối bình thường nhật ký ( ) là như nhau, đơn giản là vì tham số phương sai lớn hơn. Thực tế này sẽ bị bỏ lỡ bởi một bài kiểm tra sử dụng nhật ký (Huyết áp).μln

Cho đến nay, chúng tôi đã giả định rằng huyết áp thực sự là bình thường. Nếu các bản phân phối thực sự không hoàn toàn đăng nhập bình thường, thì việc chuyển đổi dữ liệu sẽ (thường) khiến mọi thứ trở nên tồi tệ hơn ở trên - vì chúng ta sẽ không biết ý nghĩa thực sự của chúng ta là gì. Tức là chúng ta sẽ không biết hai phương trình trung bình và phương sai mà tôi đưa ra ở trên là chính xác. Sử dụng chúng để chuyển đổi qua lại sau đó sẽ đưa ra các lỗi bổ sung.


Tôi thấy điều này rất hữu ích: christoph-scherber.de/content/PDF%20Files/iêu
Aditya

2
Corone, tôi nhấn mạnh hai câu quan trọng trong câu trả lời của bạn. Tôi hy vọng bạn không phiền. Vui lòng quay lại nếu bạn không đồng ý.
Stefan

17

Đây là hai xu của tôi từ một khóa học phân tích dữ liệu nâng cao mà tôi đã học khi nghiên cứu về thống kê sinh học (mặc dù tôi không có bất kỳ tài liệu tham khảo nào ngoài ghi chú của giáo sư của tôi):

Nó tập trung vào việc bạn có cần giải quyết tuyến tính và tính không đồng nhất (phương sai không bằng nhau) trong dữ liệu của bạn hay chỉ là tuyến tính.

Bà lưu ý rằng việc chuyển đổi dữ liệu ảnh hưởng đến cả giả định tuyến tính và phương sai của mô hình. Ví dụ: nếu phần dư của bạn có vấn đề với cả hai, bạn có thể xem xét chuyển đổi dữ liệu, có khả năng có thể khắc phục cả hai. Sự biến đổi biến đổi các lỗi và do đó phương sai của chúng.

Ngược lại, sử dụng hàm liên kết chỉ ảnh hưởng đến giả định tuyến tính, không ảnh hưởng đến phương sai. Nhật ký được lấy giá trị trung bình (giá trị mong đợi) và do đó phương sai của phần dư không bị ảnh hưởng.

Tóm lại, nếu bạn không gặp vấn đề với phương sai không liên tục, cô ấy đề nghị sử dụng hàm liên kết thay đổi, vì bạn không muốn thay đổi phương sai của mình trong trường hợp đó (bạn đã đáp ứng giả định).


6
Mặc dù chức năng liên kết chỉ tác động đến giá trị trung bình, chức năng liên kết chỉ là một phần của GLM. Nhận xét của bạn hoạt động cho một glm Gaussian với liên kết nhật ký. Một gamma GLM với liên kết nhật ký sẽ có cùng giả định chức năng phương sai (phương sai tỷ lệ với bình phương trung bình) như lấy nhật ký và điều chỉnh phương sai không đổi trên thang đo nhật ký đó. Các gia đình khác trong khung GLM sẽ có các hàm phương sai khác. Thật không may, bảng trên trang wikipedia cho GLM bỏ qua các hàm phương sai cho các họ phân phối mà nó cung cấp.
Glen_b

2
Họ có đề cập đến một số ví dụ ở đây mặc dù. Đây là gamma
Glen_b

-1

Nếu đáp ứng thực sự không đối xứng (không được phân phối như bình thường) nhưng phản hồi chuyển đổi log là bình thường thì hồi quy tuyến tính trên phản ứng biến đổi được sử dụng và hệ số mũ cho chúng ta tỷ lệ trung bình hình học.

Nếu phản hồi xác thực là đối xứng (phân phối như bình thường) nhưng mối quan hệ giữa giải thích (X) và phản hồi không phải là tuyến tính nhưng giá trị log mong đợi là hàm tuyến tính của X thì GLM với liên kết log được sử dụng và hệ số mũ cho chúng ta tỷ lệ trung bình số học


Câu trả lời này không rõ ràng. Ý của bạn là "biến" chứ không phải "thật"?
Michael Chernick

Đây là một mảnh của một câu trả lời. Bạn cần phải làm rõ điều này liên quan đến câu hỏi như thế nào và câu trả lời cho câu hỏi thực sự dựa trên phần hiểu biết này.
ReneBt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.