Làm thế nào để giải thích các hệ số biến đổi logarit trong hồi quy tuyến tính?


10

Tình hình của tôi là:

Tôi có 1 biến phụ thuộc liên tục và 1 biến dự đoán liên tục mà tôi đã biến đổi logarit để bình thường hóa phần dư của chúng để hồi quy tuyến tính đơn giản.

Tôi sẽ đánh giá cao bất kỳ trợ giúp nào về cách tôi có thể liên kết các biến được chuyển đổi này với bối cảnh ban đầu của chúng.

Tôi muốn sử dụng hồi quy tuyến tính để dự đoán số ngày học sinh nghỉ học năm 2011 dựa trên số ngày chúng bỏ lỡ trong năm 2010. Hầu hết các học sinh bỏ lỡ 0 ngày hoặc chỉ vài ngày dữ liệu bị lệch sang bên trái. Do đó, cần phải chuyển đổi để sử dụng hồi quy tuyến tính.

Tôi đã sử dụng log10 (var + 1) cho cả hai biến (Tôi đã sử dụng +1 cho các học sinh đã nghỉ học 0 ngày). Tôi đang sử dụng hồi quy vì tôi muốn thêm các yếu tố phân loại - giới tính / dân tộc, v.v.

Vấn đề của tôi là:

Đối tượng tôi muốn phản hồi lại sẽ không hiểu log10 (y) = log (hằng số) + log (var2) x (và thẳng thắn là tôi cũng không).

Câu hỏi của tôi là:

a) Có cách nào tốt hơn để diễn giải các biến được chuyển đổi trong hồi quy không? Tức là cứ 1 ngày bị bỏ lỡ trong năm 2010 họ sẽ bỏ lỡ 2 ngày trong năm 2011 trái ngược với việc thay đổi đơn vị 1 log trong năm 2010 sẽ có x đơn vị log thay đổi trong năm 2011?

b) Cụ thể, đưa ra đoạn trích dẫn từ nguồn này như sau:

"Đây là ước tính hồi quy nhị thức âm cho tăng một đơn vị điểm kiểm tra chuẩn hóa toán học, với các biến khác được giữ không đổi trong mô hình. Nếu một học sinh tăng điểm kiểm tra toán học của mình thêm một điểm, thì sự khác biệt trong nhật ký của số lượng dự kiến ​​sẽ giảm 0,0016 đơn vị, trong khi giữ các biến khác trong mô hình không đổi. "

Tôi muốn biết:

  • Có phải đoạn văn này nói rằng cứ một đơn vị tăng điểm của UNTRANSFORMEDtoán học biến sẽ dẫn đến giảm 0,0016 từ hằng số (a), vì vậy nếu UNTRANSFORMEDđiểm toán tăng lên hai điểm, tôi trừ 0,0016 * 2 từ hằng số a?
  • Điều đó có nghĩa là tôi có ý nghĩa hình học bằng cách sử dụng hàm mũ (a)) và hàm mũ (a + beta * 2) và, tôi cần tính toán chênh lệch tỷ lệ phần trăm giữa hai yếu tố này để nói tác động của biến dự đoán có / có biến phụ thuộc không?
  • Hay tôi đã hoàn toàn sai?

Tôi đang sử dụng SPSS v20. Xin lỗi vì đóng khung này trong một câu hỏi dài.



8
Bạn đã nghĩ đến việc sử dụng hồi quy Poisson thay thế? Nó được biểu thị một cách tự nhiên với dữ liệu đếm phụ thuộc và thành công của bạn với chuyển đổi nhật ký phù hợp với phân phối Poisson. Các hệ số sẽ được hiểu theo nghĩa tăng tỷ lệ trong xác suất dự kiến ​​bỏ lỡ một ngày học. Một lợi thế là không cần xử lý đặc biệt các số không (mặc dù vẫn nên xem xét một mô hình thay thế có độ phồng bằng 0).
whuber

Xin chào Whuber, Có, tôi đã suy nghĩ về hồi quy Poisson nhưng không chắc chắn về điều này hoặc chọn cách hồi quy nhị thức âm. Tôi đoán nhị thức âm khi dữ liệu bị phân tán quá mức - tức là giá trị trung bình thấp hơn phương sai trong tập dữ liệu (do đó độ lệch dương). Ngoài ra, nghiêm ngặt, có giới hạn trên về số lượng buổi học trong năm, trong khi Poisson giả định một mẫu số không giới hạn? Hay bạn vẫn nghĩ Poisson phù hợp hơn? Thật không may, SPSS không hỗ trợ các mô hình thổi phồng bằng 0 như tôi đã thấy ...) Cảm ơn Whuber :)
JimBob

3
Tôi không thấy có vấn đề với sự hỗ trợ không giới hạn của các bản phân phối Poisson: nó tương tự như sử dụng các bản phân phối Bình thường cho mô hình, giả sử, các giá trị phải là không âm. Với điều kiện cơ hội liên quan đến các giá trị không thể là rất nhỏ, tuy nhiên nó có thể là một mô hình tốt. Nhị thức âm là sự thay thế tiêu chuẩn cho Poisson được sử dụng để kiểm tra mức độ phù hợp và quá mức; đó là một ý tưởng tốt. Nếu SPSS quá hạn chế, hãy sử dụng thứ khác! ( Rcó các gói cho các mô hình không lạm phát; tìm kiếm trang web này .)
whuber

2
Tôi đồng ý với @whuber Tôi nghĩ rằng bạn có thể muốn một mô hình ZIP hoặc ZINB. Tôi chỉ cần nói thêm rằng chúng cũng có sẵn trong SAS thông qua PROC COUNTREG (trong ETS) và, bắt đầu với SAS 9.2, trong PROC GENMOD (trong STAT)
Peter Flom - Tái lập Monica

2
Có thông tin rất tốt tại stats.stackexchange.com/questions/18480/ .
rolando2

Câu trả lời:


7

Tôi nghĩ rằng điểm quan trọng hơn được đề xuất trong bình luận của @ whuber. Toàn bộ cách tiếp cận của bạn không được thực hiện bởi vì bằng cách sử dụng logarit, bạn thực sự sẽ loại bỏ tập dữ liệu bất kỳ học sinh nào có ngày mất tích trong năm 2010 hoặc 2011. Có vẻ như có đủ những người này là một vấn đề và tôi chắc chắn kết quả của bạn sẽ sai dựa trên cách tiếp cận bạn đang thực hiện.

Thay vào đó, bạn cần phải phù hợp với một mô hình tuyến tính tổng quát với một phản ứng poisson. SPSS không thể làm điều này trừ khi bạn đã trả tiền cho mô-đun thích hợp, vì vậy tôi khuyên bạn nên nâng cấp lên R.

Bạn vẫn sẽ có vấn đề về diễn giải các hệ số, nhưng điều này là thứ yếu đối với tầm quan trọng của việc có một mô hình về cơ bản là phù hợp.


Tại sao không sử dụng phép chuyển đổi ? Điều này sẽ giải quyết vấn đề bạn đưa lên. Tuy nhiên, biến đổi nghịch đảo sẽ liên quan nhiều hơn một chút và việc giải thích sẽ khó khăn hơn. Có một bài viết về nó ở đây: stats.stackexchange.com/questions/18694/ trênxlog(x+1)
toypajme

3

Tôi đồng ý với những người trả lời khác, đặc biệt là đối với hình thức của mô hình. Tuy nhiên, nếu tôi hiểu động cơ của câu hỏi của bạn, bạn đang giải quyết các đối tượng chung và muốn truyền đạt nội dung chính(lý thuyết) ý nghĩa của phân tích của bạn. Với mục đích này, tôi so sánh các giá trị dự đoán (ví dụ: ngày ước tính bị bỏ lỡ) trong các "kịch bản" khác nhau. Dựa trên mô hình bạn chọn, bạn có thể so sánh số lượng hoặc giá trị dự kiến ​​của biến phụ thuộc khi các yếu tố dự đoán ở một số giá trị cố định cụ thể (ví dụ: trung bình hoặc 0) và sau đó cho biết mức độ thay đổi "có ý nghĩa" của các yếu tố dự đoán ảnh hưởng đến dự đoán. Tất nhiên, bạn phải chuyển đổi dữ liệu trở lại quy mô ban đầu, dễ hiểu mà bạn bắt đầu. Tôi nói "thay đổi có ý nghĩa" bởi vì thông thường "thay đổi một đơn vị trong X" tiêu chuẩn không chuyển tải được nhập thực sự hoặc thiếu biến số độc lập. Với "dữ liệu tham dự", tôi không chắc sự thay đổi đó sẽ như thế nào. (Nếu một học sinh bỏ lỡ không có ngày nào trong năm 2010 và một ngày trong năm 2011, Tôi không chắc chúng ta sẽ học được gì. Nhưng tôi không biết.)


2

Nếu chúng ta có mô hình , thì chúng ta có thể mong đợi rằng việc tăng 1 đơn vị sẽ mang lại sự gia tăng đơn vị ab trong Y. Thay vào đó, nếu chúng ta có , thì chúng ta mong đợi mức tăng 1% trong để mang lại đơn vị tăng trong Y.Y=bXXY=blog(X)Xblog(1.01)

Chỉnh sửa: Rất tiếc, không nhận ra rằng biến phụ thuộc của bạn cũng được chuyển đổi nhật ký. Đây là một liên kết với một ví dụ hay mô tả cả ba tình huống:

1) chỉ có Y được biến đổi 2) chỉ có các yếu tố dự đoán được biến đổi 3) cả Y và các yếu tố dự đoán đều được chuyển đổi

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htmlm


1
Xin chào JC, Cảm ơn bạn đã trả lời. Tôi đã thực hiện phương pháp biến đổi cả hai biến phụ thuộc và biến độc lập để thống nhất, nhưng tôi đã đọc rằng đó chỉ là DV thực sự cần chuyển đổi cho tính quy tắc so với IV của nó.
JimBob

Tôi thực sự đã thấy liên kết mà bạn đề xuất (cảm ơn tho) nhưng không rõ ràng về một số điểm, đặc biệt là so sánh ý nghĩa hình học với 'đời thực', nhưng tôi đoán sử dụng ý nghĩa hình học có liên quan nhiều hơn đến mô hình hóa ảnh hưởng của thay đổi trong x đến y chứ không phải là kết quả của y trên mỗi đơn vị thay đổi trong x? Tôi nghĩ rằng tôi cần quay lại và đọc nó lần thứ hai ...
JimBob

2

Tôi thường sử dụng biến đổi log, nhưng tôi có xu hướng sử dụng các biến số nhị phân vì nó dẫn đến một cách hiểu tự nhiên về mặt số nhân. Giả sử bạn muốn dự đoán cho, giả sử 3 hiệp hai nhị phân , và lấy các giá trị trong . Bây giờ, thay vì trình bày:X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

bạn chỉ có thể hiển thị:

YC M1X1 M2X2 M3X3 ,

trong đó: , và là bội số. Điều đó có nghĩa là, mỗi lần đồng biến bằng 1, dự đoán được nhân với . Ví dụ: nếu , và , dự đoán của bạn là:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

Tôi đang sử dụng vì đây không chính xác là dự đoán về giá trị trung bình của : tham số trung bình của phân phối log-normal không nói chung là trung bình của biến ngẫu nhiên (vì đó là trường hợp của hồi quy tuyến tính cổ điển mà không có hồi quy tuyến tính cổ điển mà không có chuyển đổi log). Tôi không có tài liệu tham khảo chính xác ở đây, nhưng tôi nghĩ đây là lý do đơn giản.Y


3
Bạn không cần phải lo lắng về các vấn đề logic bất thường: số nhân là chính xác bất kể. (Sẽ có một vấn đề với các mô hình heteroscedastic.) Điều này là do nơi là phương sai của . BTW, vui lòng quét các định nghĩa của bạn về để tìm lỗi chính tả. E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.