Tại sao không chuyển đổi log tất cả các biến không được quan tâm chính?


10

Sách và thảo luận thường nói rằng khi gặp vấn đề (trong đó có một vài) với một người dự đoán, log-Transformimg đó là một khả năng. Bây giờ, tôi hiểu rằng điều này phụ thuộc vào phân phối và tính quy tắc trong các yếu tố dự đoán không phải là giả định của hồi quy; nhưng chuyển đổi nhật ký sẽ làm cho dữ liệu thống nhất hơn, ít bị ảnh hưởng bởi các ngoại lệ, v.v.

Tôi nghĩ về việc chuyển đổi nhật ký tất cả các biến liên tục của tôi không phải là interesr chính, tức là các biến tôi chỉ điều chỉnh cho.

Là sai đó? Tốt chứ Vô ích?

Câu trả lời:


24

Bây giờ, tôi hiểu rằng điều này phụ thuộc vào phân phối và tính quy tắc trong các yếu tố dự đoán

chuyển đổi bản ghi làm cho dữ liệu thống nhất hơn

Như một tuyên bố chung, điều này là sai --- nhưng ngay cả khi đó là trường hợp, tại sao tính đồng nhất lại quan trọng?

Hãy xem xét, ví dụ,

i) một công cụ dự đoán nhị phân chỉ lấy các giá trị 1 và 2. Lấy nhật ký sẽ để nó như một công cụ dự đoán nhị phân chỉ lấy các giá trị 0 và nhật ký 2. Nó không thực sự ảnh hưởng đến bất cứ điều gì ngoại trừ việc chặn và chia tỷ lệ các thuật ngữ liên quan đến công cụ dự đoán này. Ngay cả giá trị p của bộ dự đoán cũng sẽ không thay đổi, cũng như các giá trị được trang bị.

nhập mô tả hình ảnh ở đây

ii) xem xét một công cụ dự đoán lệch trái. Bây giờ lấy nhật ký. Nó thường trở nên lệch trái hơn.

nhập mô tả hình ảnh ở đây

iii) dữ liệu thống nhất trở nên lệch trái

nhập mô tả hình ảnh ở đây

(mặc dù thường không phải lúc nào cũng cực kỳ thay đổi)

ít bị ảnh hưởng bởi các ngoại lệ

Như một tuyên bố chung, điều này là sai. Xem xét các ngoại lệ thấp trong một công cụ dự đoán.

nhập mô tả hình ảnh ở đây

Tôi nghĩ về việc chuyển đổi nhật ký tất cả các biến liên tục của tôi không phải là mối quan tâm chính

Để kết thúc? Nếu ban đầu các mối quan hệ là tuyến tính, chúng sẽ không còn.

nhập mô tả hình ảnh ở đây

Và nếu chúng đã bị cong, làm điều này tự động có thể làm cho chúng tệ hơn (cong hơn), không tốt hơn.

-

Ghi nhật ký của một người dự đoán (dù có quan tâm chính hay không) đôi khi có thể phù hợp, nhưng không phải lúc nào cũng như vậy.


2
Rất cám ơn cho câu trả lời tuyệt vời này. Tôi nghĩ rằng nhiều người trong chúng ta, ít nhất là tôi, cần phải thấy nó được hình dung theo cách này. Nhưng bạn cũng đồng ý rằng dữ liệu sai lệch phải là đối tượng chuyển đổi log? Nhiều hơn các xiên và hình thức khác?
Adam Robinsson

1
Không nói chung, không. Trong một số điều kiện rất cụ thể, có lẽ.
Glen_b -Reinstate Monica

Tôi cũng ngạc nhiên khi thấy rằng không ai đề cập đến tính dễ hiểu của mô hình. Nếu bạn đăng nhập biến đổi biến phụ thuộc của bạn, việc giải thích mô hình trở nên khó khăn hơn một chút - đặc biệt là đối với giáo dân hoặc những người không có nền tảng thống kê / toán học. Ví dụ: giả sử bạn có một mô hình dự đoán chiều cao của cây tính bằng ft với chu vi của thân cây tính bằng inch. Việc giải thích , để tăng chu vi một inch, chiều cao trung bình của cây được tăng lên bằng nhật ký của một nửa bước chân thì cồng kềnh hơn (tiếp theo)β^= =0,50
StatsStudent

(không) hơn là có thể nói, ví dụ, để tăng một inch về số chu vi chu vi thân cây, chiều cao trung bình của cây được tăng thêm một nửa feet. Càng về sau càng dễ diễn giải và dễ tính toán hơn trong trường mà không cần máy tính.
StatsStudent

10

Theo tôi, không có ý nghĩa gì khi thực hiện chuyển đổi nhật ký (và bất kỳ chuyển đổi dữ liệu nào , đối với vấn đề đó) chỉ vì lợi ích của nó. Như các câu trả lời trước đã đề cập, tùy thuộc vào dữ liệu, một số biến đổi sẽ không hợp lệ hoặc vô dụng . Tôi đặc biệt khuyên bạn nên đọc tài liệu giới thiệu tuyệt vời IMHO sau đây về chuyển đổi dữ liệu : http://fmwww.bc.edu/repec/bocode/t/transint.html . Xin lưu ý rằng các ví dụ mã trong tài liệu này được viết bằng ngôn ngữ Stata , nhưng nếu không thì tài liệu này đủ chung chung và do đó, cũng hữu ích cho người dùng không phải là Stata.

Một số kỹ thuật và công cụ đơn giản để xử lý các vấn đề phổ biến liên quan đến dữ liệu , chẳng hạn như thiếu tính quy tắc , ngoại lệphân phối hỗn hợp có thể được tìm thấy trong bài viết này (lưu ý, phân tầng như một cách tiếp cận để xử lý phân phối hỗn hợp rất có thể là cách đơn giản nhất - một cách tiếp cận tổng quát và phức tạp hơn cho vấn đề này là phân tích hỗn hợp , còn được gọi là mô hình hỗn hợp hữu hạn , một mô tả vượt quá phạm vi của câu trả lời này). Biến đổi Box-Cox, được đề cập ngắn gọn trong hai tài liệu tham khảo ở trên, là một chuyển đổi dữ liệu khá quan trọng, đặc biệt đối với dữ liệu không bình thường (với một số cảnh báo). Để biết thêm chi tiết về chuyển đổi Box-Cox, vui lòng xem bài viết giới thiệu này .


2
Tài liệu tham khảo tuyệt vời Aleksandr. Cảm ơn đã chia sẻ rằng chủ nghĩa nhận thức cũng cần thiết. Cảm ơn.
Adam Robinsson

1
@AdamRobinsson: Niềm vui của tôi, Adam! Vui mừng bạn thích câu trả lời của tôi.
Alexanderr Blekh

8

Chuyển đổi nhật ký không LUÔN LUÔN làm cho mọi thứ tốt hơn. Rõ ràng, bạn không thể chuyển đổi các biến số đạt được giá trị 0 hoặc âm và thậm chí các biến dương có giá trị 0 có thể xuất hiện với các ngoại lệ âm nếu chuyển đổi log.

Bạn không nên thường xuyên ghi nhật ký mọi thứ, nhưng đó là một cách thực hành tốt để NGHINK về việc chuyển đổi các dự đoán tích cực đã chọn (phù hợp, thường là nhật ký nhưng có thể là một cái gì đó khác) trước khi lắp mô hình. Điều tương tự cũng xảy ra với biến trả lời. Kiến thức môn học cũng quan trọng. Một số lý thuyết từ vật lý hoặc xã hội học hoặc bất cứ điều gì tự nhiên có thể dẫn đến những biến đổi nhất định. Nói chung, nếu bạn thấy các biến bị sai lệch tích cực, đó là nơi một bản ghi (hoặc có thể là một căn bậc hai hoặc một đối ứng) có thể giúp đỡ.

Một số văn bản hồi quy dường như gợi ý rằng bạn phải xem xét các sơ đồ chẩn đoán trước khi xem xét bất kỳ biến đổi nào, nhưng tôi không đồng ý. Tôi nghĩ sẽ tốt hơn nếu làm công việc tốt nhất bạn có thể đưa ra những lựa chọn này trước khi phù hợp với bất kỳ mô hình nào, để bạn có điểm khởi đầu tốt nhất có thể; sau đó nhìn vào chẩn đoán để xem bạn có cần điều chỉnh từ đó không.


Tất cả thêm rằng những cân nhắc này áp dụng cả cho các yếu tố dự đoán quan trọng và không quan trọng.
Russ Lenth

Cảm ơn @rvl! Tôi luôn bối rối bởi sự bất hòa giữa thời điểm và cách chọn biến đổi; sách thường nói rằng, như bạn đã viết, người ta cần kiểm tra hình thức của tất cả các biến trước khi chạm vào hồi quy. Cảm ơn đã cung cấp những hiểu biết của bạn.
Adam Robinsson

@rvl, cảm ơn bạn đã trả lời. Bạn có muốn chuyển đổi snoqtập dữ liệu trong luồng CrossValidated này không (ghi nhớ mục tiêu là phù hợp với hỗn hợp Gaussian)?
Zhubarb 4/2/2015

-3

1) dữ liệu đếm (y> 0) -> log (y) hoặc y = exp (b0 + biXi) 2) dữ liệu đếm + zero (y> = 0) -> mô hình rào cản (nhị thức + đếm reg.) 3) tất cả hiệu ứng đa biến (& lỗi) sẽ là phụ gia 4) phương sai ~ trung bình -> log (y) hoặc y = exp (b0 + biXi) 5) ...


Câu trả lời này rất khó đọc và không rõ liệu nó có cố gắng trả lời câu hỏi hay không.
Juho Kokkala

1
TEX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.