Lý do chuyển đổi nhật ký được sử dụng với phân phối lệch phải là gì?


18

Tôi đã từng nghe rằng

chuyển đổi log là cách phổ biến nhất cho các phân phối lệch phải trong hồi quy tuyến tính hoặc hồi quy lượng tử

Tôi muốn biết có bất kỳ lý do nào bên dưới tuyên bố này? Tại sao chuyển đổi nhật ký phù hợp cho phân phối lệch phải?

Làm thế nào về một phân phối lệch trái?

Câu trả lời:


26

Các nhà kinh tế (như tôi) thích chuyển đổi log. Chúng tôi đặc biệt yêu thích nó trong các mô hình hồi quy, như thế này:

lnYTôi= =β1+β2lnXTôi+εTôi

Tại sao chúng ta yêu nó rất nhiều? Dưới đây là danh sách các lý do tôi đưa ra cho sinh viên khi tôi giảng về nó:

  1. Nó tôn trọng dương của . Nhiều lần trong các ứng dụng trong thế giới thực trong kinh tế và các nơi khác, về bản chất, là một con số tích cực. Nó có thể là giá, thuế suất, số lượng sản xuất, chi phí sản xuất, chi tiêu cho một số loại hàng hóa, v.v ... Các giá trị dự đoán từ hồi quy tuyến tính chưa được xử lý có thể là âm. Các giá trị dự đoán từ hồi quy chuyển đổi log không bao giờ có thể âm. Chúng là (Xem câu trả lời trước đó của tôi để lấy đạo hàm).Y Y j = exp ( β 1 + β 2 ln X j )1YYY^j= =điểm kinh nghiệm(β1+β2lnXj)1NΣđiểm kinh nghiệm(eTôi)
  2. Các hình thức chức năng log-log là linh hoạt đáng ngạc nhiên. Lưu ý: Điều này cho chúng ta: Đó là rất nhiều hình dạng khác nhau. Một đường (có độ dốc sẽ được xác định bởi , do đó, có thể có bất kỳ độ dốc dương nào), hyperbola, parabola và hình dạng "giống như căn bậc hai". Tôi đã vẽ nó với và , nhưng trong một ứng dụng thực tế, cả hai điều này đều không đúng, sao cho độ dốc và chiều cao của các đường cong tại exp ( β 1 ) β1=0ε=0X=1
    lnYTôi= =β1+β2lnXTôi+εTôiYTôi= =điểm kinh nghiệm(β1+β2lnXTôi)điểm kinh nghiệm(εTôi)YTôi= =(XTôi)β2điểm kinh nghiệm(β1)điểm kinh nghiệm(εTôi)
    Yêu các hình thức chức năng log-logđiểm kinh nghiệm(β1)β1= =0ε= =0X= =1 sẽ được kiểm soát bởi những người thay vì đặt ở 1.
  3. Như TrynnaDoStat đề cập, biểu mẫu nhật ký "rút ra" các giá trị lớn thường làm cho dữ liệu dễ nhìn hơn và đôi khi bình thường hóa phương sai trong các quan sát.
  4. Hệ số được hiểu là độ co giãn. Đó là sự gia tăng tỷ lệ phần trăm trong từ một sự gia tăng một phần trăm trong . Y Xβ2YX
  5. Nếu là một biến giả, bạn bao gồm nó mà không đăng nhập nó. Trong trường hợp này, là phần trăm chênh lệch về giữa danh mục và danh mục .β 2 Y X = 1 X = 0Xβ2YX= =1X= =0
  6. Nếu là thời gian, một lần nữa bạn bao gồm nó mà không đăng nhập nó, thường. Trong trường hợp này, là tốc độ tăng trưởng tính theo --- được đo bằng bất kỳ đơn vị thời gian được đo. Nếu là năm, thì hệ số là tốc độ tăng trưởng hàng năm tính bằng , chẳng hạn.Xβ2YXXY
  7. Hệ số độ dốc, , trở thành bất biến tỷ lệ. Điều này có nghĩa là, một mặt, nó không có đơn vị, và mặt khác, nếu bạn thay đổi tỷ lệ (tức là thay đổi đơn vị của) hoặc , nó sẽ hoàn toàn không ảnh hưởng đến giá trị ước tính của . Vâng, ít nhất là với OLS và các công cụ ước tính liên quan khác.β2XYβ2
  8. Nếu dữ liệu của bạn được phân phối theo thông thường, thì việc chuyển đổi nhật ký sẽ khiến chúng được phân phối bình thường. Thông thường dữ liệu phân phối có rất nhiều đi cho họ.

Các nhà thống kê thường thấy các nhà kinh tế quá nhiệt tình về sự chuyển đổi đặc biệt này của dữ liệu. Điều này, tôi nghĩ, là bởi vì họ đánh giá điểm 8 của tôi và nửa sau của điểm 3 là rất quan trọng. Do đó, trong trường hợp dữ liệu không được phân phối thông thường hoặc khi ghi dữ liệu không dẫn đến dữ liệu được chuyển đổi có phương sai bằng nhau qua các quan sát, một nhà thống kê sẽ có xu hướng không thích chuyển đổi nhiều. Nhà kinh tế có khả năng sẽ lao lên phía trước vì dù sao những gì chúng ta thực sự thích về sự chuyển đổi là các điểm 1,2 và 4-7.


7
Đây là những điểm tiêu chuẩn nhưng thật tuyệt khi kết hợp chúng một cách chính xác. Nhiều tài khoản chỉ bao gồm một số trong những điểm này. Điểm nhỏ: Tôi nghĩ rằng sự tương phản của bạn giữa thái độ của các nhà kinh tế và thái độ của các nhà thống kê là hơi quá. Ví dụ, tầm quan trọng của liên kết trên họ lỗi chạy qua tài liệu mô hình tuyến tính tổng quát, mặc dù nó có thể làm được nhiều hơn. Keene, Oliver N. 1995. Việc chuyển đổi nhật ký là đặc biệt. Thống kê trong Y học 14: 811-819. DOI: 10.1002 / sim.4780140810 là một ví dụ khác.
Nick Cox

21

Trước tiên, hãy xem những gì thường xảy ra khi chúng ta ghi nhật ký của một cái gì đó đúng.

Hàng trên cùng chứa biểu đồ cho các mẫu từ ba phân phối khác nhau, ngày càng sai lệch.

Hàng dưới cùng chứa biểu đồ cho nhật ký của họ.

nhập mô tả hình ảnh ở đây

yxz

Nếu chúng ta muốn các bản phân phối của mình trông bình thường hơn, việc chuyển đổi chắc chắn đã cải thiện trường hợp thứ hai và thứ ba. Chúng ta có thể thấy rằng điều này có thể giúp đỡ.


Vậy tại sao nó hoạt động?

Lưu ý rằng khi chúng ta nhìn vào hình ảnh của hình dạng phân phối, chúng ta sẽ không xem xét giá trị trung bình hoặc độ lệch chuẩn - chỉ ảnh hưởng đến các nhãn trên trục.

Vì vậy, chúng ta có thể tưởng tượng việc xem xét một số loại biến "được tiêu chuẩn hóa" (trong khi vẫn tích cực, tất cả đều có vị trí và mức độ lan truyền tương tự, nói)

Lấy các bản ghi "kéo theo" các giá trị cực đoan hơn ở bên phải (giá trị cao) so với trung vị, trong khi các giá trị ở phía bên trái (giá trị thấp) có xu hướng bị kéo dài ra xa, cách xa trung vị.

nhập mô tả hình ảnh ở đây

xyz

y

Nhưng khi chúng ta ghi nhật ký, nó bị kéo về phía trung tuyến; sau khi ghi nhật ký, chỉ còn khoảng 2 dải xen kẽ trên trung vị.

y

nhập mô tả hình ảnh ở đây

Không phải ngẫu nhiên mà tỷ lệ 750/150 và 150/30 đều là 5 khi cả log (750) và log (30) kết thúc với khoảng cách tương đương với khoảng cách trung bình của log (y). Đó là cách các bản ghi hoạt động - chuyển đổi tỷ lệ không đổi thành sự khác biệt không đổi.

Không phải lúc nào bản ghi cũng sẽ giúp ích đáng kể. Ví dụ: nếu bạn nói một biến ngẫu nhiên bất thường và dịch chuyển nó sang bên phải (nghĩa là thêm một hằng số lớn vào nó) để giá trị trung bình trở nên lớn so với độ lệch chuẩn, thì việc lấy nhật ký của nó sẽ tạo ra rất ít sự khác biệt hình dạng. Nó sẽ ít sai lệch - nhưng hầu như không.


Nhưng các phép biến đổi khác - căn bậc hai, nói - cũng sẽ kéo các giá trị lớn như thế. Tại sao các bản ghi nói riêng, phổ biến hơn?

-0,162

Rất nhiều dữ liệu kinh tế và tài chính hành xử như thế này, ví dụ (ảnh hưởng không đổi hoặc gần như không đổi trên thang tỷ lệ phần trăm). Thang đo log có rất nhiều ý nghĩa trong trường hợp đó. Hơn nữa, là kết quả của hiệu ứng tỷ lệ phần trăm đó. sự lây lan của các giá trị có xu hướng lớn hơn khi giá trị trung bình tăng - và lấy nhật ký cũng có xu hướng ổn định mức chênh lệch. Đó là thường hơn quan trọng hơn bình thường. Thật vậy, cả ba phân phối trong sơ đồ ban đầu đều đến từ các gia đình có độ lệch chuẩn sẽ tăng theo giá trị trung bình và trong mỗi trường hợp lấy nhật ký sẽ ổn định phương sai. [Tuy nhiên, điều này không xảy ra với tất cả các dữ liệu sai lệch. Nó chỉ rất phổ biến trong các loại dữ liệu mọc lên trong các lĩnh vực ứng dụng cụ thể.]

Cũng có những lúc căn bậc hai sẽ làm cho mọi thứ đối xứng hơn, nhưng nó có xu hướng xảy ra với các phân phối ít sai lệch hơn tôi sử dụng trong các ví dụ của tôi ở đây.

Chúng ta có thể (khá dễ dàng) xây dựng một bộ khác gồm ba ví dụ nghiêng phải nhẹ hơn, trong đó căn bậc hai làm một bên trái lệch, một đối xứng và thứ ba vẫn nghiêng phải (nhưng ít sai lệch hơn trước một chút).


Điều gì về phân phối lệch trái?

Nếu bạn đã áp dụng chuyển đổi nhật ký cho phân phối đối xứng, nó sẽ có xu hướng làm cho nó lệch sang trái với cùng lý do nó thường làm cho một bên phải lệch thêm một đối xứng - xem thảo luận liên quan ở đây .

Tương ứng, nếu bạn áp dụng chuyển đổi log cho một cái gì đó đã bị lệch, nó sẽ có xu hướng làm cho nó lệch nhiều hơn , kéo những thứ phía trên trung tuyến chặt chẽ hơn nữa, và kéo dài những thứ bên dưới dải phân cách xuống thậm chí còn khó hơn.

Vì vậy, chuyển đổi đăng nhập sẽ không hữu ích sau đó.

Xem thêm chuyển đổi năng lượng / thang Tukey. Phân phối bị lệch trái có thể được thực hiện đối xứng hơn bằng cách lấy một sức mạnh (lớn hơn 1 - nói bình phương), hoặc bằng cách lũy thừa. Nếu nó có giới hạn trên rõ ràng, người ta có thể trừ các quan sát khỏi giới hạn trên (đưa ra kết quả sai lệch) và sau đó cố gắng chuyển đổi điều đó.


Cảm ơn bạn Glen_b cho câu trả lời tuyệt vời này. Bạn cung cấp cho chúng tôi dữ liệu thực nghiệm để minh họa và sau đó đưa ra lời giải thích trực quan về lý do / cách thức chuyển đổi này hoạt động. Nhiều đánh giá cao.
Ram

5

y= =tôin(x)x

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

Bây giờ, trong một phân phối lệch phải, bạn có một vài giá trị rất lớn. Chuyển đổi nhật ký về cơ bản chuyển các giá trị này vào trung tâm của phân phối làm cho nó trông giống như một phân phối chuẩn.


1

Tất cả những câu trả lời này là các bước bán hàng cho việc chuyển đổi nhật ký tự nhiên. Có những cảnh báo để sử dụng nó, hãy cẩn thận với bất kỳ và tất cả các biến đổi. Theo nguyên tắc chung, tất cả các phép biến đổi toán học định hình lại PDF của các biến thô cơ bản cho dù hành động để nén, mở rộng, đảo ngược, bán lại, bất cứ điều gì. Thách thức lớn nhất mà điều này đưa ra từ quan điểm hoàn toàn thực tế là, khi được sử dụng trong các mô hình hồi quy trong đó các dự đoán là đầu ra mô hình chính, các biến đổi của biến phụ thuộc, mũ Y, có thể có xu hướng truyền lại đáng kể tiềm năng. Lưu ý rằng các phép biến đổi nhật ký tự nhiên không tránh khỏi sai lệch này, chúng không bị tác động bởi nó như một số phép biến đổi diễn xuất tương tự khác. Có những bài báo đưa ra giải pháp cho sự thiên vị này nhưng chúng thực sự không hoạt động tốt. Theo tôi, bạn đang ở trên mặt đất an toàn hơn nhiều khi không gặp rắc rối với việc cố gắng chuyển đổi Y và tìm các dạng chức năng mạnh mẽ cho phép bạn giữ lại số liệu ban đầu. Chẳng hạn, bên cạnh nhật ký tự nhiên, còn có các phép biến đổi khác nén phần đuôi của các biến bị lệch và kurtotic như sin hyperbol nghịch đảo hoặc W của Lambert. Cả hai biến đổi hoạt động rất tốt trong việc tạo PDF đối xứng và, do đó, Gaussian-like lỗi, từ thông tin nặng đuôi, nhưng xem ra cho thiên vị khi bạn cố gắng để mang lại những dự đoán trở lại vào quy mô ban đầu cho DV, Y . Nó có thể xấu.


3
W

3
Tất cả chúng ta đều an toàn ở các khía cạnh khác nhau của các quy tắc, nhưng nhiều người trong chúng ta tiếp tục tương tác ở đây vì chúng ta đã thấy sự khôn ngoan của chúng và đã tìm ra những cách xây dựng để khắc phục những hạn chế rõ ràng. Quy tắc này là cơ bản: một bài đăng không trả lời câu hỏi không thuộc về. Nó có xu hướng giữ cho mỗi chủ đề mạch lạc, hạn chế, sạch sẽ và về chủ đề. Đó là chìa khóa để tạo tài liệu có xu hướng hữu ích và thú vị hơn bạn sẽ tìm thấy trên bất kỳ trang web Hỏi & Đáp nào khác.
whuber

3
Bạn đã mày mò điều này nhưng theo quan điểm của tôi thì nó vẫn rất có vấn đề như một câu trả lời. 1. Bạn đang mở rộng câu hỏi theo nhiều cách, ví dụ như bằng cách đưa vào các bản phân phối có đuôi nặng. Đó có thể là một điều hợp lý để làm trong một số chủ đề, nhưng đây là một chủ đề tập trung tốt với các câu trả lời chất lượng cao và câu trả lời thêm ở đây là bằng cách làm vũng nước lớn. Khi có câu trả lời tốt cho câu hỏi, phải có một lý do thực sự tốt cho câu trả lời mới.
Nick Cox

4
2. Các khẳng định về khuynh hướng biến đổi vẫn vẫy tay; không có độ chính xác kỹ thuật cho câu trả lời phù hợp với tuyên bố, bao gồm khẳng định bí ẩn rằng nhật ký ít có vấn đề hơn các biến đổi tương tự khác.
Nick Cox

4
W

0

Nhiều điểm thú vị đã được thực hiện. Một chút nữa?

1) Tôi muốn đề xuất rằng một vấn đề khác với hồi quy tuyến tính là 'bên trái' của phương trình hồi quy là E (y): giá trị mong đợi. Nếu phân phối lỗi không đối xứng, thì công đức cho nghiên cứu về giá trị mong đợi là yếu. Giá trị mong đợi không phải là mối quan tâm trung tâm khi các lỗi không đối xứng. Thay vào đó, người ta có thể khám phá hồi quy lượng tử. Sau đó, nghiên cứu về trung vị hoặc các điểm phần trăm khác có thể xứng đáng ngay cả khi các lỗi không đối xứng.

2) Nếu một người chọn biến đổi biến trả lời, thì người ta có thể muốn chuyển đổi một trong số các biến giải thích có cùng chức năng. Ví dụ: nếu một kết quả 'cuối cùng' là phản hồi, thì người ta có thể có kết quả 'cơ sở' là một biến giải thích. Để giải thích, nó có nghĩa là biến đổi 'cuối cùng' và 'đường cơ sở' với cùng chức năng.

3) Đối số chính để chuyển đổi một biến giải thích thường xoay quanh tính tuyến tính của mối quan hệ đáp ứng - giải thích. Ngày nay, người ta có thể xem xét các tùy chọn khác như các khối vuông bị hạn chế hoặc đa thức phân số cho biến giải thích. Chắc chắn thường có một sự rõ ràng nhất định nếu tuyến tính có thể được tìm thấy mặc dù.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.