Khi nào thì Log log thích hợp?


57

Tôi đã đọc rằng sử dụng thang đo log khi vẽ biểu đồ / đồ thị là phù hợp trong một số trường hợp nhất định, như trục y trong biểu đồ chuỗi thời gian. Tuy nhiên, tôi đã không thể tìm thấy một lời giải thích dứt khoát về lý do tại sao lại như vậy, hoặc khi nào thì nó sẽ phù hợp. Xin lưu ý, tôi không phải là một nhà thống kê nên tôi có thể bị mất điểm hoàn toàn và nếu đó là trường hợp tôi đánh giá cao hướng đến các tài nguyên khắc phục.


10
Đây không phải là một câu trả lời chính thức nhưng - khi một biến số kéo dài một vài bậc độ lớn, nó thường dễ nhìn hơn (và nhiều thông tin hơn) để hình dung nó trên thang đo log.
Macro

Macro - điều đó có ý nghĩa tốt (đặc biệt là khi bạn có một đối tượng có thể hiểu được điều đó!)
dav

1
Bạn có thể tìm thấy chủ đề sử dụng liên quan chặt chẽ này trong khi bạn đang chờ trả lời cụ thể: stats.stackexchange.com/questions/298 . Về mặt biểu đồ, bạn có thể hiểu một cách hiệu quả "biến phụ thuộc" là "trục y". Sau đó hãy xem nhiều câu hỏi liên quan chặt chẽ đã xuất hiện ở đây.
whuber

3
Ngoài ra FYI Naomi Robbins có một bài viết rất đơn giản về chủ đề cũng cần được quan tâm, Khi nào tôi nên sử dụng thang đo logarit trong biểu đồ và đồ thị của tôi? .
Andy W

Whuber, cảm ơn vì đã chỉ ra các liên kết bổ sung. Tôi đã thấy một vài trong số đó, nhưng không phải tất cả và tôi đang tìm cách vượt qua chúng bây giờ.
dav

Câu trả lời:


51

Đây là một câu hỏi rất thú vị, và một câu hỏi mà quá ít người nghĩ đến. Có một số cách khác nhau mà thang đo log có thể phù hợp. Điều đầu tiên và được biết đến nhiều nhất là được đề cập bởi Macro trong nhận xét của mình: thang đo log cho phép hiển thị một phạm vi lớn mà không bị nén các giá trị nhỏ xuống dưới cùng của biểu đồ.

Một lý do khác để thích mở rộng quy mô nhật ký là trong trường hợp dữ liệu được thể hiện tự nhiên hơn về mặt hình học. Một ví dụ là khi dữ liệu đại diện cho nồng độ của chất trung gian sinh học. Nồng độ không thể âm và tỷ lệ biến thiên gần như bất biến với giá trị trung bình (nghĩa là có phương sai dị biến). Sử dụng thang đo logarit hoặc tương đương, sử dụng nồng độ log làm chính là thước đo cả hai 'sửa chữa' độ biến thiên không đồng đều và đưa ra thang đo không bị ràng buộc ở cả hai đầu. Nồng độ có thể được phân phối theo thông thường và do đó, tỷ lệ log cho chúng ta một kết quả rất thuận tiện, được cho là "tự nhiên". Trong dược lý, chúng tôi sử dụng thang đo logarit cho nồng độ thuốc thường xuyên hơn không,

Một lý do chính đáng khác cho thang đo log, có lẽ là lý do mà bạn quan tâm đối với dữ liệu chuỗi thời gian, xuất phát từ khả năng của thang đo log để thực hiện các thay đổi phân đoạn tương đương. Hãy tưởng tượng một màn hình hiển thị hiệu suất dài hạn của các khoản đầu tư hưu trí của bạn. Nó (nên) tăng trưởng theo cấp số nhân vì lãi suất của ngày mai phụ thuộc vào đầu tư ngày nay (nói đại khái). Do đó, ngay cả khi hiệu suất tính theo tỷ lệ phần trăm khá ổn định, một biểu đồ của các quỹ sẽ xuất hiện tăng nhanh nhất ở phía bên tay phải. Với thang đo logarit, phần trăm thay đổi không đổi được xem là khoảng cách dọc không đổi nên tốc độ tăng trưởng không đổi được xem là một đường thẳng. Đó thường là một lợi thế đáng kể.

Một lý do bí mật hơn một chút để chọn thang đo log xuất hiện trong trường hợp các giá trị có thể được biểu thị một cách hợp lý là x hoặc 1 / x. Một ví dụ từ nghiên cứu của riêng tôi là sức cản mạch máu cũng có thể được biểu hiện một cách hợp lý là độ dẫn điện, tương hỗ. (Trong một số trường hợp cũng có thể nghĩ rằng đường kính của các mạch máu có sức mạnh như sức đề kháng hoặc độ dẫn.) Cả hai biện pháp này đều không có thực tế hơn các biện pháp khác và cả hai đều có thể được tìm thấy trong các tài liệu nghiên cứu. Nếu chúng được chia tỷ lệ logarit thì chúng chỉ đơn giản là âm của nhau và sự lựa chọn của cái này hay cái kia không tạo ra sự khác biệt rõ rệt. (Đường kính mạch máu sẽ khác với điện trở và độ dẫn bởi một hệ số nhân không đổi khi tất cả chúng đều được thu nhỏ lại.)


Cảm ơn câu trả lời tuyệt vời! Bạn có thể giải thích rõ hơn về "các giá trị có thể được biểu thị hợp lý là x" không?
ktdrv

4
@ktdrv Một số điều có ý nghĩa hoặc là lên. Nói rằng bạn muốn ghi lại khả năng của một ngư dân. Bạn có thể đếm số lượng cá đánh bắt mỗi ngày hoặc bạn có thể đo khoảng thời gian giữa các lần đánh bắt liên tiếp. Đo lường có ý nghĩa nhưng chúng không liên quan tuyến tính với nhau. Chúng là các đối ứng tỷ lệ của nhau và do đó có thể được chuyển đổi từ cái này sang cái khác. Nhật ký của khoảng và nhật ký của số mỗi ngày có liên quan tuyến tính với nhau và khác nhau bởi một yếu tố không đổi (âm).
Michael Lew

1
Michael, cảm ơn vì câu trả lời tuyệt vời. Tôi phải thừa nhận, tôi phải mất một thời gian để sàng lọc tất cả các điểm của bạn (và phải google một vài thuật ngữ, như "phương sai dị biến"). Tôi vẫn đang cùng nhau tìm hiểu chính xác tác động thực sự của câu trả lời sẽ có ý nghĩa gì đối với công việc của tôi, nhưng tôi rất biết ơn về một hướng đi chung và một số hướng dẫn để chỉ cho tôi trên đường đi.
dav

x1/xlog(x)x1/x x1/xx1/x

pH=log[H+]

29

Một số ví dụ thực tế mà tôi đã đưa ra như một sự bổ sung cho câu trả lời rất hay của @Michael Lew.

Đầu tiên, hai chuỗi thời gian dưới đây cho thấy lượng khách đến hàng tháng đến New Zealand, có sẵn từ Statistics New Zealand . Cả hai lô đều có mục đích của chúng, nhưng tôi tìm thấy cái có trục dọc trên thang logarit hữu ích một cách ngoạn mục cho nhiều mục đích hơn cái đầu tiên. Ví dụ, bạn có thể thấy rằng tính thời vụ của khách đến vẫn tỷ lệ thuận với quy mô của khách đến; và bạn có thể thấy những thay đổi đáng kể về tốc độ tăng trưởng (ví dụ trong chiến tranh thế giới thứ hai) vốn chỉ vô hình trên quy mô ban đầu.

nhập mô tả hình ảnh ở đây

Thứ hai, các lô dưới đây cho thấy tổng chi tiêu liên quan đến chuyến đi của khách du lịch đến New Zealand, so với chi tiêu trong khi họ thực sự ở New Zealand. Nguồn là Khảo sát khách quốc tế của Bộ Phát triển Kinh tế. Sự khác biệt là chi tiêu trước chuyến đi, ví dụ như khách sạn hoặc các gói được trả trước. Biểu đồ đầu tiên, ở quy mô ban đầu, có thể được sử dụng cho một số mục đích khác ngoài ấn tượng rất thô (nhưng quan trọng) về dữ liệu được nhóm ở góc dưới bên trái. Cốt truyện thứ hai hy sinh một số khả năng diễn giải ngay lập tức, đặc biệt đối với những người không thống kê (vì điều này, giờ đây tôi thường thực sự sử dụng thang đo logarit trên các trục, thay vì chuyển đổi dữ liệu và có thang đo hiển thị giá trị logarit), nhưng mang lại rất nhiều phân biệt thị giác nhiều hơn.

Ví dụ: bạn có thể phát hiện rõ ràng một vài ngoại lệ (hóa ra là lỗi chỉnh sửa dữ liệu) trong đó tổng chi tiêu ít hơn chi tiêu ở New Zealand. Có lẽ quan trọng hơn, bạn có thể sử dụng biểu đồ này với các màu sắc hoặc khía cạnh khác nhau để cho thấy các quốc gia thị trường hoặc mục đích truy cập khác nhau (ví dụ: kỳ nghỉ v. Thăm bạn bè và gia đình) chiếm các phần khác nhau của "không gian" - thứ gì đó sẽ vô hình trên các trục gốc.

Biến cốt truyện này thành một cái gì đó hữu ích sẽ liên quan đến việc xử lý dữ liệu mật độ cao bằng cách nào đó (ví dụ bằng cách thêm một số độ trong suốt cho các điểm hoặc thay thế các điểm bằng các thùng lục giác được tô màu theo mật độ), nhưng bất kỳ giải pháp trực quan hữu ích nào cũng chắc chắn sẽ liên quan đến trục logarit.

nhập mô tả hình ảnh ở đây

chỉnh sửa / bổ sung

Một âm mưu khác để minh họa ý nghĩa của các thùng hình lục giác, sử dụng màu sắc để biểu thị mật độ khi có một tập dữ liệu lớn (trong trường hợp này, khoảng 12000 người trả lời khảo sát về trải nghiệm World Cup bóng bầu dục ở New Zealand). Xin lưu ý lại đây là một ví dụ khác mà tôi đã sử dụng thang đo logarit để chi tiêu.

nhập mô tả hình ảnh ở đây


Peter, cảm ơn vì cái nhìn sâu sắc bổ sung - đồ họa thực sự giúp hiểu được quan điểm của bạn. Một câu hỏi tiếp theo (nếu bạn rất nghiêng), tại sao bạn lại thay thế các điểm bằng các thùng "lục giác"? Đó có phải là ý tưởng tương tự như "Lô đất hướng dương" không? Tôi chưa từng nghe thuật ngữ đó trước đây.
DAV

Không, khác với lô hướng dương. Vấn đề là phân chia khu vực vẽ thành các thùng hình lục giác và sau đó tô màu chúng (ví dụ từ sáng đến tối) theo số lượng điểm trong mỗi thùng. Có thể là một cách tốt để có được xung quanh việc vẽ các bộ dữ liệu lớn mà nếu không có xu hướng biến thành một khối màu đen.
Peter Ellis

@DavidVandenbos - Tôi đã thêm một ví dụ
Peter Ellis

(phần còn lại của bình luận) @PeterEllis Cảm ơn bạn đã làm rõ. Đó là một cách tuyệt vời để trực quan hóa dữ liệu - nó rất giống với bản đồ nhiệt địa lý mà tôi sử dụng. Bạn đã tạo nó trong R?
dav

Có, R, sử dụng gói ggplot2 - rất tốt cho mục đích này và khá đơn giản một khi bạn đã có những điều cơ bản.
Peter Ellis

9

Một điều tiện lợi khác về quy mô log là chúng làm cho các tỷ lệ xuất hiện đối xứng. Ví dụ, như thế này: nhập mô tả hình ảnh ở đây


10
Thật tuyệt khi thấy cốt truyện tương tự trên thang đo tuyến tính, để so sánh
nico
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.