Là trực quan hóa đủ lý do để chuyển đổi dữ liệu?


13

Vấn đề

Tôi muốn vẽ phương sai được giải thích bởi mỗi trong số 30 tham số, ví dụ như một barplot với một thanh khác nhau cho mỗi tham số và phương sai trên trục y:

văn bản thay thế

Tuy nhiên, phương sai bị lệch mạnh về các giá trị nhỏ, bao gồm 0, như có thể thấy trong biểu đồ bên dưới:

văn bản thay thế

Nếu tôi biến đổi chúng theo , sẽ dễ dàng thấy sự khác biệt giữa các giá trị nhỏ (biểu đồ và biểu đồ bên dưới):đăng nhập(x+1)

văn bản thay thếvăn bản thay thế

Câu hỏi

Vẽ đồ thị trên thang đo log là phổ biến, nhưng âm mưu có hợp lý tương tự không?đăng nhập(x+1)

Câu trả lời:


13

Điều này đã được một số người gọi là " logarit bắt đầu " ( ví dụ: John Tukey). (Đối với một số ví dụ, Google john tukey "đã bắt đầu đăng nhập" .)

Nó hoàn toàn tốt để sử dụng. Trong thực tế, bạn có thể mong đợi phải sử dụng giá trị bắt đầu khác không để tính toán làm tròn biến phụ thuộc. Ví dụ, làm tròn biến phụ thuộc vào số nguyên gần nhất có hiệu quả giảm 1/12 so với phương sai thực của nó, cho thấy giá trị bắt đầu hợp lý phải ít nhất là 1/12. (Giá trị đó không làm việc xấu với những dữ liệu này. Sử dụng các giá trị khác trên 1 không thực sự thay đổi hình ảnh nhiều; nó chỉ làm tăng tất cả các giá trị trong ô bên phải phía dưới gần như thống nhất.)

Có nhiều lý do sâu hơn để sử dụng logarit (hoặc log bắt đầu) để đánh giá phương sai: ví dụ độ dốc của biểu đồ phương sai so với giá trị ước tính trên thang đo log-log ước tính tham số Box-Cox để ổn định phương sai . Quyền lực pháp luật như vậy phù hợp với phương sai của một số biến liên quan thường được quan sát. (Đây là một tuyên bố thực nghiệm, không phải là một lý thuyết.)

Nếu mục đích của bạn là trình bày phương sai, hãy tiến hành cẩn thận. Nhiều khán giả (ngoài những người làm khoa học) không thể hiểu được logarit, ít hơn một người bắt đầu. Sử dụng giá trị bắt đầu bằng 1 ít nhất có giá trị đơn giản hơn một chút để giải thích và diễn giải so với một số giá trị bắt đầu khác. Tất nhiên, một cái gì đó để xem xét là vẽ đồ thị gốc của chúng, đó là độ lệch chuẩn, tất nhiên. Nó sẽ trông giống như thế này:

văn bản thay thế

Bất kể, nếu mục đích của bạn là khám phá dữ liệu, tìm hiểu từ chúng, để phù hợp với một mô hình hoặc để đánh giá một mô hình, thì đừng để bất cứ điều gì cản trở việc tìm kiếm các biểu diễn đồ họa hợp lý của dữ liệu và các giá trị xuất phát từ dữ liệu của bạn chẳng hạn như những phương sai này.


1
cảm ơn bạn đã giải thích và thuật ngữ / tài liệu tham khảo thích hợp. Đối tượng là độc giả của một tạp chí khoa học và chủ đề là phân rã phương sai; hiểu khái niệm về chuyển đổi nhật ký là điều kiện tiên quyết nhưng tôi vẫn không chắc liệu bài thuyết trình này có cần biện minh thêm hay không - gốc là một lựa chọn tốt. Cảm ơn.
David LeBauer

3

Nó có thể là hợp lý. Câu hỏi tốt hơn để hỏi là liệu 1 có phải là số thích hợp để thêm không. Tối thiểu của bạn là gì? Nếu bắt đầu bằng 1, thì bạn đang áp dụng một khoảng cụ thể giữa các mục có giá trị bằng 0 và các mục có giá trị 1. Tùy thuộc vào lĩnh vực nghiên cứu, có thể có ý nghĩa hơn khi chọn 0,5 hoặc 1 / e làm phần bù. Hàm ý của việc chuyển đổi sang thang đo log là bây giờ bạn có tỷ lệ tỷ lệ.

Nhưng tôi bị làm phiền bởi những âm mưu. Tôi sẽ hỏi liệu một mô hình có hầu hết các phương sai được giải thích ở phần đuôi của phân phối bị lệch có được coi là có các thuộc tính thống kê mong muốn hay không. Tôi nghĩ là không.


Tôi không chắc là nó có rõ ràng hay không, nhưng biểu đồ là 30 giá trị của phương sai và các biểu đồ là giá trị thô của phương sai var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), vì vậy, tôi giải thích điều này như một vài tham số giải thích hầu hết phương sai, không phải là hầu hết của phương sai được giải thích là ở đuôi. Điều đó có làm cho nó ý nghĩa hơn không? Xin lỗi nếu nó không rõ ràng.
David LeBauer
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.