Trước tiên, hãy xem những gì thường xảy ra khi chúng ta ghi nhật ký của một cái gì đó đúng.
Hàng trên cùng chứa biểu đồ cho các mẫu từ ba phân phối khác nhau, ngày càng sai lệch.
Hàng dưới cùng chứa biểu đồ cho nhật ký của họ.
yxz
Nếu chúng ta muốn các bản phân phối của mình trông bình thường hơn, việc chuyển đổi chắc chắn đã cải thiện trường hợp thứ hai và thứ ba. Chúng ta có thể thấy rằng điều này có thể giúp đỡ.
Vậy tại sao nó hoạt động?
Lưu ý rằng khi chúng ta nhìn vào hình ảnh của hình dạng phân phối, chúng ta sẽ không xem xét giá trị trung bình hoặc độ lệch chuẩn - chỉ ảnh hưởng đến các nhãn trên trục.
Vì vậy, chúng ta có thể tưởng tượng việc xem xét một số loại biến "được tiêu chuẩn hóa" (trong khi vẫn tích cực, tất cả đều có vị trí và mức độ lan truyền tương tự, nói)
Lấy các bản ghi "kéo theo" các giá trị cực đoan hơn ở bên phải (giá trị cao) so với trung vị, trong khi các giá trị ở phía bên trái (giá trị thấp) có xu hướng bị kéo dài ra xa, cách xa trung vị.
xyz
y
Nhưng khi chúng ta ghi nhật ký, nó bị kéo về phía trung tuyến; sau khi ghi nhật ký, chỉ còn khoảng 2 dải xen kẽ trên trung vị.
y
Không phải ngẫu nhiên mà tỷ lệ 750/150 và 150/30 đều là 5 khi cả log (750) và log (30) kết thúc với khoảng cách tương đương với khoảng cách trung bình của log (y). Đó là cách các bản ghi hoạt động - chuyển đổi tỷ lệ không đổi thành sự khác biệt không đổi.
Không phải lúc nào bản ghi cũng sẽ giúp ích đáng kể. Ví dụ: nếu bạn nói một biến ngẫu nhiên bất thường và dịch chuyển nó sang bên phải (nghĩa là thêm một hằng số lớn vào nó) để giá trị trung bình trở nên lớn so với độ lệch chuẩn, thì việc lấy nhật ký của nó sẽ tạo ra rất ít sự khác biệt hình dạng. Nó sẽ ít sai lệch - nhưng hầu như không.
Nhưng các phép biến đổi khác - căn bậc hai, nói - cũng sẽ kéo các giá trị lớn như thế. Tại sao các bản ghi nói riêng, phổ biến hơn?
- 0,162
Rất nhiều dữ liệu kinh tế và tài chính hành xử như thế này, ví dụ (ảnh hưởng không đổi hoặc gần như không đổi trên thang tỷ lệ phần trăm). Thang đo log có rất nhiều ý nghĩa trong trường hợp đó. Hơn nữa, là kết quả của hiệu ứng tỷ lệ phần trăm đó. sự lây lan của các giá trị có xu hướng lớn hơn khi giá trị trung bình tăng - và lấy nhật ký cũng có xu hướng ổn định mức chênh lệch. Đó là thường hơn quan trọng hơn bình thường. Thật vậy, cả ba phân phối trong sơ đồ ban đầu đều đến từ các gia đình có độ lệch chuẩn sẽ tăng theo giá trị trung bình và trong mỗi trường hợp lấy nhật ký sẽ ổn định phương sai. [Tuy nhiên, điều này không xảy ra với tất cả các dữ liệu sai lệch. Nó chỉ rất phổ biến trong các loại dữ liệu mọc lên trong các lĩnh vực ứng dụng cụ thể.]
Cũng có những lúc căn bậc hai sẽ làm cho mọi thứ đối xứng hơn, nhưng nó có xu hướng xảy ra với các phân phối ít sai lệch hơn tôi sử dụng trong các ví dụ của tôi ở đây.
Chúng ta có thể (khá dễ dàng) xây dựng một bộ khác gồm ba ví dụ nghiêng phải nhẹ hơn, trong đó căn bậc hai làm một bên trái lệch, một đối xứng và thứ ba vẫn nghiêng phải (nhưng ít sai lệch hơn trước một chút).
Điều gì về phân phối lệch trái?
Nếu bạn đã áp dụng chuyển đổi nhật ký cho phân phối đối xứng, nó sẽ có xu hướng làm cho nó lệch sang trái với cùng lý do nó thường làm cho một bên phải lệch thêm một đối xứng - xem thảo luận liên quan ở đây .
Tương ứng, nếu bạn áp dụng chuyển đổi log cho một cái gì đó đã bị lệch, nó sẽ có xu hướng làm cho nó lệch nhiều hơn , kéo những thứ phía trên trung tuyến chặt chẽ hơn nữa, và kéo dài những thứ bên dưới dải phân cách xuống thậm chí còn khó hơn.
Vì vậy, chuyển đổi đăng nhập sẽ không hữu ích sau đó.
Xem thêm chuyển đổi năng lượng / thang Tukey. Phân phối bị lệch trái có thể được thực hiện đối xứng hơn bằng cách lấy một sức mạnh (lớn hơn 1 - nói bình phương), hoặc bằng cách lũy thừa. Nếu nó có giới hạn trên rõ ràng, người ta có thể trừ các quan sát khỏi giới hạn trên (đưa ra kết quả sai lệch) và sau đó cố gắng chuyển đổi điều đó.