Sử dụng trung bình để tính phương sai


10

Tôi có một biến ngẫu nhiên 1-D cực kỳ sai lệch. Để bình thường hóa phân phối này, tôi muốn sử dụng trung bình hơn là trung bình. Câu hỏi của tôi là: tôi có thể tính toán phương sai của phân phối bằng cách sử dụng trung bình trong công thức thay vì giá trị trung bình không?

tức là tôi có thể thay thế

Var(X)=[(Ximean(X))2]/n

với

Var(X)=[(Ximedian(X))2]/n

Lý do của tôi đằng sau điều này là vì phương sai là một biện pháp lây lan, xu hướng trung tâm của phân phối, nó không phải là một vấn đề nhưng tôi đang tìm cách xác nhận logic này.



1
Bằng cách căn giữa các biến của bạn và sau đó chia cho MAD (độ lệch tuyệt đối trung vị), bạn có thể tạo phân phối chuẩn hóa trung vị.
Mike Hunter

4
Bạn có thể làm được việc này! Nhưng tôi nghĩ thật công bằng khi gọi nó là không chuẩn và đề nghị rằng bạn cần lý thuyết và / hoặc mô phỏng để sao lưu nó chứ không chỉ là trực giác của bạn. Tôi nghi ngờ rằng nó sẽ ít kháng hơn so với ước tính tiêu chuẩn. Ví dụ, trong trường hợp lệch phải, trung bình sẽ nhỏ hơn giá trị trung bình, do đó độ lệch bình phương lớn nhất (từ trung vị) do đó sẽ còn lớn hơn! Điểm chính là nếu phương sai rất không đáng tin cậy, bạn có thể cần phải suy nghĩ về việc đo lường mức chênh lệch khá khác nhau, thay vì các phiên bản khác nhau của phương sai.
Nick Cox

1
Điểm trực giao: Liệu "bình thường hóa" có nghĩa là tỷ lệ theo một cách nào đó, ví dụ (giá trị vị trí) / tỷ lệ, hoặc nó có nghĩa là làm cho gần hơn với bình thường (Gaussian)?
Nick Cox

1
Cách tiếp cận này vốn không nhất quán, bởi vì các vấn đề được giải quyết bằng cách thay thế giá trị trung bình bằng trung bình được phóng đại bằng cách sử dụng phương sai thay vì một công cụ ước lượng mạnh mẽ của sự lây lan.
whuber

Câu trả lời:


8

Giá trị trung bình giảm thiểu sai số bình phương (hoặc định mức L2, xem tại đây hoặc tại đây ), vì vậy lựa chọn tự nhiên cho phương sai để đo khoảng cách từ giá trị trung bình là sử dụng lỗi bình phương (xem tại đây tại sao chúng ta bình phương nó). Mặt khác, trung vị giảm thiểu sai số tuyệt đối (chỉ tiêu L1), nghĩa là đó là một giá trị nằm ở "giữa" dữ liệu của bạn, do đó khoảng cách tuyệt đối với trung vị (được gọi là Độ lệch tuyệt đối trung bình hoặc MAD) dường như là một đo lường tốt hơn về mức độ thay đổi xung quanh trung vị. Bạn có thể đọc thêm về mối quan hệ này trong chủ đề này .

Nói ngắn gọn, phương sai khác với MAD về cách họ xác định điểm trung tâm của dữ liệu của bạn và điều này ảnh hưởng đến cách chúng tôi đo lường sự biến đổi của các điểm dữ liệu xung quanh nó. Bình phương các giá trị làm cho các ngoại lệ có ảnh hưởng lớn hơn đến điểm trung tâm (trung bình), trong khi trong trường hợp trung vị, tất cả các điểm có cùng tác động đến nó, vì vậy khoảng cách tuyệt đối có vẻ phù hợp hơn.

Điều này cũng có thể được hiển thị bằng mô phỏng đơn giản. Nếu bạn so sánh các giá trị bình phương khoảng cách từ giá trị trung bình và trung bình, thì tổng khoảng cách bình phương gần như luôn luôn nhỏ hơn giá trị trung bình so với trung bình. Mặt khác, tổng khoảng cách tuyệt đối nhỏ hơn từ trung vị, sau đó từ trung bình. Mã R để tiến hành mô phỏng được đăng dưới đây.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

Trong trường hợp sử dụng trung bình thay vì trung bình trong việc ước tính "phương sai" như vậy, điều này sẽ dẫn đến ước tính cao hơn so với sử dụng giá trị trung bình như được thực hiện theo truyền thống.

Nhân tiện, mối quan hệ của các chỉ tiêu L1 và L2 cũng có thể được xem xét trong bối cảnh Bayes, như trong chủ đề này .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.