Đối với những gì (đối xứng) phân phối là mẫu có nghĩa là một công cụ ước tính hiệu quả hơn so với trung bình mẫu?


17

Tôi đã làm việc với niềm tin rằng trung vị mẫu là thước đo mạnh mẽ hơn của xu hướng trung tâm so với trung bình mẫu, vì nó bỏ qua các ngoại lệ. Do đó, tôi rất ngạc nhiên khi biết (trong câu trả lời cho một câu hỏi khác ) rằng đối với các mẫu được rút ra từ một phân phối bình thường, phương sai của trung bình mẫu nhỏ hơn phương sai của trung bình mẫu (ít nhất là đối với lớn ).n

Tôi hiểu về mặt toán học tại sao điều này là đúng. Có một cách nhìn "triết học" về điều này sẽ giúp với trực giác về việc khi nào nên sử dụng trung bình thay vì trung bình cho các phân phối khác?

Có công cụ toán học nào giúp trả lời nhanh câu hỏi cho một phân phối cụ thể không?

Câu trả lời:


20

Giả sử chúng ta hạn chế xem xét đối với các phân phối đối xứng trong đó giá trị trung bình và phương sai là hữu hạn (ví dụ, vì vậy, Cauchy bị loại khỏi xem xét).

Hơn nữa, ban đầu tôi sẽ giới hạn bản thân mình trong các trường hợp không chính thống liên tục, và thực sự chủ yếu là các tình huống 'tốt đẹp' (mặc dù tôi có thể quay lại sau và thảo luận về một số trường hợp khác).

Phương sai tương đối phụ thuộc vào kích thước mẫu. Chúng ta thường thảo luận về tỷ lệ ( n lần so với) các phương sai tiệm cận, nhưng chúng ta nên nhớ rằng ở các cỡ mẫu nhỏ hơn, tình huống sẽ có phần khác nhau. (Trung bình đôi khi tốt hơn đáng kể hoặc xấu hơn so với hành vi tiệm cận của nó sẽ gợi ý. Ví dụ, ở mức bình thường với n=3 nó có hiệu quả khoảng 74% thay vì 63%. kích thước mẫu, mặc dù.)

Các triệu chứng khá dễ đối phó:

Trung bình: n× phương sai = σ2 .

Trung vị : n× phương sai = trong đóf(m)là chiều cao của mật độ tại trung vị.1[4f(m)2]f(m)

Vì vậy, nếu , trung bình sẽ tiệm cận hiệu quả hơn.f(m)>12σ

[Trong trường hợp bình thường, , vì vậy1f(m)= =12πσ , từ đó hiệu quả tương đối tiệm cận của2/π)]1[4f(m)2]= =πσ222/π

Chúng ta có thể thấy rằng phương sai của trung vị sẽ phụ thuộc vào hành vi của mật độ rất gần trung tâm, trong khi phương sai của giá trị trung bình phụ thuộc vào phương sai của phân bố ban đầu (theo một nghĩa nào đó bị ảnh hưởng bởi mật độ ở mọi nơi và trong đặc biệt, hơn nữa bằng cách nó cư xử xa trung tâm hơn)

Điều đó có nghĩa là, trong khi trung vị ít bị ảnh hưởng bởi các ngoại lệ hơn giá trị trung bình và chúng ta thường thấy rằng nó có phương sai thấp hơn giá trị trung bình khi phân phối có đuôi nặng (tạo ra nhiều ngoại lệ hơn), điều thực sự thúc đẩy hiệu suất của trung vị là inliers . Nó thường xảy ra rằng (đối với một phương sai cố định) có xu hướng hai người đi cùng nhau.

Đó là, nói rộng ra, khi đuôi càng nặng hơn, có xu hướng (ở giá trị cố định ) phân phối để có được "đỉnh" cùng một lúc (khó hiểu hơn, theo nghĩa lỏng lẻo). Tuy nhiên, đây không phải là một điều nhất định - nó có xu hướng xảy ra trong một phạm vi rộng các mật độ thường được coi là, nhưng nó không phải lúc nào cũng giữ được. Khi nó giữ, phương sai của các trung bình sẽ giảm (vì phân phối có khả năng ở những khu vực gần nhất của trung bình), trong khi phương sai của giá trị trung bình là hằng số được tổ chức (vì chúng tôi cố định σ 2 ).σ2σ2

Vì vậy, trong nhiều trường hợp phổ biến khác nhau, trung vị thường sẽ có xu hướng "tốt hơn" so với trung bình khi đuôi nặng, (nhưng chúng ta phải nhớ rằng việc xây dựng các mẫu tương đối dễ dàng). Vì vậy, chúng ta có thể xem xét một vài trường hợp, có thể cho chúng ta thấy những gì chúng ta thường thấy, nhưng chúng ta không nên đọc quá nhiều về chúng, bởi vì đuôi nặng hơn không phổ biến với đỉnh cao hơn.

n

x

Nếu chúng ta lấy các thông số quy mô là 1, logistic có sai và chiều cao ở mức trung bình của 1/4, vì vậy 1π2/3. Tỷ lệ chênh lệch là sau đóπ2/120,82như vậy trong mẫu lớn, trung bình là khoảng 82% hiệu quả như giá trị trung bình.14f(m)2= =4π2/120,82

Chúng ta hãy xem xét hai mật độ khác có đuôi giống như hàm mũ, nhưng đỉnh khác nhau.

Đầu tiên, phân phối hyperbolic secant ( )sech , trong đó dạng chuẩn có phương sai 1 và chiều cao ở trung tâm của , vì vậy tỷ lệ phương sai tiệm cận là 1 (hai phương pháp này có hiệu quả tương đương trong các mẫu lớn). Tuy nhiên, trong các mẫu nhỏ, giá trị trung bình hiệu quả hơn (phương sai của nó là khoảng 95% so với trung bình khin=5chẳng hạn).12n= =5

Ở đây chúng ta có thể thấy làm thế nào, khi chúng ta tiến bộ qua ba mật độ đó (giữ hằng số phương sai), rằng chiều cao ở trung vị tăng:

nhập mô tả hình ảnh ở đây

Chúng ta có thể làm cho nó đi cao hơn? Quả thực chúng ta có thể. Hãy xem xét, ví dụ, số mũ đôi . Dạng chuẩn có phương sai 2 và chiều cao ở trung vị là (vì vậy nếu chúng ta chia tỷ lệ thành phương sai đơn vị như trong sơ đồ, thì đỉnh là112 , chỉ trên 0,7). Phương sai tiệm cận của trung vị là một nửa so với giá trị trung bình.12

Nếu chúng ta làm cho đỉnh phân phối vẫn cho một phương sai nhất định, (có lẽ bằng cách làm cho đuôi nặng hơn theo cấp số nhân), trung vị có thể vẫn hiệu quả hơn (nói tương đối). Thực sự không có giới hạn về mức cao nhất có thể đi.

ν= =5

...

Ở các cỡ mẫu hữu hạn, đôi khi có thể tính toán phương sai của phân bố trung vị một cách rõ ràng. Trong trường hợp không khả thi - hoặc thậm chí chỉ bất tiện - chúng ta có thể sử dụng mô phỏng để tính toán phương sai của trung vị (hoặc tỷ lệ phương sai *) trên các mẫu ngẫu nhiên được rút ra từ phân phối (đó là những gì tôi đã làm để lấy các số liệu mẫu nhỏ ở trên ).

* Mặc dù chúng ta thường không thực sự cần phương sai của giá trị trung bình, vì chúng ta có thể tính toán nó nếu chúng ta biết phương sai của phân phối, có thể hiệu quả hơn về mặt tính toán để làm như vậy, vì nó hoạt động như một phương sai điều khiển (giá trị trung bình và trung vị thường khá tương quan).


1

f(x)= =12e-|x-μ|,-<x<
μX1,X2,Giáo dục,Xn2/n14nf(μ)2= =14n/4= =1/n<2/n

σ2= =11/nn14n(1/2π)2= =π2n1,57/n>1/n

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.