Ước tính các tham số của một phân phối bình thường: trung bình thay vì trung bình?


15

Cách tiếp cận phổ biến để ước tính các tham số của phân phối chuẩn là sử dụng giá trị trung bình và độ lệch chuẩn / phương sai mẫu.

Tuy nhiên, nếu có một số ngoại lệ, độ lệch trung bình và độ lệch trung bình so với trung vị sẽ mạnh hơn nhiều, phải không?

Trên một số bộ dữ liệu tôi đã thử, phân phối chuẩn được ước tính bởi N(median(x),median|xmedian(x)|) dường như tạo ra sự phù hợp tốt hơn nhiều so với cổ điển sử dụng giá trị trung bình và độ lệch RMS.N(μ^,σ^)

Có bất kỳ lý do để không sử dụng trung bình nếu bạn cho rằng có một số ngoại lệ trong tập dữ liệu? Bạn có biết một số tài liệu tham khảo cho phương pháp này? Một tìm kiếm nhanh trên Google không tìm thấy cho tôi các kết quả hữu ích thảo luận về lợi ích của việc sử dụng trung bình ở đây (nhưng rõ ràng, "trung bình ước tính tham số phân phối bình thường" không phải là một tập hợp các thuật ngữ tìm kiếm rất cụ thể).

Độ lệch trung vị, có sai lệch không? Tôi có nên nhân nó với để giảm sai lệch không?n1n

Bạn có biết các cách tiếp cận ước lượng tham số mạnh tương tự cho các phân phối khác như phân phối Gamma hoặc phân phối Gaussian được sửa đổi theo cấp số nhân (cần Skewness trong ước tính tham số và các ngoại lệ thực sự làm rối giá trị này)?


2
Nếu bạn có các ngoại lệ, có thể phân phối của bạn không thực sự là Gaussian bình thường. Điều này không trả lời câu hỏi của bạn, tất nhiên, nhưng, IMO, đây là một khả năng người ta phải luôn giải trí.
sds

2
Tôi không có một phân phối toán học đơn giản, sạch sẽ. Tôi có dữ liệu thực, mà bản chất là lộn xộn. Không có phân phối nào sẽ là một sự phù hợp hoàn hảo, bởi vì bạn không thể xử lý tình huống một cách phân tích nữa. Và các ngoại lệ thực sự là mối quan tâm của tôi. :-)
Erich Schubert

Câu trả lời:


15

Quan sát rằng trong một ví dụ liên quan đến dữ liệu được rút ra từ phân phối Gaussian bị ô nhiễm, bạn sẽ có được ước tính tốt hơn về các tham số mô tả phần lớn dữ liệu bằng cách sử dụng thay vì med | x - med ( x ) | nơi điên (điêntrung gian|x-trung gian(x)| là:điên(x)

điên= =1.4826×trung gian|x-trung gian(x)|

--tại đó, là một yếu tố nhất quán được thiết kế để đảm bảo rằng E ( điên ( x ) 2 ) = Var ( x )(Φ-1(0,75))-1= =1.4826

E(điên(x)2)= =Var(x)
khi là uncontaminated-- ban đầu được thực hiện bởi Gauss (Walker , H. (1931)).x

Tôi không thể nghĩ ra bất kỳ lý do nào để không sử dụng thay vì trung bình mẫu trong trường hợp này. Hiệu quả thấp hơn (tại Gaussian!) Của mad có thể là một lý do để không sử dụng mad trong ví dụ của bạn. Tuy nhiên, có tồn tại những sự thay thế mạnh mẽ và hiệu quả cao cho người điên . Một trong số đó là Q ntrung gianđiênđiênđiênQn. Dự toán này có nhiều lợi thế khác bên cạnh. Nó cũng rất vô cảm với những người ngoài cuộc (thực tế gần như vô cảm như người điên). Trái ngược với sự điên rồ, nó không được xây dựng xung quanh ước tính vị trí và không cho rằng sự phân phối của phần không bị nhiễm bẩn của dữ liệu là đối xứng. Giống như điên, Nó dựa trên số liệu thống kê đơn hàng, để nó luôn được xác định rõ ngay cả khi phân phối cơ bản của mẫu của bạn không có khoảnh khắc. Giống như điên, Nó có một hình thức rõ ràng đơn giản. Thậm chí còn hơn cả sự điên rồ, tôi thấy không có lý do nào để sử dụng độ lệch chuẩn mẫu thay vì trong ví dụ bạn mô tả (xem Rousseeuw và Croux 1993 để biết thêm thông tin vềQn ).Qn

x~Γ(ν,λ)

trung gian(x)λ(ν-1/3)

điên(x)λν

ν>1,5

ν^= =(trung gian(x)điên(x))2

λ^= =điên(x)2trung gian(x)

Xem Chen và Rubin (1986) cho một dẫn xuất hoàn chỉnh.

  • J. Chen và H. Rubin, 1986. Giới hạn cho sự khác biệt giữa trung bình và trung bình của các phân phối Gamma và Poisson, Statist. Con mồi Lett., 4, 281 Từ283.
  • PJ Rousseeuw và C. Croux, 1993. Các lựa chọn thay thế cho Tạp chí sai lệch tuyệt đối trung bình của Hiệp hội thống kê Hoa Kỳ, Vol. 88, số 424, trang 1273-1283
  • Walker, H. (1931). Các nghiên cứu trong Lịch sử của Phương pháp Thống kê. Baltimore, MD: Williams & Wilkins Co. Trang 24 Ảo25.

1
Φ-1(0,75)-11.4826- đây có phải là giá trị để sử dụng hay là một trong hai phép nghịch đảo thêm?
Erich Schubert

@ErichSchubert: bạn nói đúng: tôi đã quên nghịch đảo thứ hai..corrected.
dùng603

2
+1. Nhưng tôi nghĩ bạn mô tả sai "yếu tố hiệu quả": nó không giống vớin/(n-1)yếu tố cho phương sai bởi vì yếu tố sau là phổ quát trong khi yếu tố của bạn chỉ dành riêng cho phân phối bình thường: với suy nghĩ phân phối khác, bạn sẽ phải thay đổi yếu tố của mình. Sự khác biệt này là một lý do quan trọng tại sao phương sai và SD đã thấy nhiều ứng dụng hơn MAD.
whuber

1
@whuber: cảm ơn vì điều này, bây giờ tôi nhận ra câu của tôi 'điều này tương tự về tinh thần ' có thể dễ dàng bị hiểu lầm. Tôi đã gỡ bỏ nó.
dùng603

1
Tôi đã đặt phần ExN normal thành một câu hỏi riêng: stats.stackexchange.com/questions/48907/ cường Nhưng tôi có thêm một phần cho bạn: Phân phối LogN normal - xử lý bằng cách áp dụng nhật ký, sau đó tiến hành phân phối bình thường?
Erich Schubert

7

Nếu như bạn khẳng định, dữ liệu là bình thường ngoài một số tỷ lệ nhỏ của các ngoại lệ, độ lệch tuyệt đối trung bình và trung bình sẽ rất mạnh đối với các lỗi thô nhưng sẽ không sử dụng thông tin trong dữ liệu không ngoại lệ rất hiệu quả.

Nếu bạn biết một số tiên nghiệm ràng buộc vào tỷ lệ ngoại lệ, bạn có thể cắt tỷ lệ đó cho giá trị trung bình và Winsorize độ lệch chuẩn. Một giải pháp thay thế không đòi hỏi kiến ​​thức như vậy sẽ là sử dụng công cụ ước tính M cho vị trí và số lượng liên quan cho phương sai. Hiệu quả đạt được nếu các giả định của bạn là chính xác (chẳng hạn như dữ liệu thực sự bình thường ngoài một tỷ lệ nhỏ các ngoại lệ) trong một số trường hợp có thể là đáng kể.

Độ lệch trung bình được thiên vị như một ước tính của độ lệch chuẩn - nhưng không giống nhưnn-1điều chỉnh; bình phương mẫu không được điều chỉnh có nghĩa là không có triệu chứng đi đến phương sai, nhưng độ lệch tuyệt đối trung bình mẫu không phải là không có triệu chứng đi đến độ lệch chuẩn của dân số; bạn cần nhân nó với một hằng số đơn giản để có được sự nhất quán . Sau khi bạn thực hiện xong, nó vẫn bị sai lệch mẫu nhỏ theo nghĩa tương tự như bình phương trung bình chưa được điều chỉnh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.