Sai số chuẩn của trung vị


14

Công thức sau đây có đúng không nếu tôi muốn đo sai số chuẩn của trung vị trong trường hợp một mẫu nhỏ có phân phối không bình thường (tôi đang sử dụng python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Câu trả lời:


12

Dựa trên một số ý kiến ​​của @ mary, tôi nghĩ rằng những điều sau đây là phù hợp. Cô ấy dường như đang chọn trung vị vì mẫu nhỏ.

Nếu bạn chọn trung bình vì đó là một mẫu nhỏ thì đó không phải là lý do chính đáng. Bạn chọn trung vị vì trung vị là một giá trị quan trọng. Nó nói một cái gì đó khác với trung bình. Bạn cũng có thể chọn nó cho một số tính toán thống kê vì nó mạnh mẽ chống lại một số vấn đề nhất định như ngoại lệ hoặc sai lệch. Tuy nhiên, cỡ mẫu nhỏ không phải là một trong những vấn đề mà nó mạnh mẽ chống lại. Ví dụ, khi kích thước mẫu trở nên nhỏ hơn, nó thực sự nhạy cảm với độ lệch hơn nhiều so với giá trị trung bình.


Cảm ơn John! Thật ra tôi đã chọn sử dụng trung bình thay cho giá trị trung bình cho lý do bạn vừa viết. Tôi đã có các mẫu khác nhau, tất cả chúng đều có phân phối không phải là gaussian. Có những mẫu chứa hơn 50 điểm, những mẫu khác chứa ít hơn 10 điểm, nhưng đối với tất cả chúng tôi nghĩ nhận xét của bạn là hợp lệ, phải không?
mary

Với rất ít điểm tôi không chắc bạn có thể nói gì về phân phối cơ bản. Nếu bạn so sánh các mẫu chứa ít hơn 10 với các mẫu chứa 50 và phân phối cơ bản không đối xứng thì trung bình sẽ cho thấy hiệu quả ngay cả khi không có mẫu nào vì nó sẽ có nhiều sai lệch trong mẫu nhỏ hơn mẫu lớn. Có nghĩa là sẽ không.
Giăng

Trong tương lai, hãy giải đáp thắc mắc của bạn và hỏi thêm về những gì bạn thực sự cần biết. Nói lý do tại sao bạn đã làm những gì bạn đã làm cho đến nay và mô tả dữ liệu mà bạn có tốt. Bạn sẽ nhận được câu trả lời tốt hơn nhiều.
Giăng

1
" cỡ mẫu nhỏ không phải là một trong những vấn đề mà nó mạnh mẽ chống lại " có giá trị +1; phần còn lại là một phần thưởng
Glen_b -Reinstate Monica

Như một vấn đề thực tế, Huber đưa ra một điểm trong cuốn sách của mình rằng không có khái niệm duy nhất về sự mạnh mẽ. Có sự mạnh mẽ đối với các ngoại lệ (và đó là những gì trung bình mạnh mẽ). Tuy nhiên, một quan điểm khác là sự mạnh mẽ đối với lỗi đo lường và đó là ý nghĩa mạnh mẽ của nó, vì nó tính trung bình các lỗi đo lường này. Tuy nhiên, trung vị rất dễ bị dao động lỗi đo lường vì chúng có thể ảnh hưởng đến giữa phân phối cũng tệ như đuôi.
StasK

12

Sokal và Rohlf đưa ra công thức này trong cuốn sách Biometry (trang 139). Trong phần "Nhận xét về khả năng ứng dụng" họ viết: Các mẫu lớn từ các quần thể bình thường. Vì vậy, tôi sợ rằng câu trả lời cho câu hỏi của bạn là không.Xem thêm tại đây .

Một cách để có được sai số chuẩn và khoảng tin cậy cho trung vị trong các mẫu nhỏ có phân phối không bình thường sẽ là bootstrapping. Bài đăng này cung cấp các liên kết đến các gói Python để bootstrapping.

Cảnh báo

@whuber chỉ ra rằng bootstrapping trung vị trong các mẫu nhỏ không có nhiều thông tin vì các biện minh của bootstrap là không có triệu chứng (xem bình luận bên dưới).


cảm ơn câu trả lời của bạn! Tôi biết rằng bootstrapping sẽ là một giải pháp thay thế, tôi chỉ đoán xem có cách nào để đo sai số của trung vị theo một cách khác không. Có phải câu trả lời cũng không cho lỗi tiêu chuẩn trên MEAN (cùng một mẫu không phải là gaussian nhỏ)?
mary

@mary Đối với lỗi tiêu chuẩn của giá trị trung bình, Sokal và Rohl viết rằng nó có thể áp dụng cho "[...] bất kỳ dân số nào có phương sai hữu hạn." Vì vậy, câu trả lời cho lỗi tiêu chuẩn của giá trị trung bình dường như là có, bạn có thể tính toán nó. Sidenote: Có những phân phối mặc dù (ví dụ: phân phối Cauchy) không có phương sai hoặc giá trị trung bình xác định và trong những trường hợp như vậy, SEM không thể được tính toán.
COOLSerdash

5
tt

@whuber Cảm ơn bình luận của bạn. Đó là điều tốt để biết. Tôi đã xóa lời khuyên để bootstrap trung vị trong các mẫu nhỏ từ câu trả lời của tôi.
COOLSerdash

1
Tôi đã không cố gắng đề xuất đó là lời khuyên tồi: tôi chỉ muốn chỉ ra những hạn chế (không thể tránh khỏi) của nó. Học nhiều từ các mẫu nhỏ là khó. Nhưng bootstrapping các mẫu nhỏ là gấp đôi, bởi vì không có lý do biện minh nào cho việc hỗ trợ nó (tất cả các biện minh là không có triệu chứng).
whuber

12

As.Var.[m^]=14f(m)2n
mf(m)

m^ không phải là một việc lớn như vậy, mặc dù bạn có thể bắt đầu đau đớn về các giá trị trung cho các số chẵn các quan sát vs đảo ngược các lũy hoặc một cái gì đó như thế. Giá trị mật độ liên quan có thể được ước tính bằng các công cụ ước tính mật độ hạt nhân , nếu cần. Nhìn chung, điều này tất nhiên là tương đối mơ hồ vì ba phép tính gần đúng đang được thực hiện:

  1. Công thức tiệm cận cho phương sai hoạt động đối với mẫu nhỏ;
  2. Rằng trung bình ước tính là đủ gần với trung vị thực sự;
  3. Công cụ ước tính mật độ hạt nhân cho một giá trị chính xác.

Kích thước mẫu càng thấp, càng đáng ngờ.


3
π21,253314
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.