Chắc chắn giá trị trung bình cộng với một sd có thể vượt quá mức quan sát lớn nhất.
Xem xét mẫu 1, 5, 5, 5 -
nó có nghĩa là 4 và độ lệch chuẩn 2, vì vậy giá trị trung bình + sd là 6, nhiều hơn một mức tối đa của mẫu. Đây là phép tính trong R:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
Đó là một sự xuất hiện phổ biến. Nó có xu hướng xảy ra khi có một loạt các giá trị cao và đuôi ở bên trái (nghĩa là khi có độ lệch trái mạnh và cực đại gần cực đại).
-
Khả năng tương tự áp dụng cho phân phối xác suất, không chỉ các mẫu - trung bình dân số cộng với sd dân số có thể dễ dàng vượt quá giá trị tối đa có thể.
Đây là một ví dụ về mật độ, có giá trị tối đa có thể là 1:beta(10,12)
Trong trường hợp này, chúng ta có thể xem trang Wikipedia để phân phối beta, trong đó nói rằng giá trị trung bình là:
E[X]=αα+β
và phương sai là:
var[X]=αβ(α+β)2(α+β+1)
(Mặc dù chúng tôi không cần phải dựa vào Wikipedia, vì chúng khá dễ để lấy được.)
Vậy với giá trị và β = 1α=10 chúng tôi có nghĩa là≈0,9523và sd≈0,0628, vì vậy trung bình + sd≈1,0152, nhiều hơn tối đa có thể trong tổng số 1.β=12≈0.9523≈0.0628≈1.0152
Đó là, có thể dễ dàng có giá trị trung bình + sd mà không thể được coi là giá trị dữ liệu .
-
Đối với mọi tình huống ở chế độ tối đa, độ lệch của chế độ Pearson chỉ cần là cho trung bình + sd để vượt quá mức tối đa. Nó có thể nhận bất kỳ giá trị nào, tích cực hoặc tiêu cực, vì vậy chúng ta có thể thấy nó dễ dàng có thể.<−1
-
Một vấn đề liên quan chặt chẽ thường được nhìn thấy với các khoảng tin cậy cho tỷ lệ nhị thức , trong đó một khoảng thường được sử dụng, khoảng xấp xỉ bình thường có thể tạo ra các giới hạn bên ngoài .[0,1]
Ví dụ, hãy xem xét khoảng xấp xỉ bình thường 95,4% cho tỷ lệ dân số thành công trong các thử nghiệm Bernoulli (kết quả là 1 hoặc 0 tương ứng với các sự kiện thành công và thất bại), trong đó 3 trong 4 quan sát là " " và một quan sát là " 0 ".10
Sau đó, giới hạn trên cho khoảng là p + 2 × √p^+2×14p^(1−p^)−−−−−−−−−√=p^+p^(1−p^)−−−−−−−√=0.75+0.433=1.183
Đây chỉ là giá trị trung bình mẫu + ước tính thông thường của sd cho nhị thức ... và tạo ra một giá trị không thể.
Các sd mẫu thông thường cho 0,1,1,1 là 0,5 chứ không phải là 0,433 (chúng khác nhau bởi vì ML dự toán nhị thức của độ lệch chuẩn p ( 1 - p ) tương ứng với cách chia đúng bởi n hơn là n - 1 ) . Nhưng nó không có sự khác biệt - trong cả hai trường hợp, mean + sd vượt quá tỷ lệ lớn nhất có thể.p^(1−p^)nn−1
Thực tế này - rằng một khoảng xấp xỉ bình thường cho nhị thức có thể tạo ra "các giá trị không thể" thường được ghi chú trong sách và giấy tờ. Tuy nhiên, bạn không xử lý dữ liệu nhị thức. Tuy nhiên, vấn đề - có nghĩa là + một số độ lệch chuẩn không phải là giá trị có thể - là tương tự.
-
Trong trường hợp của bạn, giá trị "0" bất thường trong mẫu của bạn đang làm cho sd lớn hơn giá trị trung bình giảm, đó là lý do tại sao giá trị trung bình + sd cao.
-
(Câu hỏi thay vào đó là - bằng lý do gì sẽ là không thể? - bởi vì không biết tại sao mọi người sẽ nghĩ rằng có vấn đề gì cả, chúng ta sẽ giải quyết vấn đề gì?)
Tất nhiên, về mặt logic, người ta chứng minh điều đó là có thể bằng cách đưa ra một ví dụ về nơi nó xảy ra. Bạn đã làm điều đó rồi. Trong trường hợp không có một lý do đã nêu tại sao nó phải khác, bạn phải làm gì?
Nếu một ví dụ không đủ, bằng chứng nào sẽ được chấp nhận?
Thực sự không có điểm nào chỉ đơn giản là chỉ vào một tuyên bố trong một cuốn sách, vì bất kỳ cuốn sách nào cũng có thể khiến một tuyên bố bị lỗi - tôi luôn thấy chúng. Người ta phải dựa vào chứng minh trực tiếp rằng có thể, bằng chứng về đại số (người ta có thể xây dựng từ ví dụ beta ở trên chẳng hạn *) hoặc bằng ví dụ số (mà bạn đã đưa ra), mà bất cứ ai cũng có thể tự kiểm tra sự thật .
* whuber đưa ra các điều kiện chính xác cho trường hợp beta trong các bình luận.