Độ lệch chuẩn của dữ liệu không âm có thể vượt quá giá trị trung bình không?


15

Tôi có một số lưới 3D hình tam giác. Số liệu thống kê cho các khu vực tam giác là:

  • Tối thiểu 0,000
  • Tối đa 2341.141
  • Trung bình 56.317
  • Std dev 98.720

Vì vậy, nó có nghĩa là bất cứ điều gì đặc biệt hữu ích về độ lệch chuẩn hoặc cho thấy có lỗi trong việc tính toán nó, khi các số liệu hoạt động như trên? Các khu vực chắc chắn là xa phân phối bình thường.

Và như ai đó đã đề cập trong một trong những câu trả lời của họ dưới đây, điều thực sự làm tôi ngạc nhiên là nó chỉ lấy một SD từ giá trị trung bình để các số bị âm và do đó ra khỏi miền hợp pháp.

Cảm ơn


4
Trong tập dữ liệu {2,2,2,202} độ lệch chuẩn mẫu là 100 trong khi giá trị trung bình là 52 - rất gần với những gì bạn quan sát được.
whuber

5
Đối với một ví dụ quen thuộc (với một số), kết quả trung bình của một người chơi blackjack trong một giờ có thể âm 25 đô la nhưng với độ lệch chuẩn là 100 đô la (số để minh họa). Hệ số biến thiên lớn này giúp người khác dễ bị lừa nghĩ rằng họ tốt hơn thực tế.
Michael McGowan

Câu hỏi tiếp theo cũng khá nhiều thông tin: nó đặt giới hạn trên SD của một tập hợp (dữ liệu không âm), với giá trị trung bình.
whuber

Câu trả lời:


9

Không có gì nói rằng độ lệch chuẩn phải nhỏ hơn hoặc nhiều hơn giá trị trung bình. Cho một tập hợp dữ liệu, bạn có thể giữ giá trị trung bình như cũ nhưng thay đổi độ lệch chuẩn thành mức độ tùy ý bằng cách thêm / trừ một số dương một cách thích hợp .

Sử dụng tập dữ liệu mẫu của @ whuber từ nhận xét của anh ấy cho câu hỏi: {2, 2, 2, 202}. Như đã nêu bởi @whuber: giá trị trung bình là 52 và độ lệch chuẩn là 100.

Bây giờ, nhiễu từng phần tử của dữ liệu như sau: {22, 22, 22, 142}. Giá trị trung bình vẫn là 52 nhưng độ lệch chuẩn là 60.


1
Nếu bạn thêm vào từng phần tử, bạn thay đổi tham số vị trí , nghĩa là trung bình. Bạn thay đổi độ phân tán (nghĩa là độ lệch chuẩn) bằng cách nhân với hệ số tỷ lệ (với điều kiện giá trị trung bình của bạn bằng 0).
Dirk Eddelbuettel

@DirkEddelbuettel Bạn đúng. Tôi đã sửa câu trả lời và cung cấp một ví dụ cho rõ ràng.
varty

2
Tôi không làm theo ví dụ. Bộ dữ liệu mới rõ ràng không xuất phát từ bản gốc bằng cách "cộng hoặc trừ một số dương" từ mỗi giá trị ban đầu.
whuber

3
Tôi không thể chỉnh sửa nó vì tôi không biết bạn đang cố nói gì. Nếu bạn có thể tùy ý thêm các giá trị riêng biệt vào từng số trong tập dữ liệu, bạn chỉ đang thay đổi một bộ giá trị thành một bộ n giá trị hoàn toàn khác . Tôi không thấy nó liên quan đến câu hỏi hay thậm chí với đoạn mở đầu của bạn. Tôi nghĩ rằng bất cứ ai cũng cho rằng những thay đổi như vậy có thể thay đổi giá trị trung bình và SD, nhưng điều đó không cho chúng ta biết lý do tại sao SD của một tập hợp dữ liệu không âm có thể là bội số dương của giá trị trung bình. nn
whuber

2
Bạn đã đúng: khẳng định được trích dẫn là của tôi và nó không xuất hiện trong câu trả lời của bạn. (Tuy nhiên, điều này đúng và có liên quan. :-) Một điểm tôi đang cố gắng vượt qua là khả năng thay đổi SD đơn thuần trong khi vẫn giữ nguyên nghĩa không trả lời câu hỏi. SD có thể thay đổi bao nhiêu (trong khi giữ cho tất cả dữ liệu không âm)? Điểm khác tôi đã cố gắng thực hiện là ví dụ của bạn không minh họa một quy trình chung, có thể dự đoán được khi thực hiện các thay đổi như vậy đối với dữ liệu. Điều này làm cho nó xuất hiện tùy ý, không giúp ích nhiều.
whuber

9

Tất nhiên, đây là những thông số độc lập. Bạn có thể đặt các khám phá đơn giản trong R (hoặc một công cụ khác mà bạn có thể thích).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Tương tự, bạn chuẩn hóa dữ liệu bạn đang xem bằng cách trừ giá trị trung bình và chia cho độ lệch chuẩn.

Chỉnh sửa và làm theo ý tưởng của @ whuber, đây là một bộ dữ liệu vô cùng gần với bốn phép đo của bạn:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

Tôi không chắc chắn tôi hiểu quan điểm của bạn. Chúng không hoàn toàn độc lập vì người ta có thể thay đổi giá trị trung bình bằng cách gây nhiễu một điểm dữ liệu và do đó cũng thay đổi độ lệch chuẩn. Có phải tôi đã giải thích sai điều gì không?
varty

Lưu ý rằng các khu vực tam giác không thể âm (như được xác nhận bởi giá trị tối thiểu được trích dẫn trong câu hỏi), người ta sẽ hy vọng vào một ví dụ chỉ bao gồm các số không âm.
whuber

(+1) Chỉnh sửa lại: Hãy thử sử dụng 536 bản sao của 52,15 :-).
whuber

Đẹp một re 536 reps.
Đáng

@Dirk "đây là các tham số độc lập", hãy xem xét trường hợp khi là một bernouilli. phương sai và giá trị trung bình không độc lập: v a r ( X ) = p ( 1 - p ) . Hãy xem xét một biến ngẫu nhiên 100 > X > 0 , tối đa sai có thể là ( 50 ) 2 bây giờ nếu bạn buộc giá trị trung bình được làm bằng một (tức là giảm hơn 50 ) phương sai tối đa không thể lớn hơn 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 . Có nhiều ví dụ về các biến bị ràng buộc trong tự nhiên hơn gaussian? 99/100(1)2+(1/100)992
cướp girard

7

Tôi không chắc tại sao @Andy ngạc nhiên với kết quả này, nhưng tôi biết anh ấy không đơn độc. Tôi cũng không chắc chắn về tính quy phạm của dữ liệu phải làm với thực tế là sd cao hơn giá trị trung bình. Nó khá đơn giản để tạo ra một tập dữ liệu thường được phân phối trong trường hợp này; thật vậy, chuẩn thông thường có giá trị trung bình là 0, sd là 1. Thật khó để có được một tập dữ liệu phân phối bình thường của tất cả các giá trị dương với sd> mean; thật vậy, điều đó không thể xảy ra (nhưng nó phụ thuộc vào cỡ mẫu và thử nghiệm tính quy phạm nào bạn sử dụng ... với một mẫu rất nhỏ, những điều kỳ lạ xảy ra)

Tuy nhiên, một khi bạn loại bỏ quy định về tính quy tắc, như @Andy đã làm, không có lý do gì khiến sd nên lớn hơn hoặc nhỏ hơn giá trị trung bình, ngay cả đối với tất cả các giá trị dương. Một ngoại lệ duy nhất sẽ làm điều này. ví dụ

x <- runif (100, 1, 200) x <- c (x, 2000)

cho giá trị trung bình của 113 và sd là 198 (tất nhiên tùy thuộc vào hạt giống).

Nhưng một câu hỏi lớn hơn là tại sao điều này làm mọi người ngạc nhiên.

Tôi không dạy thống kê, nhưng tôi tự hỏi những gì về cách dạy số liệu thống kê làm cho khái niệm này trở nên phổ biến.


Tôi chưa bao giờ nghiên cứu thống kê, chỉ là một vài đơn vị toán kỹ thuật và đó là ba mươi năm trước. Những người khác tại nơi làm việc, những người mà tôi nghĩ đã hiểu rõ hơn về miền này, đã nói về việc đại diện cho dữ liệu xấu bằng "số lượng nhà phát triển không có ý nghĩa". Vì vậy, đó là về "cách std dev thường được đề cập" hơn là "được dạy" :-)
Andy Dent

@Andy có một số lượng lớn std từ trung bình đơn giản có nghĩa là biến không khác biệt đáng kể so với không. Sau đó, nó phụ thuộc vào bối cảnh (là ý nghĩa của biến ngẫu nhiên) nhưng trong một số trường hợp bạn có thể muốn loại bỏ chúng?
cướp girard

@Peter xem bình luận của tôi cho Dirk, điều này có thể giải thích "sự bất ngờ" trong một số bối cảnh. Thật ra tôi đã dạy thống kê một thời gian và tôi chưa bao giờ thấy sự ngạc nhiên mà bạn đang nói đến. Dù sao, tôi thích học hành mà ngạc nhiên bởi tất cả mọi thứ Tôi khá chắc chắn rằng đây là một vị trí nhận thức luận tốt (tốt hơn là làm mờ vị trí tuyệt đối không có vị trí bất ngờ :)).
cướp girard

@AndyDent dữ liệu "xấu", với tôi, có nghĩa là dữ liệu được ghi lại không chính xác. Dữ liệu xa trung bình là ngoại lệ. Ví dụ: giả sử bạn đang đo chiều cao của mọi người. Nếu bạn đo tôi và ghi lại chiều cao của tôi là 7'5 'thay vì 5'7, đó là dữ liệu xấu. Nếu bạn đo Yao Ming và ghi lại chiều cao của anh ấy là 7'5 ", đó là dữ liệu xa hơn nhưng không phải là xấu. Bất kể thực tế là nó rất xa so với giá trị trung bình (giống như 6 sds)
Peter Flom - Rebstate Monica

@Peter Florn, trong trường hợp của chúng tôi, chúng tôi có các ngoại lệ mà chúng tôi muốn loại bỏ vì chúng đại diện cho các hình tam giác sẽ gây ra các vấn đề thuật toán xử lý lưới. Chúng thậm chí có thể là "dữ liệu xấu" theo nghĩa của bạn nếu chúng được tạo ra bởi các thiết bị quét bị lỗi hoặc chuyển đổi từ các định dạng khác :-) Các hình dạng khác có thể có các ngoại lệ cách xa trung bình nhưng không phải là vấn đề. Một trong những điều thú vị hơn về dữ liệu này là chúng tôi có "dữ liệu xấu" ở cả hai đầu nhưng những dữ liệu nhỏ không ở xa mức trung bình.
Andy Dent

6

Chỉ cần thêm một điểm chung rằng, từ góc độ tính toán, x 2 f ( x ) d x có liên quan bởi bất đẳng thức của Jensen , giả sử cả hai tích phân tồn tại, x 2 f ( x ) d x { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Với sự bất bình đẳng chung này, không có gì ngăn cản phương sai trở nên lớn tùy ý. Chứng kiếnphân phối t của Studentvới ν bậc tự do, X ~ T ( ν , μ , σ ) và chịu Y = | X | có khoảnh khắc thứ hai giống với khoảnh khắc thứ hai của X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X khiν>2. Vì vậy, nó đi đến vô cùng khiνgiảm xuống2, trong khi giá trị trung bình củaYvẫn hữu hạn miễn làν>1.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
Xin lưu ý hạn chế rõ ràng đối với các giá trị không âm trong câu hỏi.
whuber

Ví dụ về Sinh viên dễ dàng được dịch thành ví dụ phân phối giá trị tuyệt đối của sinh viên ...
Xi'an

1
Nhưng điều đó thay đổi ý nghĩa, tất nhiên :-). Câu hỏi liên quan đến mối quan hệ giữa SD và giá trị trung bình (xem tiêu đề của nó). Tôi không nói bạn sai; Tôi chỉ (ngầm) đề nghị rằng câu trả lời của bạn có thể, với rất ít công việc, trực tiếp giải quyết câu hỏi hơn.
whuber

@whuber: ok, tôi đã chỉnh sửa phần trên để xem xét giá trị tuyệt đối (Tôi cũng lấy được giá trị trung bình của giá trị tuyệt đối nhưng <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> nó khá vô duyên </ a> ...)
Tây An

3

Có lẽ OP rất ngạc nhiên khi giá trị trung bình - 1 SD là số âm (đặc biệt là mức tối thiểu là 0).

Đây là hai ví dụ có thể làm rõ.

Giả sử bạn có một lớp gồm 20 học sinh lớp một, trong đó 18 là 6 tuổi, 1 là 5 và 1 là 7. Bây giờ hãy thêm vào giáo viên 49 tuổi. Độ tuổi trung bình là 8,0, trong khi độ lệch chuẩn là 9,402.

Bạn có thể nghĩ: một phạm vi độ lệch chuẩn cho lớp này dao động từ -1,40 đến 17,42 năm. Bạn có thể ngạc nhiên rằng SD bao gồm một độ tuổi tiêu cực, điều này có vẻ không hợp lý.

Bạn không phải lo lắng về độ tuổi âm (hoặc các ô 3D kéo dài dưới mức tối thiểu 0,0). Theo trực giác, bạn vẫn có khoảng hai phần ba dữ liệu trong vòng 1 SD của giá trị trung bình. (Bạn thực sự có 95% dữ liệu trong vòng 2 SD trung bình.)

Khi dữ liệu có phân phối không bình thường, bạn sẽ thấy kết quả đáng ngạc nhiên như thế này.

Ví dụ thứ hai. Trong cuốn sách của mình, Fooled by Randomness , Nassim Taleb thiết lập thí nghiệm tư tưởng về một cung thủ bịt mắt bắn vào một bức tường có chiều dài không rõ ràng. Cung thủ có thể bắn trong khoảng từ +90 độ đến -90 độ.

Thỉnh thoảng, cung thủ sẽ bắn mũi tên song song vào tường, và nó sẽ không bao giờ bắn trúng. Xem xét khoảng cách mũi tên bỏ lỡ mục tiêu là phân phối số. Độ lệch chuẩn cho kịch bản này sẽ là không rõ ràng.


Quy tắc khoảng 2/3 dữ liệu trong vòng 1 SD của giá trị trung bình là cho dữ liệu bình thường. Nhưng dữ liệu lớp học rõ ràng là không bình thường (ngay cả khi nó vượt qua một số bài kiểm tra về tính quy tắc vì kích thước mẫu nhỏ). Ví dụ của Taleb là khủng khiếp. Đó là một ví dụ về hoạt động kém của một biến. Được thực hiện, cả giá trị trung bình và SD sẽ là vô hạn. Nhưng điều đó thật vô nghĩa. "Mũi tên nhớ bao xa" - với tôi, đó là một khoảng cách. Mũi tên, bất kể nó được bắn như thế nào, sẽ hạ cánh ở đâu đó. Đo khoảng cách từ đó đến mục tiêu. Không còn vô cùng.
Peter Flom - Tái lập Monica

1
Đúng vậy, OP đã rất ngạc nhiên khi lần đầu tiên tôi thấy có ý nghĩa - 1 SD đã âm tính rằng tôi đã viết một bộ thử nghiệm đơn vị hoàn toàn mới bằng cách sử dụng dữ liệu từ Excel để xác nhận ít nhất thuật toán của tôi đang tính các giá trị tương tự. Bởi vì Excel chỉ phải là một nguồn có thẩm quyền, phải không?
Andy Dent

@Peter Quy tắc 2/3 (một phần của quy tắc 68-95-99,7%) phù hợp với rất nhiều bộ dữ liệu, nhiều trong số chúng không bình thường và thậm chí cho những người bị lệch vừa phải. (Quy tắc này khá tốt đối với các detsets đối xứng.) Tính không chính xác của SD và giá trị trung bình không "vô nghĩa". Ví dụ của Taleb là một trong số ít các tình huống không xảy ra khi phân phối Cauchy chi phối rõ ràng quá trình tạo dữ liệu. Sự vô hạn của SD không xuất phát từ khả năng bỏ lỡ bức tường mà từ việc phân phối các lượt truy cập thực tế.
whuber

1
@whuber Tôi đã nhận ra điểm đầu tiên của bạn, đó là một điểm tốt. Tôi không đồng ý về điểm thứ hai của bạn là Taleb. Dường như với tôi như một ví dụ khác.
Peter Flom - Tái lập Monica

3

X

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
α,β>0m>0s>0m>sm<sα=m2/s2β=m/s2XE[X]=α/β=mVar[X]=α/β2=sXmsRm>sm<s
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.