Tại sao có nghĩa là có xu hướng ổn định hơn trong các mẫu khác nhau so với trung bình?


22

Mục 1.7.2 của Khám phá thống kê sử dụng R của Andy Fields, et all, trong khi liệt kê một ưu điểm của trung bình so với trung bình, nêu rõ:

... Giá trị trung bình có xu hướng ổn định trong các mẫu khác nhau.

Điều này sau khi giải thích nhiều đức tính trung bình, vd

... Trung vị tương đối không bị ảnh hưởng bởi các điểm cực trị ở hai đầu phân phối ...

Cho rằng trung vị tương đối không bị ảnh hưởng bởi các điểm số cực đoan, tôi đã nghĩ rằng nó sẽ ổn định hơn trên các mẫu. Vì vậy, tôi đã bối rối bởi khẳng định của tác giả. Để xác nhận tôi đã chạy một mô phỏng - Tôi đã tạo ra các số ngẫu nhiên 1M và lấy mẫu 100 số 1000 lần và tính trung bình và trung bình của từng mẫu và sau đó tính sd của các phương tiện và trung bình mẫu đó.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Như bạn có thể thấy các phương tiện được phân phối chặt chẽ hơn so với trung bình.

nhập mô tả hình ảnh ở đây

Trong hình ảnh đính kèm, biểu đồ màu đỏ là dành cho trung bình - như bạn có thể thấy nó thấp hơn và có đuôi béo hơn cũng xác nhận khẳng định của tác giả.

Mặc dù vậy, tôi rất bối rối vì điều này! Làm thế nào có thể trung bình ổn định hơn có xu hướng cuối cùng thay đổi nhiều hơn giữa các mẫu? Có vẻ nghịch lý! Bất kỳ hiểu biết sẽ được đánh giá cao.


1
Vâng, nhưng hãy thử nó bằng cách lấy mẫu từ num <- rt (n = 10 ** 6, 1.1). Phân phối t1.1 đó sẽ cung cấp một loạt các giá trị cực trị, không nhất thiết phải cân bằng giữa tích cực và tiêu cực (cũng giống như cơ hội nhận được một giá trị cực dương khác như một giá trị cực âm để cân bằng), điều đó sẽ gây ra một phương sai khổng lồ trong . Đây là những gì lá chắn trung bình chống lại. Phân phối bình thường không có khả năng đưa ra bất kỳ giá trị đặc biệt cực đoan nào để mở rộng phân phối rộng hơn trung vị. ˉ xx¯x¯
Dave

10
Tuyên bố của tác giả nói chung là không đúng sự thật. (Chúng tôi đã nhận được nhiều câu hỏi ở đây liên quan đến lỗi trong sách của tác giả này, vì vậy đây không phải là một điều ngạc nhiên.) Các mẫu phản biện tiêu chuẩn được tìm thấy trong số "phân phối ổn định" , trong đó ý nghĩa là bất cứ thứ gì ngoài "ổn định" (theo bất kỳ ý nghĩa hợp lý nào của thuật ngữ) và trung vị ổn định hơn nhiều.
whuber

1
"... giá trị trung bình có xu hướng ổn định trong các mẫu khác nhau." là một tuyên bố vô nghĩa. "ổn định" không được xác định rõ. Giá trị trung bình (mẫu) thực sự khá ổn định trong một mẫu đơn vì đây là số lượng không có giá trị. Nếu dữ liệu là "không ổn định" (biến cao?) Thì có nghĩa là "không ổn định".
AdamO

1
Câu hỏi này có khả năng được trả lời bằng các phân tích chi tiết được cung cấp tại stats.stackexchange.com/questions/7307 , trong đó câu hỏi tương tự được hỏi theo một cách cụ thể (trong đó ý nghĩa của "ổn định" được xác định rõ).
whuber

2
Hãy thử thay thế rnormbằng rcauchy.
Tháp Eric

Câu trả lời:


3

Trung vị rất mạnh đối với các ngoại lệ, nhưng rất dễ bị nhiễu. Nếu bạn giới thiệu một lượng nhiễu nhỏ cho mỗi điểm, nó sẽ đi vào dải phân cách không bị suy giảm miễn là tiếng ồn đủ nhỏ để không thay đổi thứ tự tương đối của các điểm. Đối với ý nghĩa đó là cách khác xung quanh. Tiếng ồn được tính trung bình, nhưng một ngoại lệ duy nhất có thể thay đổi giá trị trung bình tùy ý.

Thử nghiệm của bạn chủ yếu đo độ mạnh đối với tiếng ồn, nhưng bạn có thể dễ dàng tạo ra một nơi mà trung vị hoạt động tốt hơn. Nếu bạn muốn một công cụ ước tính mạnh mẽ cho cả ngoại lệ và tiếng ồn, chỉ cần vứt bỏ thứ ba trên cùng và dưới cùng và trung bình phần còn lại.


Có một tên cụ thể hơn cho thuật toán này hơn " ý nghĩa cắt giảm 33% " không?
David Cary

25

Như @whuber và những người khác đã nói, nói chung là không đúng sự thật. Và nếu bạn sẵn sàng trở nên trực quan hơn - tôi không thể theo kịp các chuyên viên toán học sâu ở đây - bạn có thể xem xét các cách khác có nghĩa là trung bình có ổn định hay không. Đối với những ví dụ này, giả sử một số điểm lẻ để tôi có thể giữ cho các mô tả của mình nhất quán và đơn giản.

  1. Hãy tưởng tượng bạn đã trải đều các điểm trên một dòng số. Bây giờ hãy tưởng tượng bạn lấy tất cả các điểm trên giữa và di chuyển chúng lên gấp 10 lần giá trị của chúng. Trung vị không thay đổi, giá trị trung bình di chuyển đáng kể. Vì vậy, trung vị có vẻ ổn định hơn.

  2. Bây giờ hãy tưởng tượng những điểm này khá dàn trải. Di chuyển điểm trung tâm lên và xuống. Một di chuyển một đơn vị thay đổi trung bình bởi một, nhưng hầu như không di chuyển trung bình. Trung vị bây giờ có vẻ kém ổn định hơn và nhạy cảm hơn với các chuyển động nhỏ của một điểm duy nhất.

  3. Bây giờ hãy tưởng tượng lấy điểm cao nhất và di chuyển nó trơn tru từ điểm cao nhất đến điểm thấp nhất. Các trung bình cũng sẽ di chuyển trơn tru. Nhưng trung vị sẽ không di chuyển liên tục: nó sẽ không di chuyển chút nào cho đến khi điểm cao của bạn thấp hơn điểm trung bình trước đó, sau đó nó bắt đầu đi theo điểm cho đến khi nó xuống dưới điểm tiếp theo, sau đó điểm trung bình sẽ bám vào điểm đó và một lần nữa không Sẽ không di chuyển khi bạn tiếp tục di chuyển điểm của bạn xuống dưới. [Đã chỉnh sửa mỗi bình luận]

Vì vậy, các biến đổi khác nhau của các điểm của bạn làm cho trung bình hoặc trung bình trông kém mịn màng hoặc ổn định trong một số ý nghĩa. Những người nghiện toán học nặng ở đây đã chỉ cho bạn các bản phân phối mà bạn có thể lấy mẫu, từ đó phù hợp hơn với thử nghiệm của bạn, nhưng hy vọng rằng trực giác này cũng có ích.


1
Về mục 3: Không phải trung vị cũng sẽ di chuyển trơn tru? Nói tập hợp điểm ban đầu là [1, 3, 5, 7, 9]. Ban đầu là trung vị là 5. Đó sẽ vẫn là trung vị cho đến khi điểm thứ năm (ban đầu 9) giảm xuống dưới 5, tại thời điểm đó, trung vị sẽ thuận lợi theo điểm thứ năm khi nó giảm, cho đến khi nó chạm vào 3, tại đó điểm trung vị sẽ ở lại 3. Vì vậy, mặc dù điểm xác định trung vị là "nhảy" (từ điểm thứ ba, đến điểm thứ năm, đến điểm thứ hai), giá trị thực của trung vị không có bước nhảy / gián đoạn.
Scott M

@ScottM Bạn có vẻ đúng. Không chắc chắn tại sao tôi nghĩ rằng nó sẽ nhảy. Tôi sẽ điều chỉnh lại khi có cơ hội.
Wayne

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR. Phương sai tiệm cận của trung bình mẫu và trung bình mẫu được đưa ra tương ứng bởi:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

Do đó, chúng tôi có:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


Tuyệt vời! Cảm ơn.
Alok Lal

4

Nhận xét: Chỉ để lặp lại mô phỏng của bạn, sử dụng phân phối mà SD của phương tiện và trung vị có kết quả ngược lại:

Cụ thể, numsbây giờ là từ một phân phối Laplace (còn được gọi là 'số mũ gấp đôi'), có thể được mô phỏng như sự khác biệt của hai phân phối mũ với cùng một tỷ lệ (ở đây là tỷ lệ mặc định 1). [Có lẽ xem Wikipedia về phân phối Laplace.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

nhập mô tả hình ảnh ở đây

Lưu ý: Một khả năng dễ dàng khác, được đề cập rõ ràng trong liên kết của @ whuber, là Cauchy, có thể được mô phỏng như phân phối của Sinh viên với một mức độ tự do , rt(10^6, 1). Tuy nhiên, đuôi của nó nặng đến nỗi tạo ra một biểu đồ đẹp là vấn đề.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.