Phương sai của trọng số trung bình lớn hơn trung bình không trọng số


8

Một nhà phê bình của tôi đang hỏi lý do tại sao tôi đã sử dụng dữ liệu không trọng số, thay vì dữ liệu có trọng số. Tôi đã thảo luận vấn đề với một nhà thống kê và phản ứng của anh ấy là dọc theo dòng

Nếu bạn có các quan sát độc lập và bạn lấy trung bình tổng thể, phương sai của nó luôn nhỏ hơn phương sai từ trung bình có trọng số như công cụ ước tính. ... Vì vậy, khoảng tin cậy sẽ được mở rộng!

Kể từ đó, tôi đã tìm thấy câu hỏi sau đây trên trang web này và theo hiểu biết của tôi, họ đề xuất rằng phương sai nên giống nhau. Vì vậy, ai đó có thể, xin vui lòng, với một tâm trí có năng khiếu thống kê hơn tôi, xin vui lòng xác nhận phản hồi từ nhà thống kê và giải thích bằng thuật ngữ giáo dân, hoặc với một ví dụ làm việc.


Nếu "trọng số" trên thực tế là tần số quan sát hoặc dân số, thì chúng phải được sử dụng, vì các số không có trọng số là vô nghĩa. Câu nói của nhà thống kê của bạn có thể đúng với dân số có phân phối không chính thống, mặc dù nói chung nó không đúng.
Henry

Nó sẽ đủ dễ dàng để cung cấp một ví dụ hoạt động với nhiều bối cảnh hơn. Các trọng lượng đại diện cho những gì? Bạn đang nói về phương sai của mẫu có nghĩa là gì? Là các mẫu từ một dân số hữu hạn? Có hay không thay thế?
Henry

Hãy nói rằng chúng tôi đã thu thập một loạt các phép đo nhịp tim từ một mẫu người trong bệnh viện. Sau đó, một yếu tố trọng số có thể được áp dụng cho từng cá nhân để chia tỷ lệ các phép đo để phản ánh ước tính quốc gia hoặc dân số - bằng cách so sánh một loạt các yếu tố gây nhiễu (ví dụ: tuổi, chiều cao, cân nặng, v.v.).
user08041991

Câu hỏi mà bạn liên kết là về trọng số tần số. Có phải đó là những gì bạn có?
mdewey

2
Giá trị trung bình của giá trị là giá trị trung bình có trọng số với trọng số . Khi độc lập, các quy tắc phương sai cơ bản ngụ ý Khi thêm đều có cùng phương sai , điều này đơn giản hóa thành lần . Vì các trọng số là dương và tổng hợp với nhau, được giảm thiểu khi . Theo nghĩa này, nhà thống kê là chính xác.x i ˉ x = i w i x i w i = 1 / n x i Var ( ˉ x ) = i w 2 i Var ( x i ) . x i σ 2 Σ w 2 i σ 2 ( 1 ) w i = 1 / n x inxix¯=iwixiwi=1/nxi
(1)Var(x¯)=iwi2Var(xi).
xiσ2wi2σ2(1)wi=1/nKết luận chung này không phụ thuộc vào bất kỳ thuộc tính nào khác của phân phối , chẳng hạn như tính không đồng nhất. xi
whuber

Câu trả lời:


5

Câu hỏi được liên kết của bạn là giải quyết việc sử dụng trọng số như một lối tắt để xử lý trọng số bằng nhau cho mỗi phương sai điểm dữ liệu trong đó một số điểm dữ liệu xảy ra nhiều lần.

@whuber đã giải quyết trong một bình luận về tình huống trong đó phương sai của tất cả các điểm dữ liệu là bằng nhau. Vì vậy, tôi sẽ giải quyết tình huống mà họ không bằng nhau. Trong tình huống này, giá trị trung bình có trọng số tối ưu tạo ra phương sai thấp hơn giá trị trung bình không có trọng số, nghĩa là có trọng số tương đương.

Giá trị trung bình có trọng số, sử dụng trọng số , bằng và có phương sai = . Vì vậy, chúng tôi muốn giảm thiểu , tuân theo và cho tất cả i.wiΣi=1nwixiΣi=1nwi2Var(xi)Σi=1nwi2Var(xi)Σi=1nwi=1wi0

Các điều kiện Karush-Kuhn-Tucker, cần thiết và đủ cho mức tối thiểu toàn cầu cho vấn đề này, do đó là một vấn đề Lập trình bậc hai lồi, dẫn đến một giải pháp dạng đóng, cụ thể là:

ưu cho 1 = 1 .. n.wi=[1/Var(xi)]/Σj=1n[1/Var(xj)]

Phương sai của giá trị trung bình tối ưu tương ứng = .1/Σi=1n[1/Var(xi)]

Ngược lại, trọng số bằng nhau có nghĩa là cho tất cả i, trong đó n là số điểm dữ liệu. Như được chỉ ra bởi whuber, các trọng số bằng nhau là tối ưu nếu tất cả các phương sai điểm dữ liệu đều bằng nhau, có thể được nhìn thấy từ công thức trên cho tối ưu . Tuy nhiên, theo công thức đó, trọng số bằng nhau không tối ưu nếu phương sai điểm dữ liệu không bằng nhau và thực sự dẫn đến phương sai lớn hơn (trung bình có trọng số) so với trọng số tối ưu. Phương sai của giá trị trung bình có trọng số bằng nhau, nghĩa là phương sai của trung bình có trọng số sử dụng trọng số bằng nhau = .wi=1nwi1n2Σi=1nVar(xi)

Dưới đây là một số ví dụ kết quả số:

  1. Có hai điểm dữ liệu, có phương sai tương ứng là 1 và 4. Giá trị trung bình không có trọng số có phương sai = 1,25. Giá trị trung bình có trọng số sử dụng các trọng số tối ưu tương ứng là 0,8 và 0,2, có phương sai = 0,8, tất nhiên là nhỏ hơn 1,25.
  2. Có ba điểm dữ liệu, có phương sai tương ứng là 1, 4 và 9. Giá trị trung bình không có trọng số có phương sai = 1.5556. Giá trị trung bình có trọng số sử dụng các trọng số tối ưu tương ứng là 0,7347, 0,1837, 0,0816, có phương sai = 0,7347, tất nhiên là nhỏ hơn 1,55556.

Tất nhiên, có nghĩa là trung bình có trọng số có phương sai lớn hơn trung bình không trọng số, nếu các trọng số được chọn theo cách kém. Bằng cách chọn trọng số 1 trên điểm dữ liệu có phương sai lớn nhất và 0 cho tất cả các điểm dữ liệu khác, giá trị trung bình có trọng số sẽ có phương sai = phương sai lớn nhất của bất kỳ điểm dữ liệu nào. Ví dụ cực đoan này sẽ là kết quả của việc tối đa hóa thay vì giảm thiểu trong vấn đề tối ưu hóa mà tôi đặt ra.


Tôi bối rối về việc bạn tham khảo các điểm dữ liệu riêng lẻ có phương sai (ví dụ: có hai điểm dữ liệu, có phương sai tương ứng là 1 và 4), bạn có thể giải thích không?
edstatsuser

Nói điểm dữ liệu có một phương sai cụ thể là viết tắt để nói rằng được rút ra từ một quần thể (biến ngẫu nhiên) có phương sai đó. Vì vậy, các điểm dữ liệu khác nhau có thể được rút ra từ các quần thể khác nhau, bởi vì điều này không được coi là lấy mẫu iid. xixi
Mark L. Stone

0

Dưới đây là một ví dụ đơn giản sử dụng và dạng phương sai:1ni(xi1njxj)21kwkiwi(xi1kwkjwjxj)2

Giả sử dân số của bạn có số đo .20,30,40,50

  • Không có trọng số trung bình là và phương sai là35125
  • Với các trọng số tương ứng , trung bình có trọng số là và phương sai trọng số là36 841000,4000,3000,20003684
  • Với các trọng số tương ứng , trung bình có trọng số là và phương sai trọng số là36 1643000,2000,1000,400036164

Ví dụ này phù hợp với nhận xét của tôi rằng trích dẫn của nhà thống kê của bạn có thể đúng với dân số có phân phối không chính thống, mặc dù nói chung không cần phải đúng.

Tôi cho rằng vấn đề là nếu bạn đang trích dẫn trung bình có trọng số, có lẽ bạn nên liên kết nó với phương sai trọng số. Nếu trên thực tế, giá trị trung bình của bạn là kết quả của mẫu, thì sai số chuẩn của giá trị trung bình của mẫu có trọng số là một phép tính phức tạp hơn.


Câu trả lời này dường như nhầm lẫn phương sai của một mẫu (hoặc dân số hữu hạn) với phương sai của phân phối mẫu của giá trị trung bình (hoặc trung bình có trọng số). Do đó, nó bao gồm các tuyên bố dường như không đúng sự thật và có thể gây hiểu nhầm.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.