Giá trị tối đa của hệ số biến đổi cho tập dữ liệu giới hạn


17

Trong cuộc thảo luận sau một câu hỏi gần đây về việc độ lệch chuẩn có thể vượt quá giá trị trung bình hay không, một câu hỏi đã được nêu ra một cách ngắn gọn nhưng không bao giờ được trả lời đầy đủ. Vì vậy, tôi đang yêu cầu nó ở đây.

Hãy xem xét một tập hợp số không âm trong đó cho . Không yêu cầu phải khác biệt, nghĩa là, tập hợp có thể là nhiều trang. Giá trị trung bình và phương sai của tập hợp được xác định là và độ lệch chuẩn là . Lưu ý rằng tập hợp các số không phải là một mẫu từ dân số và chúng tôi không ước tính trung bình dân số hoặc phương sai dân số. Câu hỏi sau đó là:nxi0xic1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx

Giá trị tối đa của , hệ số biến đổi, trên tất cả các lựa chọn của trong khoảng gì? xi[0,c]σxx¯xi[0,c]

Giá trị tối đa mà tôi có thể tìm thấy cho là đạt được khi của có giá trị và còn lại (ngoại lệ) x_i có giá trị c , cho \ bar {x} = \ frac {c} {n}, ~ ~ \ frac {1} {n} \ sum x_i ^ 2 = \ frac {c ^ 2} {n} \ Rightarrow \ sigma_x = \ sqrt {\ frac {c ^ 2} {n} - \ frac {c ^ 2} {n ^ 2}} = \ frac {c} {n} \ sqrt {n-1}. Nhưng điều này hoàn toàn không phụ thuộc vào c , và tôi tự hỏi liệu những giá trị lớn hơn, có thể phụ thuộc vào cả nc , có thể đạt được hay không.σxx¯ n-1xi0xic ˉ x = cn1n1xi0xiccnc

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
cnc

Có ý kiến ​​gì không? Tôi chắc chắn rằng câu hỏi này đã được nghiên cứu trong tài liệu thống kê trước đây, và vì vậy các tài liệu tham khảo, nếu không phải là kết quả thực tế, sẽ được đánh giá cao.


Tôi nghĩ rằng bạn đúng về việc đó là giá trị lớn nhất có thể, và tôi cũng ngạc nhiên rằng c không quan trọng. Mát mẻ.
Peter Flom - Tái lập Monica

7
c không nên ảnh hưởng đến kết quả vì σxx¯ không thay đổi nếu tất cả các giá trị được nhân với bất kỳ hằng số dương k .
Henry

Câu trả lời:


15

Hình học cung cấp cái nhìn sâu sắc và bất bình đẳng cổ điển có khả năng dễ dàng truy cập vào sự nghiêm ngặt.

Giải pháp hình học

Chúng ta biết, từ hình học của các hình vuông nhỏ nhất , là hình chiếu trực giao của vectơ của dữ liệu trên không gian con tuyến tính được tạo bởi vectơ không đổi và tỷ lệ thuận với khoảng cách (Euclide) giữa và Các ràng buộc không âm là tuyến tính và khoảng cách là một hàm lồi, từ đó các cực trị của khoảng cách phải đạt được tại các cạnh của hình nón được xác định bởi các ràng buộc. Hình nón này là phần chỉnh hình dương trongx=(x1,x2,...,xn)(1,1,...,1)σxx¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxˉ x . R n x i σ x / ˉ x = xx¯.Rnvà các cạnh của nó là các trục tọa độ, từ đó ngay lập tức theo sau tất cả ngoại trừ một trong các phải bằng 0 ở khoảng cách tối đa. Đối với một tập hợp dữ liệu như vậy, phép tính trực tiếp (đơn giản) hiển thịxiσx/x¯=n.

Giải pháp khai thác bất đẳng thức cổ điển

σx/x¯ được tối ưu hóa đồng thời với mọi chuyển đổi đơn điệu của chúng. Trước điều này, hãy tối đa hóa

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(Công thức cho có thể trông bí ẩn cho đến khi bạn nhận ra nó chỉ ghi lại các bước người ta sẽ thực hiện khi thao tác đại số để đưa nó vào một hình thức đơn giản, đó là phía bên tay trái.)σ x / ˉ xfσx/x¯

Một cách dễ dàng bắt đầu với Bất bình đẳng của Chủ sở hữu ,

x12+x22++xn2(x1+x2++xn)max({xi}).

(Điều này không cần bằng chứng đặc biệt trong ngữ cảnh đơn giản này: chỉ thay thế một yếu tố của mỗi thuật ngữ bằng thành phần tối đa : rõ ràng tổng bình phương sẽ không giảm. ra thuật ngữ chung mang lại phía bên phải của bất đẳng thức.) max ( { x i } ) tối đa ( { x i } )xi2=xi×ximax({xi})max({xi})

Vì không phải là tất cả (sẽ không để lại ), nên chia cho bình phương tổng của chúng là hợp lệ và cho bất đẳng thức tương đương 0 σ x / ˉ xxi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

Bởi vì mẫu số không thể nhỏ hơn tử số (bản thân nó chỉ là một trong các số hạng trong mẫu số), phía bên phải bị chi phối bởi giá trị , chỉ đạt được khi tất cả trừ một trong số bằng . Từ đâux i 01xi0

σxx¯f1(1)=(1×(n1))nn1=n.

Cách tiếp cận khác

Vì là không âm và không thể tổng bằng , nên các giá trị xác định phân phối xác suất trên . Viết cho tổng của , chúng tôi nhận ra 0 p ( i ) = x i /xi0F { 1 , 2 , ... , n } s x ip(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

Thực tế tiên đề rằng không có xác suất nào có thể vượt quá ngụ ý kỳ vọng này cũng không thể vượt quá , nhưng thật dễ dàng để làm cho nó bằng bằng cách đặt tất cả trừ một trong số bằng và do đó chính xác một trong số là khác không. Tính hệ số biến thiên như trong dòng cuối cùng của giải pháp hình học ở trên.1 1 p i 0 x i111pi0xi


Cảm ơn cho một câu trả lời chi tiết từ đó tôi đã học được rất nhiều! Tôi giả sử rằng sự khác biệt giữa trong câu trả lời của bạn và mà tôi đã nhận được (và Henry đã xác nhận) là do thực tế là bạn đang sử dụng như định nghĩa của trong khi tôi đã sử dụngn σx=n1σxσx=
σx=1n1i=1n(xix¯)2
σx
σx=1ni=1n(xix¯)2?
Dilip Sarwate

1
Vâng Dilip, đúng vậy. Xin lỗi về sự khác biệt với câu hỏi; Tôi nên kiểm tra trước và tôi nên xác định (mà tôi dự định làm nhưng quên). σx
whuber

10

Một số tài liệu tham khảo, như những ngọn nến nhỏ trên bánh của những người khác:

Katsnelson và Kotz (1957) đã chứng minh rằng miễn là tất cả , thì hệ số biến đổi không thể vượt quá . Kết quả này đã được đề cập trước đó bởi Longley (1952). Cramér (1946, tr.357) đã chứng minh một kết quả kém sắc nét hơn và Kirby (1974) đã chứng minh một kết quả kém chung hơn.xi0n1

Cramér, H. 1946. Phương pháp toán học thống kê . Princeton, NJ: Nhà xuất bản Đại học Princeton.

Katsnelson, J. và S. Kotz. Năm 1957. Về giới hạn trên của một số biện pháp biến đổi. Archiv für Meteorologie, Geophysik und Bioklimatologie , Series B 8: 103 Hang107.

Kirby, W. 1974. Giới hạn đại số của thống kê mẫu. Nghiên cứu tài nguyên nước 10: 220

Longley, RW 1952. Các biện pháp về sự thay đổi của lượng mưa. Đánh giá thời tiết hàng tháng 80: 111 từ 117.

Tôi đã xem qua các giấy tờ này khi làm việc

Cox, NJ 2010. Giới hạn của độ lệch mẫu và kurtosis. Tạp chí Stata 10: 482-495.

trong đó thảo luận về các giới hạn tương tự rộng rãi về độ lệch và kurtosis dựa trên khoảnh khắc.


8

Với hai số , một số và bất kỳ :xixjδ>0μ

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Áp dụng điều này cho datapoint không âm, điều này có nghĩa là trừ khi tất cả trừ một trong số số bằng 0 và do đó không thể giảm thêm nữa, có thể tăng phương sai và độ lệch chuẩn bằng cách mở rộng khoảng cách giữa bất kỳ cặp điểm dữ liệu nào trong khi vẫn giữ nguyên giá trị trung bình, do đó làm tăng hệ số biến đổi. Vì vậy, hệ số biến đổi tối đa cho tập dữ liệu là như bạn đề xuất: .n nnn1

σ xc không nên ảnh hưởng đến kết quả vì không thay đổi nếu tất cả các giá trị được nhân với bất kỳ hằng số dương (như tôi đã nói trong nhận xét của tôi). kσxx¯k

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.