Ví dụ về một thống kê không độc lập với phân phối mẫu?


14

Đây là định nghĩa cho thống kê trên wikipedia

Chính thức hơn, lý thuyết thống kê định nghĩa một thống kê là một chức năng của một mẫu trong đó chính chức năng đó độc lập với phân phối của mẫu; đó là, chức năng có thể được nêu trước khi thực hiện dữ liệu. Thuật ngữ thống kê được sử dụng cả cho chức năng và giá trị của chức năng trên một mẫu nhất định.

Tôi nghĩ rằng tôi hiểu hầu hết định nghĩa này, tuy nhiên phần - nơi chức năng độc lập với phân phối của mẫu mà tôi không thể sắp xếp được.

Sự hiểu biết của tôi về thống kê cho đến nay

Một mẫu là một tập hợp các số thực hiện một số biến ngẫu nhiên độc lập, được phân phối giống hệt nhau (iid) với phân phối F (10 hiện thực hóa một con xúc xắc công bằng 20 mặt, 100 hiện thực hóa 5 cuộn xúc xắc công bằng 6 mặt, rút ngẫu nhiên 100 người trong dân số).

Một hàm, có miền là tập hợp đó và phạm vi của nó là các số thực (hoặc có thể nó có thể tạo ra những thứ khác, như một vectơ hoặc đối tượng toán học khác ...) sẽ được coi là một thống kê .

Khi tôi nghĩ về các ví dụ, trung bình, trung bình, phương sai đều có ý nghĩa trong bối cảnh này. Chúng là một hàm trên tập hợp các nhận thức (đo huyết áp từ một mẫu ngẫu nhiên). Tôi cũng có thể xem như thế nào một mô hình hồi quy tuyến tính có thể được coi là một thống kê yi=α+βxi - đây là không chỉ là một chức năng trên một tập hợp ngộ?

Tôi đang bối rối ở đâu

Giả sử rằng sự hiểu biết của tôi từ phía trên là chính xác, tôi đã không thể hiểu nơi một hàm có thể không độc lập với phân phối của mẫu. Tôi đã cố gắng nghĩ về một ví dụ để hiểu ý nghĩa của nó, nhưng không có may mắn. Bất kỳ cái nhìn sâu sắc sẽ được nhiều đánh giá cao!

Câu trả lời:


44

Định nghĩa đó là một cách hơi khó xử để nêu nó. "Thống kê" là bất kỳ chức năng nào của các giá trị quan sát được. Tất cả định nghĩa đó có nghĩa là một thống kê chỉ là một hàm của các giá trị quan sát được, không phải là hàm của phân phối hoặc bất kỳ tham số nào của nó. Ví dụ: nếu X1,X2,...,XnN(μ,1) sau đó một thống kê sẽ được bất kỳ chức năng T(X1,...,Xn) trong khi một hàm H(X1,....,Xn,μ) sẽ không có một số liệu thống kê, kể từ khi nó phụ thuộc vàoμ . Dưới đây là một số ví dụ khác:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Mỗi thống kê là một hàm chỉ của các giá trị quan sát được, và không phải là phân phối của chúng hoặc các tham số của nó. Vì vậy, không có ví dụ về một thống kê là một chức năng của phân phối hoặc các tham số của nó (bất kỳ chức năng nào như vậy sẽ không phải là một thống kê). Tuy nhiên, điều quan trọng cần lưu ý là việc phân phối một thống kê (trái ngược với chính thống kê) nói chung sẽ phụ thuộc vào phân phối cơ bản của các giá trị. (Điều này đúng với tất cả các số liệu thống kê khác với số liệu thống kê phụ trợ .)


Điều gì về một chức năng trong đó các tham số được biết đến? Trong các ý kiến ​​dưới đây, Alecos đặt một câu hỏi tiếp theo tuyệt vời. Điều gì về một hàm sử dụng một giá trị giả định cố định của tham số? Ví dụ, những gì về thống kê n(x¯μ)nơiμ=μ0được đưa đến bằng một giá trị đưa ra giả thuyết nổi tiếngμ0R. Ở đây hàm thực sự là một số liệu thống kê, miễn là nó được xác định trên miền bị hạn chế thích hợp. Vì vậy, các chức năngH0:RnRvớiH0(x1,...,xn)=n(x¯μ0)sẽ là một thống kê, nhưng chức năngH:Rn+1RvớiH(x1,...,xn,μ)=n(x¯μ)sẽkhôngthể là một số liệu thống kê.


1
Câu trả lời rất hữu ích, coi tham số thống kê cơ bản là một phần của thống kê phi thống kê đặc biệt hữu ích.
Jake Kirsch

4
1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2) and (Xn/2+1++Xn)/(n/2). These are still statistics.
James Martin

4
Those examples seem entirely valid to me. Are you saying the idea of dividing data into a training set and a validation set is not valid?
James Martin

2
I'm a little confused by that as well. Let me attempt to describe @CarlWitthoft point. It would still be a statistic in terms of mathematical definition, but I could see a case where a consultant takes a 'statistic' of observations, but arbitrarily decides to remove a few results (consultants do this all the time right?). This would be 'valid' in the sense it's still a function on observations, however the way that statistic may be presented and interpreted likely wouldn't be valid.
Jake Kirsch

2
@Carl Withhoft: With respect to the point you are making, it is important to distinguish between a statistic (which need not include all the data, and may not encompass all the information in the sample) and a sufficient statistic (which will encompass all the information with respect to some parameter). Statistical theory already has well-developed concepts like sufficiency that capture the idea that a statistic includes all relevant information in the sample. It is not necessary, or desirable, to try to build that requirement into the definition of a "statistic".
Reinstate Monica

4

I interpret that as saying that you should decide before you see the data what statistic you are going to calculate. So, for instance, if you're going to take out outliers, you should decide before you see the data what constitutes an "outlier". If you decide after you see the data, then your function is dependent on the data.


this is also helpful! So making a decision on which observations to include in the function after knowing what observations are available, which is more or less what I was describing in my comment on the previous answer.
Jake Kirsch

2
(+1) It might be worth noting that this important because if you define a rule a prior about what constitutes a data point that will be dropped, it is (relatively) easy to derive a distribution for statistic (i.e., truncated mean, etc.). It's really hard to derive a distribution for a measure that involves dropping data points for reasons that are not cleanly defined before hand.
Cliff AB
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.