Tại sao một thống kê đầy đủ chứa tất cả thông tin cần thiết để tính toán bất kỳ ước tính nào của tham số?


16

Tôi mới bắt đầu nghiên cứu thống kê và tôi không thể hiểu được trực quan về sự đầy đủ. Nói chính xác hơn tôi không thể hiểu làm thế nào để chỉ ra rằng hai đoạn văn sau là tương đương nhau:

Một cách thô sơ, được đưa ra một tập hợp X dữ liệu phân tán giống hệt nhau được điều hòa dựa trên một tham số chưa biết, một thống kê đầy đủ là một hàm T (X) có giá trị chứa tất cả thông tin cần thiết để tính toán bất kỳ ước tính nào của tham số.

Một thống kê T (X) là đủ cho tham số cơ bản θ chính xác nếu phân phối xác suất có điều kiện của dữ liệu X, được đưa ra thống kê T (X), không phụ thuộc vào tham số.

(Tôi đã lấy các trích dẫn từ Thống kê đầy đủ )

Mặc dù tôi hiểu câu lệnh thứ hai và tôi có thể sử dụng định lý nhân tố để chỉ ra nếu một thống kê nhất định là đủ, tôi không thể hiểu tại sao một thống kê với một thuộc tính như vậy cũng có thuộc tính mà nó "chứa tất cả thông tin cần thiết để tính toán bất kỳ ước tính của tham số ". Tôi không tìm kiếm một bằng chứng chính thức, dù sao cũng sẽ giúp tinh chỉnh sự hiểu biết của tôi, tôi muốn có được một lời giải thích trực quan về lý do tại sao hai tuyên bố này là tương đương nhau.

Tóm lại, câu hỏi của tôi là: tại sao hai câu tương đương nhau? Ai đó có thể cung cấp một lời giải thích trực quan cho sự tương đương của họ?


1
Ý tưởng trực quan chính là đôi khi bạn không cần phải xem toàn bộ mẫu vì bạn có thể tìm thấy một thống kê tóm tắt tất cả thông tin cần thiết từ mẫu. Lấy ví dụ, phân phối nhị thức: tất cả những gì bạn cần biết cho mô hình của mình là tổng của những thành công. Bạn làm bất cứ điều gì không mất giá trị nếu tôi chỉ nói với bạn rằng inxi=c , thay vì hiển thị cho bạn toàn bộ các giá trị lấy mẫu x={1,0,0,1,0,1,...} .
cốc

Tôi hiểu lý do tại sao tôi cần một số liệu thống kê đầy đủ và làm thế nào để chỉ ra rằng tổng số thành công là một thống kê đầy đủ cho p trong một quy trình Bernoulli. Điều tôi không hiểu là tại sao một thống kê như được mô tả trong đoạn thứ hai chứa tất cả thông tin cần thiết để tính toán bất kỳ ước tính nào của tham số.
gcoll

3
Nói đúng ra, trích dẫn đầu tiên chỉ đơn giản là sai. Có rất nhiều công cụ ước tính có thể được tính toán từ toàn bộ tập dữ liệu mà chỉ có thể được tính toán từ số liệu thống kê đầy đủ. Đó là một lý do trích dẫn bắt đầu "đại khái." Một lý do khác là nó không cung cấp một định nghĩa định lượng hoặc nghiêm ngặt về "thông tin". Vì một đặc tính chính xác hơn (nhưng vẫn trực quan) đã được đưa ra trong đoạn trước, tuy nhiên, có rất ít vấn đề với trích dẫn này trong bối cảnh thích hợp.
whuber

1
Nó có liên quan đến khả năng tối đa và về cơ bản đó là thông tin cần thiết trong khả năng tối đa
Kamster

1
Theo các bình luận của whuber và @Kamster, có lẽ tôi đã hiểu rõ hơn. Khi chúng ta nói rằng một thống kê đầy đủ chứa tất cả thông tin cần thiết để tính toán bất kỳ ước tính nào của tham số, chúng ta thực sự có nghĩa là nó đủ để tính toán ước tính khả năng tối đa (là một hàm của tất cả các thống kê đủ)? Đây là sự thật, vấn đề là tất cả liên quan đến định nghĩa (không) của "thông tin", như whuber đề xuất, và câu hỏi của tôi đã được trả lời.
gcoll

Câu trả lời:


3

Theo các bình luận của @whuber và @Kamster, có lẽ tôi đã hiểu rõ hơn. Khi chúng ta nói rằng một thống kê đầy đủ chứa tất cả thông tin cần thiết để tính toán bất kỳ ước tính nào của tham số, điều chúng ta thực sự muốn nói là nó đủ để tính toán ước tính khả năng tối đa (là một hàm của tất cả các thống kê đầy đủ).

Cho rằng tôi đang trả lời câu hỏi của riêng mình, và vì vậy tôi không chắc chắn 100% câu trả lời, tôi sẽ không đánh dấu nó là chính xác cho đến khi tôi nhận được một số phản hồi. Vui lòng thêm bất kỳ nhận xét và bỏ phiếu nếu bạn nghĩ rằng tôi đang sai / không chính xác / vv ...

(Hãy cho tôi biết nếu điều này không tương thích với nghi thức SE, đây là câu hỏi đầu tiên của tôi, tôi xin sự khoan hồng của bạn nếu tôi vi phạm bất kỳ quy tắc nào)


1

Khi tôi đang nghiên cứu về sự đầy đủ, tôi đã bắt gặp câu hỏi của bạn bởi vì tôi cũng muốn hiểu trực giác về Từ những gì tôi đã thu thập được, đây là những gì tôi nghĩ ra (cho tôi biết bạn nghĩ gì, nếu tôi mắc lỗi, v.v.).

Hãy để là một mẫu ngẫu nhiên từ một phân phối với trung bình Poisson θX1,,Xn .θ>0

Chúng ta biết rằng là một thống kê đủ cho θ , kể từ khi phân phối có điều kiện của X 1 , ... , X n cho T ( X ) hoàn toàn miễn θ , nói cách khác, không phụ thuộc vào θ .T(X)=i=1nXiθX1,,XnT(X)θθ

Bây giờ, nhà thống kê biết rằng X 1 , Mạnh , X n i . i . d P o i s s o n ( 4 ) và tạo n = 400 giá trị ngẫu nhiên từ phân phối này:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Đối với các giá trị thống kê đã tạo, anh ta lấy tổng của nó và hỏi nhà thống kê B như sau:AB

"Tôi đã những giá trị mẫu lấy từ một phân phối Poisson. Biết rằng Σ n i = 1 x i = yx1,,xn , những gì bạn có thể cho tôi biết về phân phối này?"i=1nxi=y=4068

Vì vậy, chỉ biết rằng (và thực tế là mẫu phát sinh từ phân phối Poisson) là đủ để nhà thống kê B nói bất cứ điều gì vềi=1nxi=y=4068B ? Vì chúng tôi biết rằng đây là một thống kê đầy đủ, chúng tôi biết rằng câu trả lời là "có".θ

Để hiểu rõ hơn về ý nghĩa của việc này, chúng ta hãy làm như sau (lấy từ "Giới thiệu về thống kê toán học" của Hogg & Mckean & Craig, ấn bản thứ 7, bài tập 7.1.9):

" quyết định tạo ra một số quan sát giả, mà ông gọi là z 1 , z 2 , ... , z n (như ông biết họ có thể sẽ không thể bằng bản gốc x -values) như sau. Ông ghi chú rằng xác suất có điều kiện của Poisson độc lập ngẫu nhiên biến Z 1 , Z 2 ... , Z n là tương đương với z 1 , z 2 , ... , z n , trao Σ z i = y , làBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

kể từ khi có phân phối với trung bình Poisson n θ . Phân phối thứ hai là đa cực với các thử nghiệm độc lập y , mỗi thử nghiệm kết thúc theo một trong n cách loại trừ và triệt để lẫn nhau, mỗi cách đều có cùng xác suất 1 / n . Theo đó, B chạy một thí nghiệm đa thức như y thử nghiệm độc lập và có được z 1 , ... , z nY=Zinθyn1/nByz1,,zn ".

Đây là những gì các bài tập nêu. Vì vậy, hãy làm chính xác điều đó:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

nhập mô tả hình ảnh ở đây

θY=Xin tăng, hai đường cong trở nên giống hơn).

XZ|y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

nhập mô tả hình ảnh ở đây

Chúng tôi thấy rằng chúng cũng khá giống nhau (như mong đợi)

XiY=X1+X2++Xn


0

Hãy để tôi đưa ra một quan điểm khác có thể giúp đỡ. Đây cũng là định tính, nhưng có một phiên bản nghiêm ngặt về điều đặc biệt quan trọng trong Lý thuyết thông tin - được gọi là tài sản Markov.

θθθθlà có liên quan. Lưu ý rằng trong các xác suất là nơi mà tất cả các yếu tố không chắc chắn được ghi lại, và do đó "bất kỳ ước tính" nào khi xác suất (có điều kiện) là độc lập (ví dụ mật độ có điều kiện là yếu tố).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.