Làm thế nào để ước tính, khi chỉ có số liệu thống kê tóm tắt có sẵn?


17

Điều này một phần được thúc đẩy bởi câu hỏi sau đây và các cuộc thảo luận sau nó.

Giả mẫu iid được quan sát, XTôi~F(x,θ) . Mục đích là để ước lượng θ . Nhưng mẫu ban đầu không có sẵn. Thay vào đó, một số thống kê của mẫu T1,...,Tk . Giả sử là cố định. Làm thế nào để chúng tôi ước tính ? Điều gì sẽ là ước tính khả năng tối đa trong trường hợp này?θkθ


1
Nếu TTôi= =f(XTôi) cho một hàm f thì bạn có thể ghi lại phân phối của TTôi và công cụ ước tính khả năng tối đa được lấy theo cách thông thường. Nhưng bạn chưa biết TTôi gì?
Stéphane Laurent

3
Tôi đang quan tâm đến trường hợp khi cho biết f . Đây là những gì tôi muốn nói khi tôi nói rằng T i là số liệu thống kê mẫu. TTôi= =f(X1,...,Xn)fTTôi
mpiktas

Vậy sự khác biệt giữa T j là gì? TTôiTj
Stéphane Laurent

2
Xin lỗi, đó phải là chứ không phải một f . Chúng tôi có một số hàm f i , lấy làm đối số toàn bộ mẫu. fTôiffTôi
mpiktas

Đây không phải là những gì entropy tối đa được thiết kế cho?
xác suất

Câu trả lời:


14

Trong trường hợp này, bạn có thể xem xét xấp xỉ ABC về khả năng (và do đó của MLE ) theo giả định / hạn chế sau:

Giả thiết. Kích thước mẫu ban đầu được biết đến.n

Đây không phải là một giả định hoang dã cho rằng chất lượng, về mặt hội tụ, của các công cụ ước tính thường xuyên phụ thuộc vào kích thước mẫu, do đó người ta không thể có được các ước lượng tốt tùy ý mà không biết kích thước mẫu ban đầu.

Ý tưởng là để tạo ra một mẫu từ phân bố sau của và, để tạo ra một xấp xỉ của MLE , bạn có thể sử dụng một tầm quan trọng lấy mẫu kỹ thuật như trong [1] hoặc xem xét một trên trước khi thống nhấtθ với sự hỗ trợ trên phù hợp đặt như trong[2].θ

Tôi sẽ mô tả phương pháp trong [2]. Trước hết, hãy để tôi mô tả bộ lấy mẫu ABC.

Bộ lấy mẫu ABC

Hãy để là mô hình mà tạo ra các mẫu nơi q q là một tham số (được ước tính), T là một số liệu thống kê (một chức năng của mẫu) và T 0 là số liệu thống kê quan sát, trong ABC biệt ngữ này được gọi là số liệu thống kê tóm tắt , ρ là một thước đo, π ( θ ) một bản phân phối trước trên θε >f(|θ)θΘTT0ρπ(θ)θ một khoan dung. Sau đó, bộ lấy mẫu từ chối ABC có thể được thực hiện như sau.ϵ>0

  1. Mẫu từ π (θ .π()
  2. Tạo một mẫu kích thước n từ mô hình f ( | q * ) .xnf(|θ)
  3. Tính .T*= =T(x)
  4. Nếu , chấp nhận θ * như một mô phỏng từ sau của θ .ρ(T*,T0)<εθ*θ

Thuật toán này tạo ra một mẫu gần đúng từ phân bố sau của cho T ( x ) = T 0 . Do đó, kịch bản tốt nhất là khi thống kê TθT(x)= =T0T là đủ nhưng các số liệu thống kê khác có thể được sử dụng. Đối với một mô tả chi tiết hơn về điều này xem bài viết này .

Bây giờ, trong một khung chung, nếu một người sử dụng đồng phục trước có chứa MLE trong hỗ trợ của nó, thì Tối đa một posteriori (MAP) trùng với Công cụ ước tính khả năng tối đa (MLE). Do đó, nếu bạn xem xét một bộ đồng phục phù hợp trước trong Bộ lấy mẫu ABC, thì bạn có thể tạo một mẫu gần đúng của phân phối sau có MAP trùng với MLE. Bước còn lại bao gồm ước tính chế độ này. Vấn đề này đã được thảo luận trong CV, ví dụ như trong "Ước tính hiệu quả tính toán của chế độ đa biến" .

Một ví dụ đồ chơi

Hãy là một mẫu từ một N ( μ , 1 ) và giả sử rằng những thông tin chỉ có sẵn từ mẫu này là ˉ x = 1(x1,...,xn)N(μ,1). Hãyρlà Euclide số liệu trongRε=0,001. Sau khi chương trình đang R làm thế nào để có được một MLE xấp xỉ bằng cách sử dụng phương pháp mô tả ở trên sử dụng một mẫu mô phỏng vớin=100μ=0, một mẫu của các phân bố sau của kích thước1000, một bộ đồng phục trước choμtrên(-0.3,0.3)và một công cụ ước tính mật độ hạt nhân để ước tính chế độ của mẫu sau (MAP = MLE).x¯= =1nΣj= =1nxjρRε= =0,001n= =100μ= =01000μ(-0,3,0,3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Như bạn có thể thấy, sử dụng dung sai nhỏ, chúng ta có được xấp xỉ rất tốt của MLE (trong ví dụ tầm thường này có thể được tính từ thống kê cho rằng nó là đủ). Điều quan trọng cần lưu ý là sự lựa chọn của thống kê tóm tắt là rất quan trọng. Quantiles thường là một lựa chọn tốt cho thống kê tóm tắt, nhưng không phải tất cả các lựa chọn đều tạo ra một xấp xỉ tốt. Nó có thể là trường hợp thống kê tóm tắt không nhiều thông tin và sau đó chất lượng của xấp xỉ có thể kém, được biết đến trong cộng đồng ABC.

Cập nhật: Một cách tiếp cận tương tự đã được công bố gần đây trên Fan et al. (2012) . Xem mục này để thảo luận về bài báo.


2
(+1) Để nêu kết quả chính xác về mối quan hệ giữa MLE và MAP và cảnh báo trong đoạn cuối (trong số các lý do khác). Để làm cho cảnh báo đó rõ ràng hơn, cách tiếp cận này (hoặc bất kỳ!) Sẽ thất bại thảm hại nếu số liệu thống kê trong tay là phụ trợ hoặc gần như vậy. Người ta có thể xem xét ví dụ đồ chơi của bạn và , ví dụ. T=i(XiX¯)2
Đức hồng y

1
+1 @procrastinator Tôi sẽ nói đơn giản là có, bạn có thể sử dụng đủ số liệu thống kê nếu chúng có sẵn cho mô hình của bạn. Nhưng câu trả lời sâu rộng của bạn dường như đã bao gồm điều đó.
Michael R. Chernick

Một câu hỏi đơn giản, bạn đề cập rằng đồng phục trước phải có MLE trong hỗ trợ của nó. Nhưng MLE là một biến ngẫu nhiên chỉ bị ràng buộc ngẫu nhiên, tức là nó có thể nằm ngoài bất kỳ tập hợp giới hạn nào có xác suất dương.
mpiktas

1
@mpiktas Đối với một mẫu cụ thể, bạn phải chọn sự hỗ trợ phù hợp của đồng phục trước. Điều này có thể thay đổi nếu bạn thay đổi mẫu. Điều quan trọng cần lưu ý rằng đây không phải là một thủ tục Bayes, chúng tôi chỉ sử dụng nó như một phương pháp số, do đó không có vấn đề gì khi chơi với sự lựa chọn trước. Sự hỗ trợ của các ưu tiên càng nhỏ thì càng tốt. Điều này sẽ tăng tốc độ của bộ lấy mẫu ABC nhưng khi thông tin của bạn mơ hồ theo nghĩa là bạn không có manh mối đáng tin cậy về vị trí của MLE, thì bạn có thể cần một hỗ trợ lớn hơn (và sẽ trả giá).

@mpiktas Trong ví dụ về đồ chơi, bạn có thể sử dụng đồng phục trước khi có hỗ trợ trên hoặc đồng phục trước khi hỗ trợ ( 0.1 , 0.15 ) có được kết quả tương tự nhưng với tỷ lệ chấp nhận cực kỳ khác nhau. Sự lựa chọn của hỗ trợ này là đặc biệt và không thể đưa ra mục đích chung trước khi MLE không bị ràng buộc một cách ngẫu nhiên, như bạn đề cập. Sự lựa chọn này có thể được coi là một đòn bẩy của phương pháp phải được điều chỉnh trong từng trường hợp cụ thể. (-1000000,1000000)(0.1,0.15)

5

Tất cả phụ thuộc vào việc có hay không sự phân bố chung của những 's được biết đến. Nếu đó là, ví dụ: ( T 1 , Vay , T k ) g ( t 1 , Mạnh , t k | θ , n ) thì bạn có thể tiến hành ước tính khả năng tối đa dựa trên phân phối chung này. Lưu ý rằng, trừ khi ( T 1 , Mạnh , T k ) là đủ, điều này hầu như sẽ luôn có khả năng tối đa khác so với khi sử dụng dữ liệu thô (TTôi

(T1,Giáo dục,Tk)~g(t1,Giáo dục,tk|θ,n)
(T1,Giáo dục,Tk) . Nó nhất thiết sẽ kém hiệu quả hơn, với phương sai tiệm cận lớn hơn.(X1,Giáo dục,Xn)

Nếu phân phối chung ở trên với mật độ không có sẵn, giải pháp do Procrastinator đề xuất là khá phù hợp.g


1

Công cụ ước tính khả năng tối đa (thường xuyên) như sau:

F

tôi(θ|T)= =điểm kinh nghiệm(-ψ(θ)+T,φ(θ)),
,Tψ()φ() liên tục hai lần khác nhau.

Cách bạn thực sự tối đa hóa khả năng phụ thuộc chủ yếu vào khả năng để viết khả năng phân tích một cách dễ hiểu. Nếu điều này là có thể, bạn sẽ có thể xem xét các thuật toán tối ưu hóa chung (newton-raphson, simplex ...). Nếu bạn không có khả năng dễ điều khiển, bạn có thể thấy việc tính toán một điều kiện có điều kiện dễ dàng hơn như trong thuật toán EM, điều này cũng sẽ mang lại ước tính khả năng tối đa theo các giả thuyết khá hợp lý.

Tốt


Đối với các vấn đề tôi quan tâm, khả năng phân tích là không thể.
mpiktas

Lý do cho việc không chuyển đổi sau đó điều kiện chương trình tối ưu hóa. Tuy nhiên, các phần mở rộng của EM thường cho phép nhận được hầu hết các lý do này. Tôi không nghĩ rằng tôi có thể cụ thể hơn trong các đề xuất của mình mà không nhìn thấy mô hình
julien Stirnemann
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.