Bổ đề kỹ thuật
Tôi không chắc nó trực quan đến mức nào, nhưng kết quả kỹ thuật chính nằm dưới tuyên bố của bạn về Định lý Halmos-Savage là như sau:
Bổ đề.
Hãy μμ là một σσ biện pháp -finite trên ( S , A )(S,A) . Giả sử rằng ℵℵ là một tập hợp các biện pháp trên ( S , A )(S,A) như vậy mà cho mỗi ν ∈ ℵν∈ℵ , ν « μν≪μ . Sau đó, có tồn tại một chuỗi các số không âm { c i } ∞ i = 1{ci}∞i=1 và một chuỗi các yếu tố của ℵℵ , { ν i } ∞ i = 1{νi}∞i=1như vậy Σ ∞ i = 1 c i = 1∑∞i=1ci=1 và ν « Σ ∞ i = 1 c i ν iν≪∑∞i=1ciνi cho mỗi ν ∈ ℵν∈ℵ .
Điều này được lấy nguyên văn từ Định lý A.78 trong Lý thuyết thống kê của Schervish (1995) . Trong đó, ông gán nó cho Giả thuyết thống kê thử nghiệm của Lehmann (1986) ( liên kết đến phiên bản thứ ba ), trong đó kết quả được quy cho Halmos và Savage (xem Bổ đề 7). Một tài liệu tham khảo tốt khác là Thống kê toán học của Shao (ấn bản thứ hai, 2003) , trong đó các kết quả có liên quan là Bổ đề 2.1 và Định lý 2.2.
Bổ đề trên tiểu bang rằng nếu bạn bắt đầu với một gia đình của các biện pháp khống chế bởi một σσ biện pháp -finite, sau đó trong thực tế, bạn có thể thay thế các biện pháp chiếm ưu thế bởi sự kết hợp lồi đếm được các biện pháp từ bên trong gia đình. Schervish viết trước khi nêu Định lý A.78,
"Trong các ứng dụng thống kê, chúng tôi sẽ thường có một lớp học của các biện pháp, mỗi trong số đó là hoàn toàn liên tục đối với một đơn với σσ biện pháp -finite. Nó sẽ được tốt đẹp nếu biện pháp chiếm ưu thế đơn là trong lớp ban đầu hoặc có thể được xây dựng từ lớp. Định lý sau đây giải quyết vấn đề này. "
Một ví dụ cụ thể
Giả sử chúng ta lấy một phép đo của đại lượng XX mà chúng tôi tin là phân bố đều trên khoảng [ 0 , θ ][0,θ] đối với một số chưa biết θ > 0θ>0 . Trong bài toán thống kê này, chúng ta mặc nhiên xem xét các thiết lập PP các biện pháp khả Borel trên RR bao gồm các phân phối đều liên tục trên tất cả các khoảng thời gian có dạng [ 0 , θ ][0,θ] . Nghĩa là, nếu λλ biểu Lebesgue đo lường và, cho θ > 0θ>0 , P θPθ biểu thị Uniform ( [Uniform([0,θ])Phân phối 0 , θ ] ) (nghĩa là
P θ ( A ) = 1θ λ(A∩[0,θ])=∫A1θ 1[0,θ](x)d xPθ(A)=1θλ(A∩[0,θ])=∫A1θ1[0,θ](x)dx
cho mỗi Borel Một ⊆ RA⊆R ), sau đó chúng tôi chỉ cần có
P = { P θ : θ > 0 } . P={Pθ:θ>0}.
Đây là tập hợp các phân phối ứng cử viên cho phép đo XX của chúng tôi.
Gia đình PP bị chi phối rõ ràng bởi Lebesgue đo λλ (được σσ -finite), vì vậy bổ đề trên (với ℵ = Pℵ=P ) đảm bảo sự tồn tại của một chuỗi { c i } ∞ i = 1{ci}∞i=1 số không âm cách tổng hợp để 11 và dãy { Q i } ∞ i = 1{Qi}∞i=1 bản phân phối thống nhất trong PP mà
P θ « ∞ Σ i = 1 c i Q iPθ≪∑i=1∞ciQi
với mỗi θ > 0θ>0 . Trong ví dụ này, chúng ta có thể xây dựng các chuỗi như vậy một cách rõ ràng!
Trước tiên, hãy ( θ i ) ∞ i = 1(θi)∞i=1 là một liệt kê các số hữu tỉ dương tính ( điều này có thể được thực hiện một cách rõ ràng ), và để cho Q i = P q iQi=Pθi cho mỗi ii . Tiếp theo, hãy c i = 2 - ici=2−i , do đó Σ ∞ i = 1 c i = 1∑∞i=1ci=1 . Tôi cho rằng sự kết hợp này của { c i } ∞ i = 1{ci}∞i=1 và { Qi } ∞ i = 1{Qi}∞i=1 tác phẩm.
Để thấy điều này, sửa chữa θ > 0θ>0 và chúng ta hãy MộtA là tập con Borel của RR mà Σ ∞ i = 1 c i Q i ( A ) = 0∑∞i=1ciQi(A)=0 . Chúng tôi cần phải chứng minh rằng P θ ( Một ) = 0Pθ(A)=0 . Kể từ Σ ∞ i = 1 c i Q i ( A ) = 0∑∞i=1ciQi(A)=0 và mỗi summand là không âm, nó sau đó c i Q i( A ) = 0ciQi(A)=0 cho mỗi ii . Hơn nữa, vì mỗi c ici là dương, theo sau Q i ( A ) = 0Qi(A)=0 cho mỗi ii . Đó là, cho tất cả ii chúng ta có
Q i ( A ) = P θ i ( A ) = 1θ i λ(A∩[0,θi])=0.Qi(A)=Pθi(A)=1θiλ(A∩[0,θi])=0.
Vì mỗiθiθilà tích cực, nó sau đóλ(A∩[0,θi])=0λ(A∩[0,θi])=0cho mỗiii.
Bây giờ chọn một dãy { θ i k } ∞ k = 1{θik}∞k=1 của { θ i } ∞ i = 1{θi}∞i=1 mà hội tụ để θθ từ trên cao (điều này có thể được thực hiện kể từ khi QQ là dày đặc trong RR ). Rồi Một ∩ [ 0 , θ θ i k ] ↓ Một ∩ [ 0 , θ ]A∩[0,θθik]↓A∩[0,θ] như k → ∞k→∞ , do bởi tính liên tục của đo mà chúng tôi kết luận rằng
λ( Một ∩ [ 0 , θ ] ) = lim k → ∞ bước sóng ( A ∩ [ 0 , θ i k ] ) = 0 ,λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0,
và do đó P θ ( Một ) = 0Pθ(A)=0 . Điều này chứng tỏ yêu sách.
Thus, in this example we were able to explicitly construct a countable convex combination of probability measures from our dominated family which still dominates the entire family.
The Lemma above guarantees that this can be done for any dominated family (at least as long as the dominating measure is σσ-finite).
The Halmos-Savage Theorem
So now on to the Halmos-Savage Theorem (for which I will use slightly different notation than in the question due to personal preference).
Given the Halmos-Savage Theorem, the Fisher-Neyman factorization theorem is just one application of the Doob-Dynkin lemma and the chain rule for Radon-Nikodym derivatives away!
Định lý Halmos-Savage.
Hãy ( X , B , P )(X,B,P) là một mô hình thống kê chi phối (nghĩa là PP là một tập hợp các biện pháp xác suất về BB và có một σσ -finite đo μμ trên BB mà P « μP≪μ cho tất cả P ∈ PP∈P ). Đặt T : ( X , B ) → ( T , C )T:(X,B)→(T,C) là một hàm đo được, trong đó ( T , C )(T,C) is a standard Borel space.
Then the following are equivalent:
- TT is sufficient for PP (meaning that there is a probability kernel r:B×T→[0,1]r:B×T→[0,1] such that r(B,T)r(B,T) is a version of P(B∣T)P(B∣T) for all B∈BB∈B and P∈PP∈P).
- There exists a sequence {ci}∞i=1{ci}∞i=1 of nonnegative numbers such that ∑∞i=1ci=1∑∞i=1ci=1 and a sequence {Pi}∞i=1{Pi}∞i=1 of probability measures in PP such that P≪P∗ for all P∈P, where P∗=∑∞i=1ciPi, and for each P∈P there exists a T-measurable version of dP/dP∗.
Proof.
By the lemma above, we may immediately replace μ by P∗=∑∞i=1ciPi for some sequence {ci}∞i=1 of nonnegative numbers such that ∑∞i=1ci=1 and a sequence {Pi}∞i=1 of probability measures in P.
(1. implies 2.)
Suppose T is sufficient.
Then we must show that there are T-measurable versions of dP/dP∗ for all P∈P.
Let r be the probability kernel in the statement of the theorem.
For each A∈σ(T) and B∈B we have
P∗(A∩B)=∞∑i=1ciPi(A∩B)=∞∑i=1ci∫APi(B∣T)dPi=∞∑i=1ci∫Ar(B,T)dPi=∫Ar(B,T)dP∗.
Thus r(B,T) is a version of P∗(B∣T) for all B∈B.
For each P∈P, let fP denote a version of the Radon-Nikodym derivative dP/dP∗ on the measurable space (X,σ(T)) (so in particular fP is T-measurable).
Then for all B∈B and P∈P we have
P(B)=∫XP(B∣T)dP=∫Xr(B,T)dP=∫Xr(B,T)fPdP∗=∫XP∗(B∣T)fPdP∗=∫XEP∗[1BfP∣T]dP∗=∫BfPdP∗.
Thus in fact fP is a T-measurable version of dP/dP∗ on (X,B).
This proves that the first condition of the theorem implies the second.
(2. implies 1.)
Suppose one can choose a T-measurable version fP of dP/dP∗ for each P∈P.
For each B∈B, let r(B,t) denote a particular version of P∗(B∣T=t) (e.g., r(B,t) is a function such that r(B,T) is a version of P∗(B∣T)).
Since (T,C) is a standard Borel space, we may choose r in a way that makes it a probability kernel (see, e.g., Theorem B.32 in Schervish's Theory of Statistics (1995)).
We will show that r(B,T) is a version of P(B∣T) for any P∈P and any B∈B.
Thus, let A∈σ(T) and B∈B be given.
Then for all P∈P we have
P(A∩B)=∫A1BfPdP∗=∫AEP∗[1BfP∣T]dP∗=∫AP∗(B∣T)fPdP∗=∫Ar(B,T)fPdP∗=∫Ar(B,T)dP.
This shows that r(B,T) is a version of P(B∣T) for any P∈P and any B∈B, and the proof is done.
Summary.
The important technical result underlying the Halmos-Savage theorem as presented here is the fact that a dominated family of probability measures is actually dominated by a countable convex combination of probability measures from that family.
Given that result, the rest of the Halmos-Savage theorem is mostly just manipulations with basic properties of Radon-Nikodym derivatives and conditional expectations.