Loại vấn đề này đã được nghiên cứu trong bài báo
"Tăng dữ liệu trong các bảng dự phòng đa chiều với tổng số biên cố định" của Dobra et al (2006). Hãy biểu thị các thông số của mô hình, chúng ta hãy n biểu thị bảng số nguyên không quan sát được của tính cho mỗi ( x , y ) cặp, và để cho C ( S , T ) là tập hợp các bảng số nguyên mà đếm biên bằng ( S , T ) . Khi đó xác suất quan sát tổng số biên ( S , T ) là:
p (θn( x , y)C( S, T)( S, T)( S, T)và θ
nơi p ( n | θ ) là sự phân bố lấy mẫu đa thức. Điều này xác định hàm khả năng cho ML, nhưng đánh giá trực tiếp là không khả thi trừ các vấn đề nhỏ. Cách tiếp cận mà họ đề xuất là MCMC, trong đó bạn thay thế cập nhật n bằng cách lấy mẫu từ phân phối đề xuất và chấp nhận thay đổi theo tỷ lệ chấp nhận của Metropolis-Hastings. Điều này có thể được điều chỉnh để tìm một mức tối đa gần đúng hơn
p ( S, T| θ)= ∑n ∈C( S, T)p ( n | θ )
p ( n | θ )nθbằng
θ sử dụng Monte Carlo EM.
θ
Một cách tiếp cận khác nhau sẽ sử dụng các phương pháp biến đổi để tính gần đúng tổng trên . Các ràng buộc biên có thể được mã hóa dưới dạng biểu đồ nhân tố và suy luận vền có thể được thực hiện bằng vọng Tuyên truyền.θ
Để xem tại sao vấn đề này khó khăn và không thừa nhận một giải pháp tầm thường, hãy xem xét trường hợp . Lấy S là tổng của hàng và T là tổng của cột, có hai bảng tổng số có thể có:
[ 0 1 2 0 ]S= ( 1 , 2 ) , T= ( 2 , 1 )ST
Do đó hàm likelihood là
p(S,T | q)=3 p 12 p 2 21 +6 p 11 p 21 p 22
Các MLE cho vấn đề này là
p x , y = [ 0 1 / 3 2 / 3 0
[0210][1101]
p(S,T|θ)=3p12p221+6p11p21p22
p^x,y=[02/31/30]
tương ứng với giả sử bảng bên trái. Ngược lại, ước tính rằng bạn sẽ nhận được bằng cách giả định độc lập là
trong đó có một giá trị khả năng nhỏ hơn.
qx,y=[1/32/3][2/31/3]=[2/94/91/92/9]
maximum-entropy