Giải pháp cho vấn đề xe tăng Đức


10

Có bằng chứng toán học chính thức nào cho thấy giải pháp cho Bài toán Xe tăng Đức là một hàm chỉ gồm các tham số k (số lượng mẫu quan sát) và m (giá trị tối đa trong số các mẫu được quan sát)? Nói cách khác, người ta có thể chứng minh rằng giải pháp độc lập với các giá trị mẫu khác bên cạnh giá trị tối đa không?


3
Điều bạn đang hỏi là làm thế nào để chỉ ra rằng mức tối đa của mẫu là đủ cho tham số chỉ định giới hạn trên của phân phối thống nhất rời rạc từ 1 đến . θθθ
Scortchi - Phục hồi Monica

2
Định lý nhân tố Fisher Neyman Hàm khả năng, xác suất của các mẫu quan sát (được tóm tắt bằng tối đa ) cho các tham số (số lượng bể) có thể được viết hoàn toàn theo và \ Pr (M = m | n , k) = \ started {case} 0 & \ text {if} m> n \\ \ frac {\ binom {m - 1} {k - 1}} {\ binom nk} & \ text {if} m \ leq n, \ end {case} đó có phải là câu trả lời không? m n k mkmnkm
Pr(M=m|n,k)={0if m>n(m1k1)(nk)if mn,
Sextus Empiricus

@Scortchi là chính xác, cảm ơn bạn đã chia sẻ lại nó một cách rõ ràng hơn cho tôi.
Bogdan Alexandru

@MartijnWeterings không; về cơ bản tôi đang hỏi (trích dẫn nhận xét của Scortchi ở trên) cho một bằng chứng rằng tối đa mẫu là đủ cho giải pháp mà không thực sự tính toán giải pháp.
Bogdan Alexandru

Vì vậy, bạn không tìm kiếm định lý nhân tố Fisher Neyman là bằng chứng?
Sextus Empiricus

Câu trả lời:


15

Khả năng

Các vấn đề phổ biến trong lý thuyết xác suất đề cập đến xác suất quan sát đưa ra một mô hình nhất định và đưa ra các tham số (hãy gọi chúng là ) liên quan. Ví dụ, xác suất cho các tình huống cụ thể trong trò chơi bài hoặc trò chơi súc sắc thường rất đơn giản.x1,x2,...,xnθ

Tuy nhiên, trong nhiều tình huống thực tế, chúng ta đang xử lý một tình huống nghịch đảo ( thống kê suy luận ). Đó là: quan sát được đưa ra và bây giờ mô hình không xác định hoặc ít nhất chúng ta không biết một số tham số nhất định .x1,x2,...,xkθ

Trong các loại vấn đề này, chúng tôi thường đề cập đến một thuật ngữ gọi là khả năng của các tham số, , đó là tỷ lệ tin vào một tham số cụ thể đưa ra các quan sát . Thuật ngữ này được biểu thị theo tỷ lệ thuận với xác suất của các quan sát giả sử rằng một tham số mô hình sẽ là giả thuyết đúng. L(θ)θx1,x2,..xkx1,x2,..xkθ

L(θ,x1,x2,..xk)probability observations x1,x2,..xk given θ 

Đối với một giá trị tham số đã cho càng có nhiều khả năng quan sát nhất định là (liên quan đến xác suất với các giá trị tham số khác), quan sát càng hỗ trợ tham số cụ thể này (hoặc giả thuyết / giả thuyết giả định tham số này) . Khả năng cao (tương đối) sẽ củng cố niềm tin của chúng tôi về giá trị tham số đó (có nhiều triết lý hơn để nói về điều này).θx1,x2,..xn


Khả năng trong vấn đề xe tăng Đức

Bây giờ đối với bài toán xe tăng của Đức, hàm khả năng cho một tập hợp các mẫu là:x1,x2,..xk

L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0if max(x1,x2,..xk)>θ(θk)1if max(x1,x2,..xk)θ,

Cho dù bạn quan sát các mẫu {1, 2, 10} hay các mẫu {8, 9, 10} đều không thành vấn đề khi các mẫu được xem xét từ phân phối đồng đều với tham số . Cả hai mẫu đều có khả năng như nhau với xác suất và sử dụng ý tưởng về khả năng một mẫu không cho biết nhiều hơn về tham số so với mẫu khác.θ(θ3)1θ

Các giá trị cao {8, 9, 10} có thể khiến bạn nghĩ / tin rằng nên cao hơn. Nhưng, đó chỉ là giá trị {10} Thực sự cung cấp cho bạn thông tin có liên quan về khả năng của (giá trị 10 cho bạn biết rằng sẽ là mười hoặc cao hơn, các giá trị khác 8 và 9 không đóng góp gì cho thông tin này ).θθθ


Định lý nhân tố Fisher Neyman

Định lý này cho bạn biết rằng một thống kê (nghĩa là một số chức năng của các quan sát, như giá trị trung bình, trung bình hoặc như trong bài toán xe tăng Đức tối đa) là đủ (chứa tất cả thông tin) khi bạn có thể tính ra, trong hàm khả năng, các thuật ngữ phụ thuộc vào các quan sát khác , , sao cho yếu tố này không phụ thuộc vào cả tham số và (và một phần của hàm khả năng liên quan đến dữ liệu với các giá trị tham số giả thuyết chỉ phụ thuộc vào thống kê chứ không phụ thuộc vào toàn bộ dữ liệu / quan sát).T(x1,x2,,xk)x1,x2,,xkθx1,x2,,xk

Trường hợp của vấn đề xe tăng Đức là đơn giản. Bạn có thể thấy ở trên rằng toàn bộ biểu thức cho Khả năng ở trên chỉ phụ thuộc vào thống kê và phần còn lại của các giá trị không quan trọng.max(x1,x2,..xk)x1,x2,..xk


Trò chơi nhỏ làm ví dụ

Giả sử chúng ta chơi trò chơi sau nhiều lần: tự nó là một biến ngẫu nhiên và được vẽ với xác suất bằng nhau là 100 hoặc 110. Sau đó, chúng ta vẽ một mẫu .θx1,x2,...,xk

Chúng tôi muốn chọn một chiến lược để đoán , dựa trên tối đa hóa xác suất của chúng tôi để có dự đoán đúng về .θx1,x2,...,xkθ

Chiến lược phù hợp sẽ là chọn 100 trừ khi một trong các số trong mẫu là> 100.

Chúng ta có thể muốn chọn giá trị tham số 110 khi nhiều có xu hướng là tất cả các giá trị cao gần trăm (nhưng không chính xác hơn trăm), nhưng điều đó sẽ sai. Xác suất quan sát như vậy sẽ lớn hơn khi giá trị tham số thực là 100 so với khi nó là 110. Vì vậy, nếu chúng ta đoán, trong tình huống đó, 100 là giá trị tham số, thì chúng ta sẽ ít mắc lỗi hơn (vì tình trạng với các giá trị cao này gần hàng trăm, nhưng vẫn ở dưới nó, xảy ra thường xuyên hơn trong trường hợp giá trị thực là 100 thay vì trường hợp giá trị thực là 110).x1,x2,...,xk


Tuyệt vời, chính xác những gì tôi cần! Chỉ cần một nhận xét về dấu ngoặc đơn cuối cùng của bạn: bạn đang nói "những giá trị cao gần trăm này xảy ra thường xuyên hơn ...", điều này tôi hiểu tại sao nó đúng, nhưng chỉ cần làm rõ: mọi giá trị từ 1 đến 100 có nhiều khả năng xảy ra khi tham số là 100 (về cơ bản xác suất cho mỗi số trong 1-100 là 1 / tham số).
Bogdan Alexandru

Ngoài ra, bây giờ nhận xét ban đầu của bạn cho bài viết của tôi có ý nghĩa - nếu tôi biết cách áp dụng các khái niệm này, nhận xét của bạn sẽ chính xác là gợi ý tôi cần để có được bằng chứng. Cảm ơn một lần nữa!
Bogdan Alexandru

@BogdanAlexandru bạn nói đúng; nó đúng với bất kỳ giá trị nào trong khoảng 1-100. Đó là ý tưởng trái ngược, chúng tôi có xu hướng nghĩ rằng các giá trị quan sát cao hơn bằng cách nào đó chứng minh nhiều hơn cho một số giá trị tham số so với các giá trị quan sát thấp, nhưng đối với bất kỳ số nào cũng có khả năng như nhau và do đó không nên đóng góp bất cứ điều gì cho niềm tin của chúng tôi về tham số mô hình ( Ngoại trừ giá trị tối đa mà chúng tôi quan sát. Nhưng ngay cả trong trò chơi mà tôi đã thực hiện chỉ với một lựa chọn giữa hai giá trị. Nó thậm chí còn không cung cấp nhiều thông tin hơn khi nó cao hơn hoặc thấp hơn, ngoại trừ khoảng trăm ranh giới).
Sextus Empiricus

Nhận xét ban đầu của tôi có thể quá nặng nề, nhưng tôi chỉ chọc để xem loại câu trả lời nào là cần thiết. Đặc biệt tôi thấy thuật ngữ 'bằng chứng' hơi mạnh mẽ và đang tự hỏi liệu bạn chỉ đang tìm kiếm định lý nhân tố hóa (đó sẽ là một câu hỏi được trả lời bằng có khi bạn không biết định lý đó) hoặc liệu bạn đang tìm kiếm một điều gì đó mơ hồ hơn và triết học, giống như các khái niệm thách thức về thống kê / khả năng và vượt ra ngoài một định lý như vậy để tìm kiếm một loại "bằng chứng" khác.
Sextus Empiricus

Đọc tốt về ý định của tôi rồi! Cảm ơn một lần nữa.
Bogdan Alexandru

0

Bạn chưa trình bày một công thức chính xác về "vấn đề", vì vậy nó không rõ ràng chính xác những gì bạn yêu cầu được chứng minh. Từ quan điểm của Bayes, xác suất sau sẽ phụ thuộc vào tất cả các dữ liệu. Tuy nhiên, mỗi quan sát về một số sê-ri cụ thể sẽ hỗ trợ số đó nhiều nhất. Nghĩa là, với bất kỳ quan sát , tỷ lệ chênh lệch giữa sau và trước sẽ lớn hơn đối với giả thuyết "số lượng xe tăng thực tế là " so với "số lượng xe tăng thực tế là [số khác với ]". Do đó, nếu chúng ta bắt đầu với một bộ đồng phục trước, thì sẽ có hậu thế cao nhất sau khi nhìn thấy sự quan sát đó.nnnn

Hãy xem xét một trường hợp trong đó chúng ta có điểm dữ liệu và giả thuyết . Rõ ràng, hậu thế cho bằng không. Và hậu thế của chúng tôi cho sẽ lớn hơn trước. Lý do cho điều này là trong lý luận Bayes, sự vắng mặt của bằng chứng bằng chứng của sự vắng mặt. Bất cứ khi nào chúng tôi có cơ hội, nơi chúng tôi có thể thực hiện một quan sát sẽ làm giảm xác suất của chúng tôi, nhưng không, xác suất tăng lên. Vì chúng ta có thể đã nhìn thấy , điều này sẽ đặt cho các hậu thế của chúng ta về thành 0, nên thực tế là chúng ta đã không thấy điều đó có nghĩa là chúng ta nên tăng các hậu thế cho13N=10,13,15N=10N=13,1516N=13,15N=13,15 . Nhưng lưu ý rằng số càng nhỏ, số lượng càng nhiều chúng ta có thể đã thấy sẽ loại trừ số đó. Đối với , chúng tôi sẽ từ chối giả thuyết rằng sau khi nhìn thấy . Nhưng với , chúng ta sẽ cần ít nhất để từ chối giả thuyết. Vì giả thuyết sai lệch hơn , nên việc chúng tôi không làm sai lệch là bằng chứng cho , hơn là không làm sai lệch là bằng chứng cho .N=1314,15,16,...N=1516N=13N=15N=13N=13N=15N=15

Vì vậy, mỗi khi chúng ta nhìn thấy một điểm dữ liệu, nó sẽ đặt phía sau của mọi thứ bên dưới nó thành 0 và tăng phía sau của mọi thứ khác, với các số nhỏ hơn sẽ nhận được mức tăng lớn nhất. Do đó, số nhận được mức tăng lớn nhất sẽ là số nhỏ nhất mà số sau không được đặt thành 0, tức là giá trị tối đa của các quan sát.

Các số nhỏ hơn mức tối đa ảnh hưởng đến mức tăng tối đa lớn hơn bao nhiêu , nhưng nó không ảnh hưởng đến xu hướng chung của mức tăng tối đa lớn nhất. Hãy xem xét ví dụ trên, nơi chúng ta đã thấy . Nếu số tiếp theo chúng ta thấy là , điều đó sẽ có ảnh hưởng gì? Nó giúp hơn , nhưng cả hai số đã bị từ chối, vì vậy điều đó không liên quan. Nó giúp đỡ hơn hơn , nhưng đã được giúp đỡ hơn , vì vậy điều đó không ảnh hưởng đến số nào đã được giúp đỡ nhiều nhất.1355613151315


Ví dụ này phụ thuộc rất nhiều vào tình huống và các tuyên bố không chung chung. Chẳng hạn, nếu mức ưu tiên là 50% cho 13 và 50% cho 15 thì quan sát của 13 không phải là "hậu thế của chúng tôi cho N = 13, 15 sẽ lớn hơn trước" Quan sát có thể làm giảm hậu thế so với trước .
Sextus Empiricus

Ngoài ra, việc quan sát các số bổ sung có thể thay đổi suy luận. Trong trường hợp "nếu số tiếp theo chúng ta thấy là 5 ..." thì số sau sẽ vẫn thay đổi, ngay cả khi các số đã được 'trợ giúp', các số bổ sung có thể tăng "giúp đỡ" này (Ví dụ: khi bạn lấy mẫu tất cả các số 1,2, ... 12, 13 thì điều này sẽ tăng sau 13 lần so với khi bạn chỉ lấy mẫu 13)
Sextus Empiricus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.