1. VẤN ĐỀ KHÔNG CHÍNH XÁC.
Hai phần tiếp theo của ghi chú này phân tích các vấn đề "đoán lớn hơn" và "hai đường bao" bằng các công cụ tiêu chuẩn của lý thuyết quyết định (2). Cách tiếp cận này, mặc dù đơn giản, dường như là mới. Cụ thể, nó xác định một tập hợp các thủ tục quyết định cho vấn đề hai phong bì vượt trội hơn hẳn so với các trò chơi luôn luôn chuyển đổi hoặc hoặc không bao giờ chuyển đổi thủ tục.
Phần 2 giới thiệu thuật ngữ, tiêu chuẩn và khái niệm (tiêu chuẩn). Nó phân tích tất cả các thủ tục quyết định có thể cho "đoán đó là vấn đề lớn hơn." Độc giả quen thuộc với tài liệu này có thể muốn bỏ qua phần này. Phần 3 áp dụng phân tích tương tự cho vấn đề hai phong bì. Phần 4, kết luận, tóm tắt các điểm chính.
Tất cả các phân tích được công bố của những câu đố này cho rằng có một phân phối xác suất chi phối các trạng thái có thể có của tự nhiên. Giả định này, tuy nhiên, không phải là một phần của các câu đố. Ý tưởng chính cho các phân tích này là việc bỏ giả định (không chính đáng) này dẫn đến một giải pháp đơn giản cho những nghịch lý rõ ràng trong những câu đố này.
2. HƯỚNG DẪN CỦA NỀN TẢNG LÀ VẤN ĐỀ LARGER.
Một người thí nghiệm được cho biết rằng các số thực và x 2 khác nhau được viết trên hai tờ giấy. Cô nhìn vào con số trên một phiếu được chọn ngẫu nhiên. Chỉ dựa trên một quan sát này, cô phải quyết định xem nó nhỏ hơn hay lớn hơn trong hai số.x1x2
Các vấn đề đơn giản nhưng có kết thúc mở như thế này về xác suất nổi tiếng là khó hiểu và phản trực giác. Cụ thể, có ít nhất ba cách khác nhau để xác suất đi vào hình ảnh. Để làm rõ điều này, hãy áp dụng quan điểm thử nghiệm chính thức (2).
Bắt đầu bằng cách chỉ định một chức năng mất . Mục tiêu của chúng tôi sẽ là giảm thiểu sự mong đợi của nó, theo nghĩa được xác định dưới đây. Một lựa chọn tốt là làm cho tổn thất bằng khi người thí nghiệm đoán đúng và 0 khác. Kỳ vọng của hàm mất này là xác suất đoán không chính xác. Nói chung, bằng cách gán các hình phạt khác nhau cho các dự đoán sai, hàm mất sẽ nắm bắt mục tiêu đoán chính xác. Để chắc chắn, việc áp dụng hàm mất mát là tùy ý như giả sử phân phối xác suất trước trên x 1 và x 210x1x2, nhưng nó là tự nhiên và cơ bản hơn. Khi chúng ta phải đối mặt với việc đưa ra quyết định, chúng ta tự nhiên xem xét hậu quả của việc đúng hay sai. Nếu không có hậu quả nào, thì tại sao phải quan tâm? Chúng tôi hoàn toàn thực hiện các cân nhắc về tổn thất tiềm năng bất cứ khi nào chúng tôi đưa ra quyết định (hợp lý) và vì vậy chúng tôi được hưởng lợi từ việc xem xét rõ ràng về mất mát, trong khi việc sử dụng xác suất để mô tả các giá trị có thể có trên tờ giấy là không cần thiết, giả tạo và chúng ta sẽ thấy, có thể ngăn chúng ta có được các giải pháp hữu ích.
Mô hình lý thuyết quyết định kết quả quan sát và phân tích của chúng tôi về chúng. Nó sử dụng ba đối tượng toán học bổ sung: một không gian mẫu, một tập hợp các trạng thái tự nhiên, và một thủ tục quyết định.
Không gian mẫu bao gồm tất cả các quan sát có thể; ở đây có thể xác định bằng R (tập hợp các số thực). SR
Các trạng thái tự nhiên là các phân phối xác suất có thể chi phối kết quả thí nghiệm. (Đây là cảm giác đầu tiên mà chúng tôi có thể nói chuyện về “khả năng” của một sự kiện.) Trong mục “đoán đó là lớn hơn” vấn đề, đó là những phân bố rời rạc lấy giá trị tại các số thực khác biệt x 1 và x 2 với xác suất bằng của 1Ωx1x2 tại mỗi giá trị. Ω thể được tham số bởi{ω=(x1,x2)∈R×R| x1>x2}.12Ω{ω=(x1,x2)∈R×R | x1>x2}.
Không gian quyết định là tập hợp nhị phân các quyết định có thể.Δ={smaller,larger}
Trong các điều khoản, hàm tổn thất là một hàm giá trị thực được xác định trên . Nó cho chúng ta biết quyết định của người xấu thế nào (đối số thứ hai) so với thực tế (đối số thứ nhất).Ω×Δ
Các thủ tục quyết định chung nhất sẵn cho các thí nghiệm là một ngẫu nhiên một: giá trị của nó đối với bất kỳ kết quả thực nghiệm là một phân bố xác suất trên ΔδΔ . Đó là, quyết định để thực hiện khi quan sát kết quả không nhất thiết phải rõ ràng, nhưng thay vì là để được lựa chọn một cách ngẫu nhiên theo một bản phân phối δ ( x ) . (Đây là cách thứ hai trong đó xác suất có thể liên quan.)xδ(x)
Khi chỉ có hai yếu tố, bất kỳ thủ tục ngẫu nhiên có thể được xác định bởi khả năng nó gán cho một quyết định được xác định trước, mà là bê tông chúng ta cho là “lớn hơn.” Δ
Một dụng cụ vật lý spinner một thủ tục ngẫu nhiên nhị phân ví dụ: con trỏ tự do quay sẽ đến dừng lại ở khu vực phía trên, tương ứng với một quyết định trong , với xác suất δ , và nếu không sẽ dừng lại ở khu vực phía dưới bên trái với xác suất 1 - δ ( x ) . Spinner là hoàn toàn xác định bằng cách xác định giá trị của δ ( x ) ∈ [ 0 , 1 ] .Δδ1−δ(x)δ(x)∈[0,1]
Do đó, một thủ tục quyết định có thể được coi là một chức năng
δ′:S→[0,1],
Ở đâu
Prδ(x)(larger)=δ′(x) and Prδ(x)(smaller)=1−δ′(x).
Ngược lại, bất kỳ chức năng nào như vậy xác định thủ tục quyết định ngẫu nhiên. Các quyết định ngẫu nhiên bao gồm quyết định xác định trong trường hợp đặc biệt, nếu phạm vi của δ 'δ′δ′ nằm trong {0,1} .
Chúng ta hãy nói rằng chi phí của một thủ tục quyết định cho một kết quả x là sự mất mát dự kiến của δ ( x ) . Kỳ vọng là đối với phân bố xác suất với δ ( x ) trên không gian quyết định Δ . Mỗi tiểu bang có tính chất ω (trong đó, thu hồi, là một phân bố xác suất nhị thức trên không gian mẫu S ) xác định chi phí dự kiến của bất kỳ thủ tục δ ; đây là nguy cơ của δ cho ω , rủi ro δ ( ω )δxδ(x)δ(x)ΔωSδδωRiskδ(ω). Ở đây, sự mong đợi được thực hiện đối với tình trạng của thiên nhiên với ω .
Thủ tục quyết định được so sánh về chức năng rủi ro của họ. Khi trạng thái của thiên nhiên là thực sự không rõ, và δ là hai thủ tục, và rủi ro ε ( ω ) ≥ rủi ro δ ( ω ) cho tất cả ω , sau đó không có ý nghĩa trong việc sử dụng thủ tục ε , vì thủ tục δ là không bao giờ bất kỳ tồi tệ hơn ( và có thể tốt hơn trong một số trường hợp). Một ví dụ thủ tục εεδRiskε(ω)≥Riskδ(ω)ωεδε là không thể chấp nhận; mặt khác, nó được chấp nhận Thường có nhiều thủ tục chấp nhận tồn tại. Chúng tôi sẽ xem xét bất kỳ ai trong số họ tốt bụng vì không ai trong số họ có thể được thực hiện nhất quán bằng một số thủ tục khác.
Lưu ý rằng không có phân phối trước khi được giới thiệu trên (một “chiến lược hỗn hợp cho C ” trong thuật ngữ của (1)). Đây là cách thứ ba trong đó xác suất có thể là một phần của cài đặt vấn đề. Sử dụng nó làm cho phân tích hiện tại tổng quát hơn so với (1) và các tham chiếu của nó, trong khi vẫn đơn giản hơn.ΩC
Bảng 1 đánh giá rủi ro khi trạng thái tự nhiên thực sự được cho bởi Nhắc lại rằng x 1 > x 2 .ω=(x1,x2).x1>x2.
Bảng 1.
Decision:Outcomex1x2Probability1/21/2LargerProbabilityδ′(x1)δ′(x2)LargerLoss01SmallerProbability1−δ′(x1)1−δ′(x2)SmallerLoss10Cost1−δ′(x1)1−δ′(x2)
Risk(x1,x2): (1−δ′(x1)+δ′(x2))/2.
In these terms the “guess which is larger” problem becomes
Given you know nothing about x1 and x2, except that they are distinct, can you find a decision procedure δ for which the risk [1–δ′(max(x1,x2))+δ′(min(x1,x2))]/2 is surely less than 12?
This statement is equivalent to requiring δ′(x)>δ′(y) whenever x>y. Whence, it is necessary and sufficient for the experimenter's decision procedure to be specified by some strictly increasing function δ′:S→[0,1]. This set of procedures includes, but is larger than, all the “mixed strategies Q” of 1. There are lots of randomized decision procedures that are better than any unrandomized procedure!
3. THE “TWO ENVELOPE” PROBLEM.
It is encouraging that this straightforward analysis disclosed a large set of solutions to the “guess which is larger” problem, including good ones that have not been identified before. Let us see what the same approach can reveal about the other problem before us, the “two envelope” problem (or “box problem,” as it is sometimes called). This concerns a game played by randomly selecting one of two envelopes, one of which is known to have twice as much money in it as the other. After opening the envelope and observing the amount x of money in it, the player decides whether to keep the money in the unopened envelope (to “switch”) or to keep the money in the opened envelope. One would think that switching and not switching would be equally acceptable strategies, because the player is equally uncertain as to which envelope contains the larger amount. The paradox is that switching seems to be the superior option, because it offers “equally probable” alternatives between payoffs of 2x and x/2, whose expected value of 5x/4 exceeds the value in the opened envelope. Note that both these strategies are deterministic and constant.
In this situation, we may formally write
SΩΔ={x∈R | x>0},={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},and={Switch,Do not switch}.
As before, any decision procedure δ can be considered a function from S to [0,1], this time by associating it with the probability of not switching, which again can be written δ′(x). The probability of switching must of course be the complementary value 1–δ′(x).
The loss, shown in Table 2, is the negative of the game's payoff. It is a function of the true state of nature ω, the outcome x (which can be either ω or 2ω), and the decision, which depends on the outcome.
Table 2.
Outcome(x)ω2ωLossSwitch−2ω−ωLossDo not switch−ω−2ωCost−ω[2(1−δ′(ω))+δ′(ω)]−ω[1−δ′(2ω)+2δ′(2ω)]
In addition to displaying the loss function, Table 2 also computes the cost of an arbitrary decision procedure δ. Because the game produces the two outcomes with equal probabilities of 12, the risk when ω is the true state of nature is
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
A constant procedure, which means always switching (δ′(x)=0) or always standing pat (δ′(x)=1), will have risk −3ω/2. Any strictly increasing function, or more generally, any function δ′ with range in [0,1] for which δ′(2x)>δ′(x) for all positive real x, determines a procedure δ having a risk function that is always strictly less than −3ω/2 and thus is superior to either constant procedure, regardless of the true state of nature ω! The constant procedures therefore are inadmissible because there exist procedures with risks that are sometimes lower, and never higher, regardless of the state of nature.
Comparing this to the preceding solution of the “guess which is larger” problem shows the close connection between the two. In both cases, an appropriately chosen randomized procedure is demonstrably superior to the “obvious” constant strategies.
These randomized strategies have some notable properties:
There are no bad situations for the randomized strategies: no matter how the amount of money in the envelope is chosen, in the long run these strategies will be no worse than a constant strategy.
No randomized strategy with limiting values of 0 and 1 dominates any of the others: if the expectation for δ when (ω,2ω) is in the envelopes exceeds the expectation for ε, then there exists some other possible state with (η,2η) in the envelopes and the expectation of ε exceeds that of δ .
The δ strategies include, as special cases, strategies equivalent to many of the Bayesian strategies. Any strategy that says “switch if x is less than some threshold T and stay otherwise” corresponds to δ(x)=1 when x≥T,δ(x)=0 otherwise.
What, then, is the fallacy in the argument that favors always switching? It lies in the implicit assumption that there is any probability distribution at all for the alternatives. Specifically, having observed x in the opened envelope, the intuitive argument for switching is based on the conditional probabilities Prob(Amount in unopened envelope | x was observed), which are probabilities defined on the set of underlying states of nature. But these are not computable from the data. The decision-theoretic framework does not require a probability distribution on Ω in order to solve the problem, nor does the problem specify one.
This result differs from the ones obtained by (1) and its references in a subtle but important way. The other solutions all assume (even though it is irrelevant) there is a prior probability distribution on Ω and then show, essentially, that it must be uniform over S. That, in turn, is impossible. However, the solutions to the two-envelope problem given here do not arise as the best decision procedures for some given prior distribution and thereby are overlooked by such an analysis. In the present treatment, it simply does not matter whether a prior probability distribution can exist or not. We might characterize this as a contrast between being uncertain what the envelopes contain (as described by a prior distribution) and being completely ignorant of their contents (so that no prior distribution is relevant).
4. CONCLUSIONS.
In the “guess which is larger” problem, a good procedure is to decide randomly that the observed value is the larger of the two, with a probability that increases as the observed value increases. There is no single best procedure. In the “two envelope” problem, a good procedure is again to decide randomly that the observed amount of money is worth keeping (that is, that it is the larger of the two), with a probability that increases as the observed value increases. Again there is no single best procedure. In both cases, if many players used such a procedure and independently played games for a given ω, then (regardless of the value of ω) on the whole they would win more than they lose, because their decision procedures favor selecting the larger amounts.
In both problems, making an additional assumption-—a prior distribution on the states of nature—-that is not part of the problem gives rise to an apparent paradox. By focusing on what is specified in each problem, this assumption is altogether avoided (tempting as it may be to make), allowing the paradoxes to disappear and straightforward solutions to emerge.
REFERENCES
(1) D. Samet, I. Samet, and D. Schmeidler, One Observation behind Two-Envelope Puzzles. American Mathematical Monthly 111 (April 2004) 347-351.
(2) J. Kiefer, Introduction to Statistical Inference. Springer-Verlag, New York, 1987.
sum(p(X) * (1/2X*f(X) + 2X(1-f(X)) ) = X
, trong đó f (X) là khả năng phong bì đầu tiên lớn hơn, được đưa ra cho bất kỳ X. cụ thể nào