Là tài sản bất biến của công cụ ước tính ML vô nghĩa theo quan điểm Bayes?

Casella và Berger nêu tài sản bất biến của công cụ ước tính ML như sau:

Tuy nhiên, đối với tôi, dường như họ định nghĩa "khả năng" của theo cách hoàn toàn phi lý và vô nghĩa: $\eta$

Nếu tôi áp dụng các quy tắc cơ bản của lý thuyết xác suất cho trường hợp đơn giản wheter , thay vào đó tôi nhận được những điều sau: Bây giờ áp dụng định lý Bayes, và sau đó thực tế là và loại trừ lẫn nhau để chúng ta có thể áp dụng quy tắc tính tổng: $\eta=\tau(\theta)=\theta^2$

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$

A

$A$

B

$B$

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Bây giờ áp dụng định lý Bayes cho các thuật ngữ trong tử số một lần nữa:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Nếu chúng tôi muốn tối đa hóa wrt này thành để có được ước tính khả năng tối đa của , chúng tôi phải tối đa hóa: $\eta$ $\eta$

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Bayes có tấn công nữa không? Casella & Berger có sai không? Hoặc là tôi sai?

— người dùng56834
nguồn

Có thể trùng lặp tài sản bất biến của công cụ ước tính khả năng tối đa?

— Sextus Empiricus

Phần chính thức sau "Nếu tôi áp dụng các quy tắc cơ bản của lý thuyết xác suất cho trường hợp đơn giản wheter " $\eta=\tau(\theta)=\theta^2$ không thay đổi câu hỏi. Vấn đề được đề cập đầy đủ trong câu trả lời xuất sắc từ Samuel Benidt. Các giá trị khả năng (và do đó là tối đa) không thay đổi do ánh xạ. Có, bạn cần phải đặc biệt cẩn thận nếu ánh xạ không phải là một. Nhưng đó là một vấn đề hoàn toàn khác với những thay đổi xảy ra do phân phối xác suất khi bạn áp dụng một biến đổi.

— Sextus Empiricus

Tôi hiểu sự thất vọng của bạn, Lập trình viên2134 (& @MartijnWeterings). Tuy nhiên, hãy cẩn thận với giọng điệu của bạn trong ý kiến của bạn. Cuộc trò chuyện năng suất chỉ có thể khi chính sách tốt đẹp của chúng tôi được tuân theo. Nếu bạn không quan tâm đến việc theo đuổi các cuộc trò chuyện hữu ích, bạn cần đăng những câu hỏi này ở nơi khác.

— gung - Phục hồi Monica

@gung, Bạn hoàn toàn đúng. Và tôi hối hận vì đã phản ứng với giai điệu đó. Tôi sẽ ngừng làm điều đó từ bây giờ. Xin lỗi vì điều này. Về cuộc trò chuyện, tôi thích theo đuổi những người có năng suất, nhưng cảm thấy rằng phản ứng của mọi người trong một vài câu hỏi mà tôi hỏi hầu hết đều phản tác dụng. Tuy nhiên, lần sau, tôi sẽ trả lời khác nhau.

— dùng56834

Cảm ơn bạn. Tốt nhất là giả định mọi người đang phản ứng với thiện chí. Có những dịp (tương đối ít, IMHO) mà mọi người ở đây không có, nhưng thậm chí sau đó, đôi khi họ có thể được dỗ dành để đi xung quanh.

— gung - Phục hồi Monica

Như Xi'an nói, câu hỏi vẫn còn, nhưng tôi nghĩ rằng nhiều người vẫn dẫn đến việc xem xét ước tính khả năng tối đa từ góc độ Bayes vì một tuyên bố xuất hiện trong một số tài liệu và trên internet: " khả năng tối đa ước tính là một trường hợp cụ thể của ước tính tối đa Bayesian, khi phân phối trước là thống nhất ".

Tôi muốn nói rằng từ góc độ Bayes, công cụ ước tính khả năng tối đa và tính bất biến của nó có thể có ý nghĩa, nhưng vai trò và ý nghĩa của công cụ ước tính trong lý thuyết Bayes rất khác với lý thuyết thường xuyên. Và công cụ ước tính đặc biệt này thường không hợp lý theo quan điểm của người Bayes. Đây là lý do tại sao. Để đơn giản, hãy để tôi xem xét một tham số một chiều và các phép biến đổi một chiều.

Trước hết hai nhận xét:

Có thể hữu ích khi xem xét một tham số như một đại lượng sống trên một đa tạp chung, trên đó chúng ta có thể chọn các hệ tọa độ hoặc đơn vị đo lường khác nhau. Từ quan điểm này, việc xác định lại thông số chỉ là thay đổi tọa độ. Ví dụ: nhiệt độ của điểm ba của nước là như nhau cho dù chúng ta biểu thị nó là (K), (° C), (° F) hoặc (a thang đo logarit). Suy luận và quyết định của chúng ta nên bất biến đối với việc phối hợp thay đổi. Tuy nhiên, một số hệ tọa độ có thể tự nhiên hơn các hệ thống khác. $T=273.16$ $t=0.01$ $\theta=32.01$ $\eta=5.61$
Xác suất cho các đại lượng liên tục luôn đề cập đến các khoảng (chính xác hơn là các tập hợp) các giá trị của các đại lượng đó, không bao giờ cho các giá trị cụ thể; mặc dù trong các trường hợp số ít, chúng ta có thể xem xét các tập hợp chỉ chứa một giá trị. Ký hiệu mật độ xác suất , theo kiểu tích phân Riemann, đang cho chúng ta biết rằng (a) chúng ta đã chọn một hệ tọa độ trên đa tạp tham số, (b) hệ tọa độ này cho phép chúng ta nói về các khoảng có chiều rộng bằng nhau, (c) xác suất giá trị nằm trong một khoảng nhỏ xấp xỉ , trong đó là một điểm trong khoảng $\mathrm{p}(x)\,\mathrm{d}x$
$x$

$\Delta x$ $\mathrm{p}(x)\,\Delta x$ $x$
(Ngoài ra, chúng ta có thể nói về một biện pháp Lebesgue cơ bản và các khoảng đo bằng nhau, nhưng bản chất là như nhau.) $\mathrm{d}x$

Do đó, một tuyên bố như " " không có nghĩa là xác suất cho lớn hơn so với , nhưng xác suất nằm trong một khoảng nhỏ khoảng lớn hơn xác suất nằm trong một khoảng có chiều rộng bằng nhau quanh . Tuyên bố như vậy là phụ thuộc phối hợp. $\mathrm{p}(x_1) > \mathrm{p}(x_2)$ $x_1$ $x_2$ $x$ $x_1$ $x_2$

Chúng ta hãy xem quan điểm khả năng tối đa (thường xuyên)
Từ quan điểm này, nói về xác suất cho một giá trị tham số đơn giản là vô nghĩa. Dấu chấm. Chúng tôi muốn biết giá trị tham số thực là gì và giá trị mang lại xác suất cao nhất cho dữ liệu trực giác không quá xa dấu: Đây là ước tính khả năng tối đa. $x$ $\tilde{x}$ $D$

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$

Công cụ ước tính này chọn một điểm trên đa tạp tham số và do đó không phụ thuộc vào bất kỳ hệ tọa độ nào. Nói cách khác: Mỗi điểm trên đa tạp tham số được liên kết với một số: xác suất cho dữ liệu ; chúng tôi đang chọn điểm có số lượng liên kết cao nhất. Sự lựa chọn này không yêu cầu một hệ tọa độ hoặc biện pháp cơ sở. Vì lý do này mà công cụ ước tính này là bất biến tham số hóa, và thuộc tính này cho chúng ta biết rằng đó không phải là một xác suất - như mong muốn. Tính bất biến này vẫn còn nếu chúng ta xem xét các phép biến đổi tham số phức tạp hơn và khả năng hồ sơ được đề cập bởi Xi'an có ý nghĩa hoàn toàn từ quan điểm này. $D$

Chúng ta hãy nhìn thấy điểm Bayesian của view
Từ quan điểm này nó luôn luôn có ý nghĩa để nói về xác suất cho một tham số liên tục, nếu chúng ta không chắc chắn về điều đó, có điều kiện trên dữ liệu và các bằng chứng khác . Chúng tôi viết cái này là Như đã nhận xét ở đầu, xác suất này đề cập đến các khoảng trên đa tạp tham số, không phải là các điểm đơn lẻ. $D$

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$

Tốt nhất là chúng ta nên báo cáo sự không chắc chắn của mình bằng cách chỉ định phân phối xác suất đầy đủ cho tham số. Vì vậy, khái niệm công cụ ước tính chỉ là thứ yếu theo quan điểm của người Bayes. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

Khái niệm này xuất hiện khi chúng ta phải chọn một điểm trên đa tạp tham số cho một số mục đích hoặc lý do cụ thể, mặc dù điểm thực sự chưa được biết. Sự lựa chọn này là lĩnh vực của lý thuyết quyết định [1] và giá trị được chọn là định nghĩa đúng của "công cụ ước tính" trong lý thuyết Bayes. Lý thuyết quyết định nói rằng trước tiên chúng ta phải giới thiệu một hàm tiện ích cho chúng ta biết chúng ta đạt được bao nhiêu bằng cách chọn điểm trên đa tạp tham số, khi điểm thực là (cách khác, chúng ta có thể nói một cách bi quan về chức năng mất). Hàm này sẽ có một biểu thức khác nhau trong mỗi hệ tọa độ, ví dụ: và $(P_0,P)\mapsto G(P_0; P)$ $P_0$ $P$ $(x_0,x)\mapsto G_x(x_0; x)$ $(y_0,y)\mapsto G_y(y_0; y)$ ; nếu phép biến đổi tọa độ là , hai biểu thức có liên quan bởi [2]. $y=f(x)$ $G_x(x_0;x) = G_y[f(x_0); f(x)]$

Hãy để tôi nhấn mạnh ngay lập tức rằng khi chúng ta nói, về một hàm tiện ích bậc hai, chúng ta đã ngầm chọn một hệ tọa độ cụ thể, thường là một hệ số tự nhiên cho tham số. Trong một hệ tọa độ khác, biểu thức cho hàm tiện ích nhìn chung sẽ không phải là bậc hai, nhưng nó vẫn là hàm tiện ích tương tự trên đa tạp tham số.

Ước tính liên kết với một chức năng tiện ích là điểm nhằm tối đa hóa các tiện ích dự kiến đưa dữ liệu của chúng tôi . Trong hệ tọa độ , tọa độ của nó là Định nghĩa này độc lập với thay đổi tọa độ: trong tọa độ mới tọa độ của công cụ ước tính là . Điều này xuất phát từ sự độc lập phối hợp của và tích phân. $\hat{P}$ $G$ $D$ $x$

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$

y = f (x)

$y=f(x)$

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$

G

$G$

Bạn thấy rằng loại bất biến này là một thuộc tính tích hợp của các công cụ ước tính Bayes.

Bây giờ chúng ta có thể hỏi: có một chức năng tiện ích dẫn đến một công cụ ước tính bằng với khả năng tối đa không? Vì công cụ ước tính khả năng tối đa là bất biến, nên một hàm như vậy có thể tồn tại. Từ quan điểm này, khả năng tối đa sẽ là vô nghĩa theo quan điểm Bayes nếu nó không bất biến!

Một hàm tiện ích trong một hệ tọa độ cụ thể bằng với Dirac delta, , dường như thực hiện công việc [3]. Phương trình mang lại và nếu trước đó trong là đồng nhất trong tọa độ , chúng tôi có được ước tính khả năng tối đa . Ngoài ra, chúng tôi có thể xem xét một chuỗi các chức năng tiện ích với sự hỗ trợ ngày càng nhỏ hơn, ví dụ: if và ở nơi khác, cho [4]. $x$ $G_x(x_0; x) = \delta(x_0-x)$ $\eqref{UF}$ $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ $\eqref{PD}$ $x$ $\eqref{ML}$ $G_x(x_0; x) = 1$ $\lvert x_0-x \rvert<\epsilon$ $G_x(x_0; x) = 0$ $\epsilon\to 0$

Vì vậy, vâng, công cụ ước tính khả năng tối đa và tính bất biến của nó có thể có ý nghĩa từ quan điểm Bayes, nếu chúng ta hào phóng về mặt toán học và chấp nhận các hàm tổng quát. Nhưng chính ý nghĩa, vai trò và việc sử dụng công cụ ước tính theo quan điểm Bayes hoàn toàn khác với quan điểm thường xuyên.

Tôi cũng nói thêm rằng dường như có những bảo lưu trong tài liệu về việc liệu hàm tiện ích được định nghĩa ở trên có ý nghĩa toán học hay không [5]. Trong mọi trường hợp, tính hữu dụng của chức năng tiện ích như vậy khá hạn chế: như Jaynes [3] chỉ ra, điều đó có nghĩa là "chúng tôi chỉ quan tâm đến cơ hội chính xác, và nếu chúng tôi sai, chúng tôi không quan tâm chúng ta đã sai như thế nào ".

Bây giờ hãy xem xét tuyên bố "khả năng tối đa là một trường hợp đặc biệt của max-a-posteriori với đồng phục trước". Điều quan trọng cần lưu ý là những gì xảy ra dưới sự thay đổi chung của tọa độ : 1. hàm tiện ích ở trên giả định một biểu thức khác, ; 2. mật độ trước trong tọa độ không đồng nhất , do yếu tố quyết định Jacobian; 3. công cụ ước tính không phải là tối đa của mật độ sau trong tọa độ , bởi vì đồng bằng Dirac đã có được một yếu tố nhân thêm; $y=f(x)$
$G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$
$y$
$y$
4. công cụ ước tính vẫn được đưa ra bởi mức tối đa của khả năng trong tọa độ , mới . Những thay đổi này kết hợp sao cho điểm ước tính vẫn giống nhau trên đa tạp tham số. $y$

Do đó, tuyên bố trên hoàn toàn giả định một hệ tọa độ đặc biệt. Một tuyên bố dự kiến, rõ ràng hơn có thể là thế này: "công cụ ước tính khả năng tối đa bằng số lượng với công cụ ước tính Bayes rằng trong một số hệ tọa độ có chức năng tiện ích delta và thống nhất trước".

Nhận xét cuối cùng
Cuộc thảo luận ở trên là không chính thức, nhưng có thể được thực hiện chính xác bằng cách sử dụng lý thuyết đo lường và tích hợp Stieltjes.

Trong tài liệu Bayes, chúng ta cũng có thể tìm thấy một khái niệm không chính thức hơn về công cụ ước tính: đó là một con số bằng cách nào đó "tóm tắt" phân phối xác suất, đặc biệt là khi nó bất tiện hoặc không thể chỉ định mật độ đầy đủ của nó ; xem ví dụ Murphy [6] hoặc MacKay [7]. Khái niệm này thường được tách ra khỏi lý thuyết quyết định, và do đó có thể phụ thuộc vào tọa độ hoặc ngầm giả định một hệ tọa độ cụ thể. Nhưng trong định nghĩa lý thuyết quyết định của công cụ ước tính, một cái gì đó không bất biến không thể là một công cụ ước tính. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

[1] Ví dụ, H. Raiffa, R. Schlaifer: Lý thuyết quyết định thống kê ứng dụng (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Phân tích, Manifold và Vật lý. Phần I: Khái niệm cơ bản (Elsevier 1996), hoặc bất kỳ cuốn sách hay nào khác về hình học vi phân.
[3] ET Jaynes: Lý thuyết xác suất: Logic của khoa học (Nhà xuất bản Đại học Cambridge 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Lý thuyết Bayes (Wiley 2000), §5.1.5.
[5] IH Jermyn: Ước lượng Bayesian bất biến trên đa tạp https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Tối đa một người ước tính posteriori là giới hạn của người ước tính Bayes https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Học máy: Quan điểm xác suất (MIT Press 2012), đặc biệt là chap. 5.
[7] DJC MacKay: Lý thuyết thông tin, suy luận và thuật toán học tập (Nhà xuất bản Đại học Cambridge 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

— pglpm
nguồn

Có những cách để xác định các ước lượng Bayes bất biến, theo nghĩa trên, bằng cách tạo ra một hàm mất chức năng, ví dụ như phân kỳ Kullback - Leibler giữa hai mật độ. Tôi gọi những tổn thất này là tổn thất nội tại trong một bài báo năm 1996 .

— Tây An

Từ quan điểm không thuộc Bayes, không có định nghĩa về đại lượng như vì sau đó là một tham số cố định và ký hiệu điều hòa không không có ý nghĩa Giải pháp thay thế mà bạn đề xuất phụ thuộc vào phân phối trước đó, đó chính xác là cách tiếp cận như phương pháp do Casella và Berger đề xuất muốn tránh. Bạn có thể kiểm tra khả năng hồ sơ từ khóa cho nhiều mục. (Và không có ý nghĩa của hoặc ở đó.)

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$

θ

$\theta$ rightwrong

— Tây An
nguồn

Làm thế nào điều này mâu thuẫn với những gì tôi đang nói? Quan điểm của tôi là nó vô lý theo quan điểm của người Bayes . Vấn đề tôi gặp phải với giải pháp của Casella và Berger, về cơ bản, họ đưa ra một định nghĩa đặc biệt hoàn toàn mới về khả năng, theo cách mà đạt được kết luận mong muốn của họ. Nếu người ta đưa ra một định nghĩa nhất quán về khả năng, cụ thể là cái tôi đã đưa ra ở trên, thì kết luận sẽ khác. Tất nhiên Casella và Berger có thể muốn tránh đưa vào các linh mục, nhưng cách duy nhất để làm điều đó là đưa ra một sự thay đổi đột xuất về định nghĩa về khả năng.

— dùng56834

Nếu bạn muốn giữ một viễn cảnh Bayes, câu hỏi là phải tranh luận vì hầu hết các kết quả phi Bayes sẽ không có ý nghĩa hoặc "phù hợp" với các nguyên tắc Bayes.

— Tây An