Như Xi'an nói, câu hỏi vẫn còn, nhưng tôi nghĩ rằng nhiều người vẫn dẫn đến việc xem xét ước tính khả năng tối đa từ góc độ Bayes vì một tuyên bố xuất hiện trong một số tài liệu và trên internet: " khả năng tối đa ước tính là một trường hợp cụ thể của ước tính tối đa Bayesian, khi phân phối trước là thống nhất ".
Tôi muốn nói rằng từ góc độ Bayes, công cụ ước tính khả năng tối đa và tính bất biến của nó có thể có ý nghĩa, nhưng vai trò và ý nghĩa của công cụ ước tính trong lý thuyết Bayes rất khác với lý thuyết thường xuyên. Và công cụ ước tính đặc biệt này thường không hợp lý theo quan điểm của người Bayes. Đây là lý do tại sao. Để đơn giản, hãy để tôi xem xét một tham số một chiều và các phép biến đổi một chiều.
Trước hết hai nhận xét:
Có thể hữu ích khi xem xét một tham số như một đại lượng sống trên một đa tạp chung, trên đó chúng ta có thể chọn các hệ tọa độ hoặc đơn vị đo lường khác nhau. Từ quan điểm này, việc xác định lại thông số chỉ là thay đổi tọa độ. Ví dụ: nhiệt độ của điểm ba của nước là như nhau cho dù chúng ta biểu thị nó là (K), (° C), (° F) hoặc (a thang đo logarit). Suy luận và quyết định của chúng ta nên bất biến đối với việc phối hợp thay đổi. Tuy nhiên, một số hệ tọa độ có thể tự nhiên hơn các hệ thống khác.T= 273,16t = 0,01θ = 32,01η= 5,61
Xác suất cho các đại lượng liên tục luôn đề cập đến các khoảng (chính xác hơn là các tập hợp) các giá trị của các đại lượng đó, không bao giờ cho các giá trị cụ thể; mặc dù trong các trường hợp số ít, chúng ta có thể xem xét các tập hợp chỉ chứa một giá trị. Ký hiệu mật độ xác suất , theo kiểu tích phân Riemann, đang cho chúng ta biết rằng
(a) chúng ta đã chọn một hệ tọa độ trên đa tạp tham số,
(b) hệ tọa độ này cho phép chúng ta nói về các khoảng có chiều rộng bằng nhau,
(c) xác suất giá trị nằm trong một khoảng nhỏ xấp xỉ , trong đó là một điểm trong khoảngp ( x )d xx Δ x p ( x )
x
Δ xp ( x )Δ xxd x
(Ngoài ra, chúng ta có thể nói về một biện pháp Lebesgue cơ bản và các khoảng đo bằng nhau, nhưng bản chất là như nhau.)d x
Do đó, một tuyên bố như " " không có nghĩa là xác suất cho lớn hơn so với , nhưng xác suất nằm trong một khoảng nhỏ khoảng lớn hơn xác suất nằm trong một khoảng có chiều rộng bằng nhau quanh . Tuyên bố như vậy là phụ thuộc phối hợp.p ( x1) > p ( x2)x1x2xx1x2
Chúng ta hãy xem quan điểm khả năng tối đa (thường xuyên)
Từ quan điểm này, nói về xác suất cho một giá trị tham số đơn giản là vô nghĩa. Dấu chấm. Chúng tôi muốn biết giá trị tham số thực là gì và giá trị mang lại xác suất cao nhất cho dữ liệu trực giác không quá xa dấu:
Đây là ước tính khả năng tối đa.xx~Dx~:=argmaxxp(D∣x).(*)
Công cụ ước tính này chọn một điểm trên đa tạp tham số và do đó không phụ thuộc vào bất kỳ hệ tọa độ nào. Nói cách khác: Mỗi điểm trên đa tạp tham số được liên kết với một số: xác suất cho dữ liệu ; chúng tôi đang chọn điểm có số lượng liên kết cao nhất. Sự lựa chọn này không yêu cầu một hệ tọa độ hoặc biện pháp cơ sở. Vì lý do này mà công cụ ước tính này là bất biến tham số hóa, và thuộc tính này cho chúng ta biết rằng đó không phải là một xác suất - như mong muốn. Tính bất biến này vẫn còn nếu chúng ta xem xét các phép biến đổi tham số phức tạp hơn và khả năng hồ sơ được đề cập bởi Xi'an có ý nghĩa hoàn toàn từ quan điểm này.D
Chúng ta hãy nhìn thấy điểm Bayesian của view
Từ quan điểm này nó luôn luôn có ý nghĩa để nói về xác suất cho một tham số liên tục, nếu chúng ta không chắc chắn về điều đó, có điều kiện trên dữ liệu và các bằng chứng khác . Chúng tôi viết cái này là
Như đã nhận xét ở đầu, xác suất này đề cập đến các khoảng trên đa tạp tham số, không phải là các điểm đơn lẻ.Dp(x∣D)dx∝p(D∣x)p(x)dx.(**)
Tốt nhất là chúng ta nên báo cáo sự không chắc chắn của mình bằng cách chỉ định phân phối xác suất đầy đủ cho tham số. Vì vậy, khái niệm công cụ ước tính chỉ là thứ yếu theo quan điểm của người Bayes.p(x∣D)dx
Khái niệm này xuất hiện khi chúng ta phải chọn một điểm trên đa tạp tham số cho một số mục đích hoặc lý do cụ thể, mặc dù điểm thực sự chưa được biết. Sự lựa chọn này là lĩnh vực của lý thuyết quyết định [1] và giá trị được chọn là định nghĩa đúng của "công cụ ước tính" trong lý thuyết Bayes. Lý thuyết quyết định nói rằng trước tiên chúng ta phải giới thiệu một hàm tiện ích cho chúng ta biết chúng ta đạt được bao nhiêu bằng cách chọn điểm trên đa tạp tham số, khi điểm thực là (cách khác, chúng ta có thể nói một cách bi quan về chức năng mất). Hàm này sẽ có một biểu thức khác nhau trong mỗi hệ tọa độ, ví dụ: và(P0,P)↦G(P0;P)P0P(x0,x)↦Gx(x0;x)(y0,y)↦Gy(y0;y); nếu phép biến đổi tọa độ là , hai biểu thức có liên quan bởi [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]
Hãy để tôi nhấn mạnh ngay lập tức rằng khi chúng ta nói, về một hàm tiện ích bậc hai, chúng ta đã ngầm chọn một hệ tọa độ cụ thể, thường là một hệ số tự nhiên cho tham số. Trong một hệ tọa độ khác, biểu thức cho hàm tiện ích nhìn chung sẽ không phải là bậc hai, nhưng nó vẫn là hàm tiện ích tương tự trên đa tạp tham số.
Ước tính liên kết với một chức năng tiện ích là điểm nhằm tối đa hóa các tiện ích dự kiến đưa dữ liệu của chúng tôi . Trong hệ tọa độ , tọa độ của nó là
Định nghĩa này độc lập với thay đổi tọa độ: trong tọa độ mới tọa độ của công cụ ước tính là . Điều này xuất phát từ sự độc lập phối hợp của và tích phân.P^GDxx^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
y=f(x)y^=f(x^)G
Bạn thấy rằng loại bất biến này là một thuộc tính tích hợp của các công cụ ước tính Bayes.
Bây giờ chúng ta có thể hỏi: có một chức năng tiện ích dẫn đến một công cụ ước tính bằng với khả năng tối đa không? Vì công cụ ước tính khả năng tối đa là bất biến, nên một hàm như vậy có thể tồn tại. Từ quan điểm này, khả năng tối đa sẽ là vô nghĩa theo quan điểm Bayes nếu nó không bất biến!
Một hàm tiện ích trong một hệ tọa độ cụ thể bằng với Dirac delta, , dường như thực hiện công việc [3]. Phương trình mang lại và nếu trước đó trong là đồng nhất trong tọa độ , chúng tôi có được ước tính khả năng tối đa . Ngoài ra, chúng tôi có thể xem xét một chuỗi các chức năng tiện ích với sự hỗ trợ ngày càng nhỏ hơn, ví dụ: if và ở nơi khác, cho [4].xGx(x0;x)=δ(x0−x)(***)(***)xx^=argmaxxp(x∣D)(**)x(*)Gx(x0;x)=1|x0−x|<ϵGx(x0;x)=0ϵ→0
Vì vậy, vâng, công cụ ước tính khả năng tối đa và tính bất biến của nó có thể có ý nghĩa từ quan điểm Bayes, nếu chúng ta hào phóng về mặt toán học và chấp nhận các hàm tổng quát. Nhưng chính ý nghĩa, vai trò và việc sử dụng công cụ ước tính theo quan điểm Bayes hoàn toàn khác với quan điểm thường xuyên.
Tôi cũng nói thêm rằng dường như có những bảo lưu trong tài liệu về việc liệu hàm tiện ích được định nghĩa ở trên có ý nghĩa toán học hay không [5]. Trong mọi trường hợp, tính hữu dụng của chức năng tiện ích như vậy khá hạn chế: như Jaynes [3] chỉ ra, điều đó có nghĩa là "chúng tôi chỉ quan tâm đến cơ hội chính xác, và nếu chúng tôi sai, chúng tôi không quan tâm chúng ta đã sai như thế nào ".
Bây giờ hãy xem xét tuyên bố "khả năng tối đa là một trường hợp đặc biệt của max-a-posteriori với đồng phục trước". Điều quan trọng cần lưu ý là những gì xảy ra dưới sự thay đổi chung của tọa độ :
1. hàm tiện ích ở trên giả định một biểu thức khác, ;
2. mật độ trước trong tọa độ không đồng nhất , do yếu tố quyết định Jacobian;
3. công cụ ước tính không phải là tối đa của mật độ sau trong tọa độ , bởi vì đồng bằng Dirac đã có được một yếu tố nhân thêm;y=f(x)
Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|
y
y
4. công cụ ước tính vẫn được đưa ra bởi mức tối đa của khả năng trong tọa độ , mới .
Những thay đổi này kết hợp sao cho điểm ước tính vẫn giống nhau trên đa tạp tham số.y
Do đó, tuyên bố trên hoàn toàn giả định một hệ tọa độ đặc biệt. Một tuyên bố dự kiến, rõ ràng hơn có thể là thế này: "công cụ ước tính khả năng tối đa bằng số lượng với công cụ ước tính Bayes rằng trong một số hệ tọa độ có chức năng tiện ích delta và thống nhất trước".
Nhận xét cuối cùng
Cuộc thảo luận ở trên là không chính thức, nhưng có thể được thực hiện chính xác bằng cách sử dụng lý thuyết đo lường và tích hợp Stieltjes.
Trong tài liệu Bayes, chúng ta cũng có thể tìm thấy một khái niệm không chính thức hơn về công cụ ước tính: đó là một con số bằng cách nào đó "tóm tắt" phân phối xác suất, đặc biệt là khi nó bất tiện hoặc không thể chỉ định mật độ đầy đủ của nó ; xem ví dụ Murphy [6] hoặc MacKay [7]. Khái niệm này thường được tách ra khỏi lý thuyết quyết định, và do đó có thể phụ thuộc vào tọa độ hoặc ngầm giả định một hệ tọa độ cụ thể. Nhưng trong định nghĩa lý thuyết quyết định của công cụ ước tính, một cái gì đó không bất biến không thể là một công cụ ước tính.p(x∣D)dx
[1] Ví dụ, H. Raiffa, R. Schlaifer: Lý thuyết quyết định thống kê ứng dụng (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Phân tích, Manifold và Vật lý. Phần I: Khái niệm cơ bản (Elsevier 1996), hoặc bất kỳ cuốn sách hay nào khác về hình học vi phân.
[3] ET Jaynes: Lý thuyết xác suất: Logic của khoa học (Nhà xuất bản Đại học Cambridge 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Lý thuyết Bayes (Wiley 2000), §5.1.5.
[5] IH Jermyn: Ước lượng Bayesian bất biến trên đa tạp https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Tối đa một người ước tính posteriori là giới hạn của người ước tính Bayes https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Học máy: Quan điểm xác suất (MIT Press 2012), đặc biệt là chap. 5.
[7] DJC MacKay: Lý thuyết thông tin, suy luận và thuật toán học tập (Nhà xuất bản Đại học Cambridge 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .