Tại sao chúng ta nên thảo luận về hành vi hội tụ của các công cụ ước tính khác nhau trong các cấu trúc liên kết khác nhau?


14

Trong chương đầu tiên của cuốn sách Hình học đại số và Lý thuyết học thống kê nói về sự hội tụ của các ước lượng trong không gian chức năng khác nhau, nó đề cập rằng ước lượng Bayes tương ứng với cấu trúc liên kết phân phối Schwartz, trong khi ước lượng khả năng tối đa tương ứng với cấu trúc liên kết siêu chuẩn (ở trang 7):

Ví dụ, siêu chuẩn, Lp -norm, cấu trúc liên kết yếu của không gian Hilbert L2 , cấu trúc liên kết phân phối Schwartz, v.v. Nó phụ thuộc rất nhiều vào cấu trúc liên kết của không gian hàm cho dù sự hội tụ Kn(w)K(w) có giữ hay không. Ước lượng Bayes tương ứng với cấu trúc liên kết phân phối Schwartz, trong khi khả năng tối đa hoặc phương pháp posteriori tương ứng với định mức siêu chuẩn. Sự khác biệt này ảnh hưởng mạnh đến kết quả học tập trong các mô hình số ít.

Trong đó K ( w ) tương ứng là phân kỳ KL theo kinh nghiệm (tổng hợp trên các quan sát) và phân kỳ KL thực (phân tích dữ liệu tích phân) giữa mô hình thực và mô hình tham số (với tham số w ).Kn(w)K(w)w

Bất cứ ai có thể đưa ra một lời giải thích, hoặc gợi ý cho tôi nơi nào trong cuốn sách có sự biện minh? Cảm ơn bạn.

Cập nhật : nội dung bản quyền được xóa.


là gì K n ? KKn
Taylor

@Taylor Tôi đã thêm một số thông tin cần thiết.
ziyuang

Tôi sẽ trả lời câu hỏi của bạn sau, tôi biết cuốn sách của watanabe tương đối tốt. Tuy nhiên, tôi rất không thích cách bạn trích dẫn một cuốn sách. Nó có thể gây ra vấn đề bản quyền tiềm ẩn nếu bạn đặt các phần trực tiếp ở đây. Sử dụng số trang và gõ trích dẫn với yếm thích hợp sẽ là lựa chọn tốt hơn.
Henry.L

@ Henry.L Cảm ơn, và các nội dung bản quyền được xóa.
ziyuang

@Henry: Mặc dù tôi tin rằng có giá trị trong việc thận trọng và có lương tâm trong việc sao chép các phần của các tác phẩm có bản quyền, tôi nghĩ, trong trường hợp này, ziyuang hoàn toàn không có gì phải lo lắng. Việc OP sử dụng các trích đoạn nhỏ cho phê bình học thuật rơi vào tình trạng rất nghiêm trọng trong học thuyết "sử dụng hợp lý" (Mỹ). Thật vậy, việc tái tạo chính xác đôi khi có thể đặc biệt có giá trị vì nó loại bỏ bất kỳ sự mơ hồ nào có thể được đưa ra bởi các phần còn lại của nội dung. (Tất cả những gì đã nói, IANAL.)
Đức hồng y

Câu trả lời:


2

Để hiểu được cuộc thảo luận của Watanabe, điều quan trọng là phải nhận ra rằng ý nghĩa của "điểm kỳ dị". Điểm kỳ dị (nghiêm ngặt) trùng khớp với khái niệm hình học của số liệu số ít trong lý thuyết của ông.

tr.10 [Watanabe]: "Một mô hình thống kê p(xw) được gọi là thường xuyên nếu nó có thể xác định được và có một số liệu xác định dương. Nếu một mô hình thống kê không đều, thì nó được gọi là số ít."

Trong thực tế, điểm kỳ dị thường phát sinh khi số liệu thông tin Fisher gây ra bởi mô hình bị suy biến trên đa tạp được xác định bởi mô hình, như các trường hợp xếp hạng thấp hoặc thưa thớt trong hoạt động "học máy".

Những gì Watanabe nói về sự hội tụ của phân kỳ KL theo kinh nghiệm với giá trị lý thuyết của nó có thể được hiểu như sau. Một nguồn gốc của khái niệm phân kỳ xuất phát từ số liệu thống kê mạnh mẽ. M-ước lượng, trong đó bao gồm MLE như một trường hợp đặc biệt có chức năng tương phản , thường được thảo luận sử dụng topo yếu. Thật hợp lý khi thảo luận về hành vi hội tụ bằng cách sử dụng cấu trúc liên kết yếu trên không gian M ( X ) (đa dạng của tất cả các biện pháp có thể được xác định trên không gian X của Ba Lanρ(θ,δ(X))=logp(Xθ)M(X)X) bởi vì chúng tôi muốn nghiên cứu hành vi mạnh mẽ của MLE. Một định lý cổ điển trong [Huber] tuyên bố rằng với cũng tách chức năng phân kỳ . inf | θ - θ 0 | ε ( | D ( θ 0 , θ ) - D ( θ 0 , q 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
và tốt xấp xỉ thực nghiệm chức năng trái ngược với phân kỳ, cùng với quy luật, chúng tôi có thể mang lại tính nhất quán trong ý nghĩa ^ θ n :=mộtrg
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
sẽ hội tụ về q 0 trong xác suất P θ 0 . Kết quả này đòi hỏi các điều kiện chính xác hơn nhiều nếu chúng ta so sánh với kết quả của Doob [Doob] về tính nhất quán yếu của công cụ ước tính Bayes.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

Vì vậy, ở đây ước tính Bayes và phân kỳ MLE. Nếu chúng ta vẫn sử dụng cấu trúc liên kết yếu để thảo luận về tính nhất quán của các công cụ ước tính Bayes, thì điều đó là vô nghĩa vì các công cụ ước tính Bayes sẽ luôn luôn (với xác suất một) được thống nhất bởi Doob. Do đó, một cấu trúc liên kết phù hợp hơn là cấu trúc liên kết phân phối Schwarz cho phép các dẫn xuất yếu và lý thuyết của von Mise ra đời. Barron đã có một báo cáo kỹ thuật rất hay về chủ đề này về cách chúng ta có thể sử dụng định lý Schwartz để có được sự thống nhất.

D

"Kết quả học tập duy nhất" bị ảnh hưởng bởi vì, như chúng ta thấy, định lý tính nhất quán của Doob đảm bảo rằng các ước lượng Bayesian nhất quán yếu (ngay cả trong mô hình số ít) trong cấu trúc liên kết yếu trong khi MLE phải đáp ứng một số yêu cầu nhất định trong cùng một cấu trúc liên kết.

Chỉ một từ, [Watanabe] không dành cho người mới bắt đầu. Nó có một số ý nghĩa sâu sắc đối với các bộ phân tích thực đòi hỏi sự trưởng thành toán học nhiều hơn hầu hết các nhà thống kê, vì vậy có lẽ không nên đọc nó nếu không có hướng dẫn thích hợp.

[Watanabe] Watanabe, Sumio. Hình học đại số và lý thuyết học thống kê. Tập 25. Nhà xuất bản Đại học Cambridge, 2009.

[Huber] Huber, Peter J. "Hành vi của ước tính khả năng tối đa trong điều kiện không đạt tiêu chuẩn." Kỷ yếu của hội nghị chuyên đề Berkeley thứ năm về thống kê và xác suất toán học. Tập 1. Số 1. 1967.

[Doob] Doob, Joseph L. "Ứng dụng lý thuyết của martingales." Le tính des probabilites et ses application (1949): 23-27.


Tôi đang cố gắng đưa ra một số trực giác cho các phần của câu trả lời để sửa cho tôi nếu tôi sai. Công cụ ước tính Bayes phù hợp nếu chúng ta xem nó như một công cụ ước tính điểm (MAP, chứ không phải là phân phối xác suất). Nó đòi hỏi ít điều kiện hơn cho tính nhất quán của nó so với MLE bằng trực giác vì hoạt động trước là chính quy. Mặt khác, cấu trúc liên kết phân phối Schwartz phù hợp hơn khi chúng ta xem công cụ ước tính Bayes là phân phối, nó cũng giúp xây dựng mối quan hệ chặt chẽ hơn giữa tính nhất quán của công cụ ước tính MLE và Bayes, do đó trường hợp một phân kỳ và các hội tụ khác sẽ không xảy ra .
ziyuang

Xin lỗi nhưng tôi không nghĩ lời giải thích của bạn là đúng. Các hoạt động trước như là một chính quy nhưng điều đó không nhất thiết kiểm soát tốc độ hội tụ. Trên thực tế các linh mục phẳng thực sự làm chậm sự hội tụ. Chúng chỉ đơn giản là hai cấu trúc liên kết khác nhau.
Henry.L
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.