Câu hỏi về bootstrap tham số và không tham số


14

Tôi đang đọc chương về Thống kê thường xuyên từ cuốn sách " Học máy - Quan điểm xác suất " của Kevin Murphy . Phần trên bootstrap có nội dung:

Bootstrap là một kỹ thuật Monte Carlo đơn giản để xấp xỉ phân phối lấy mẫu. Điều này đặc biệt hữu ích trong trường hợp công cụ ước tính là một hàm phức tạp của các tham số thực.

Ý tưởng rất đơn giản. Nếu chúng ta biết các tham số thực , chúng ta có thể tạo ra nhiều bộ dữ liệu giả ( S ), mỗi kích thước N , từ phân phối thực, x_i ^ s \ sim p (· | θ ^ ∗) , cho s = 1: S, i = 1: N . Sau đó, chúng tôi có thể tính toán công cụ ước tính của chúng tôi từ mỗi mẫu, \ hat {\ theta ^ s} = f (x ^ s_ {1: N}) và sử dụng phân phối theo kinh nghiệm của các mẫu kết quả làm ước tính phân phối mẫu của chúng tôi. Vì \ theta không xác định, nên ý tưởng của bootstrap tham số là tạo các mẫu bằng cách sử dụng \ hat {\ theta} (D) . SN x s i ~p(· | θ * )s=1:S,i=1:N ^ θ s =f( x s 1 : N )θθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Một thay thế, được gọi là bootstrap không tham số , là lấy mẫu xis (có thay thế) từ dữ liệu gốc D , sau đó tính toán phân phối cảm ứng như trước. Một số phương pháp để tăng tốc bootstrap khi áp dụng cho các tập dữ liệu lớn được thảo luận trong (Kleiner et al. 2011).

  • 1 . Văn bản nói:

    Nếu chúng ta biết các tham số thực sự θ ... chúng ta có thể tính toán công cụ ước tính của mình từ mỗi mẫu, θs^ ...

        nhưng tại sao tôi lại sử dụng công cụ ước tính của từng mẫu nếu tôi đã biết các tham số thực θ ?

  • 2 . Ngoài ra, sự khác biệt ở đây giữa phân phối theo kinh nghiệm và phân phối lấy mẫu là gì?

  • 3 . Cuối cùng, tôi hoàn toàn không hiểu sự khác biệt giữa bootstrap tham sốkhông tham số từ văn bản này. Cả hai đều suy ra từ tập hợp các quan sát , nhưng chính xác thì sự khác biệt là gì?DθD

Câu trả lời:


14

Câu trả lời được đưa ra bởi miura không hoàn toàn chính xác vì vậy tôi đang trả lời câu hỏi cũ này cho hậu thế:

(2). Đây là những điều rất khác nhau. Cdf thực nghiệm là một ước tính của CDF (phân phối) đã tạo ra dữ liệu. Chính xác, đó là CDF rời rạc gán xác suất cho mỗi điểm dữ liệu được quan sát, , với mỗi . Công cụ ước tính này hội tụ đến cdf thật: gần như chắc chắn cho mỗiF ( x ) = 11/nF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x (trên thực tế là đồng nhất).

Phân phối mẫu của thống kê thay vào đó là phân phối thống kê mà bạn mong đợi sẽ thấy trong thử nghiệm lặp lại. Nghĩa là, bạn thực hiện thử nghiệm của mình một lần và thu thập dữ liệu . là một hàm của dữ liệu của bạn: . Bây giờ, giả sử bạn lặp lại thử nghiệm và thu thập dữ liệu . Tính toán lại T trên mẫu mới cho . Nếu chúng tôi thu thập được 100 mẫu chúng tôi sẽ có 100 dự toán . Những quan sát này của tạo thành phân phối mẫu củaX 1 , ... , X n T T = T ( X 1 , ... , X n ) X ' 1 , ... , X ' n T ' = T ( X ' 1 , ... , X ' n ) T T TTX1,,XnTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT. Đó là một phân phối thực sự. Khi số lượng thí nghiệm chuyển sang vô cùng, giá trị trung bình của nó sẽ hội tụ đến và phương sai của nó với .V a r ( T )E(T)Var(T)

Nói chung tất nhiên chúng tôi không thí nghiệm lặp lại như thế này, chúng tôi chỉ bao giờ nhìn thấy một ví dụ của . Việc tìm ra phương sai của là gì từ một quan sát đơn lẻ là rất khó nếu bạn không biết hàm xác suất cơ bản của a prori. Bootstrapping là một cách để ước tính rằng sự phân bố lấy mẫu của bằng cách chạy nhân tạo "thử nghiệm mới" trên đó để tính toán trường hợp mới của . Mỗi mẫu mới thực sự chỉ là một mẫu từ dữ liệu gốc. Rằng điều này cung cấp cho bạn nhiều thông tin hơn bạn có trong dữ liệu gốc là bí ẩn và hoàn toàn tuyệt vời.T T T T TTTTTT

(1). Bạn đúng - bạn sẽ không làm điều này. Tác giả đang cố gắng thúc đẩy bootstrap tham số bằng cách mô tả nó như là "bạn sẽ làm gì nếu bạn biết phân phối" nhưng thay thế một công cụ ước tính rất tốt của hàm phân phối - cdf theo kinh nghiệm.

Ví dụ: giả sử bạn biết rằng thống kê kiểm tra của bạn thường được phân phối với giá trị trung bình bằng 0, phương sai một. Làm thế nào bạn sẽ ước tính phân phối mẫu của ? Chà, vì bạn biết phân phối, một cách ngớ ngẩn và dư thừa để ước tính phân phối lấy mẫu là sử dụng R để tạo ra 10.000 biến ngẫu nhiên tiêu chuẩn thông thường, sau đó lấy trung bình và phương sai mẫu của chúng, và sử dụng chúng làm ước tính của chúng tôi về trung bình và phương sai của sự phân bố lấy mẫu của .T T TTTT

Nếu chúng ta không biết các thông số của , nhưng chúng ta biết rằng nó được phân phối bình thường, thay vào đó chúng ta có thể tạo ra 10.000 mẫu từ cdf theo kinh nghiệm, tính trên mỗi mẫu, sau đó lấy mẫu có nghĩa và phương sai của những 10.000 s, và sử dụng chúng như ước tính của chúng ta về giá trị kỳ vọng và phương sai của . Vì cdf theo kinh nghiệm là một công cụ ước tính tốt của cdf thật, nên các tham số mẫu sẽ hội tụ thành các tham số thực. Đây là bootstrap tham số: bạn đặt ra một mô hình trên thống kê bạn muốn ước tính. Mô hình được lập chỉ mục bởi một tham số, ví dụ , mà bạn ước tính từ lấy mẫu lặp lại từ ecdf.TTTT(μ,σ)

(3). Bootstrap không theo tỷ lệ thậm chí không yêu cầu bạn phải biết một tiên nghiệm mà thường được phân phối. Thay vào đó, bạn chỉ cần vẽ các mẫu lặp lại từ ecdf và tính trên mỗi mẫu. Sau khi bạn đã rút ra 10.000 mẫu hoặc hơn và tính 10.000 s, bạn có thể vẽ biểu đồ cho các ước tính của mình. Đây là một hình dung về phân phối mẫu củaTTTT. Bootstrap không theo tỷ lệ sẽ không cho bạn biết rằng phân phối lấy mẫu là bình thường hoặc gamma, v.v., nhưng nó cho phép bạn ước tính phân phối lấy mẫu (thường) chính xác khi cần. Nó tạo ra ít giả định hơn và cung cấp ít thông tin hơn bootstrap tham số. Nó ít chính xác hơn khi giả định tham số là đúng nhưng chính xác hơn khi nó sai. Cái nào bạn sử dụng trong mỗi tình huống bạn gặp phải phụ thuộc hoàn toàn vào bối cảnh. Phải thừa nhận rằng nhiều người đã quen thuộc với bootstrap không theo tỷ lệ nhưng thường thì một giả định tham số yếu làm cho một mô hình hoàn toàn không thể chấp nhận được để ước tính, điều này thật đáng yêu.


1
Tôi bối rối về mô tả của bạn về bootstrap tham số "những gì chúng ta có thể làm thay vào đó là tạo ra 10.000 mẫu hoặc từ cdf theo kinh nghiệm" Sự hiểu biết của tôi về bootstrap tham số là bạn lấy mẫu từ một mô hình bạn phù hợp với dữ liệu. Đây là những gì trích dẫn ban đầu từ cuốn sách Murphy đang mô tả. Tôi có thể đọc sai, nhưng lấy mẫu từ CDF theo kinh nghiệm của dữ liệu sẽ lấy mẫu trực tiếp các điểm dữ liệu, đó sẽ là bootstrap tiêu chuẩn, phải không?
user20160

@ user20160 bạn đang hiểu sai câu trả lời "Thay vào đó": anh ấy đang mô tả bootstrap không theo tỷ lệ, không phải là tham số.
daknowles

4

Tôi thực sự đánh giá cao nỗ lực đóng góp của khách47, nhưng tôi không hoàn toàn đồng ý với câu trả lời của anh ấy, trong một số khía cạnh nhỏ. Tôi sẽ không trực tiếp đặt ra những bất đồng của mình, mà là phản ánh chúng trong câu trả lời này.

  1. Trong nhiều trường hợp, việc tính toán khi chúng ta đã biết tham số cơ bản thực sự . Tuy nhiên, nó vẫn hữu ích khi chúng ta muốn xem xét tính chính xác và chính xác của khi ước tính . Bên cạnh đó, đoạn đầu tiên trong đoạn trích dẫn của bạn sẽ giúp bạn dễ hiểu hơn về khái niệm "bootstrap tham số", mà tôi sẽ chạm vào ngay sau đó.θ^sθθ^sθ

  2. Guest47 cho câu trả lời tốt. Không cần phải xây dựng thêm.

  3. Trong bootstrapping tham số, những gì bạn có là dữ liệu được quan sát D. Bạn đưa ra một mô hình tham số để phù hợp với dữ liệu và sử dụng công cụ ước tính (là chức năng của dữ liệu D) cho các tham số thực . Sau đó, bạn tạo hàng ngàn bộ dữ liệu từ mô hình tham số với và ước tính cho các mô hình này. Trong bootstrapping không định lượng, bạn trực tiếp sử dụng D, mẫu (hàng nghìn lần) chính xác từ D, thay vì từ dữ liệu được tạo. θ^θθ^θ^s


2

Tôi không phải là chuyên gia, nhưng với những gì đáng giá:

  1. Bởi vì bạn quan tâm đến phân phối mẫu, như được đề cập trong câu đầu tiên của trích dẫn của bạn.

  2. Phân phối theo kinh nghiệm là phân phối mà bạn thấy trong số lượng mẫu hữu hạn của mình. Phân phối mẫu là những gì bạn sẽ thấy là bạn lấy một số lượng mẫu vô hạn.

Tôi không thể trả lời 3. Tôi luôn hiểu những gì được mô tả ở đây là bootstrap không theo tỷ lệ là "bootstrap".

Nếu bạn chưa nắm bắt đầy đủ khái niệm phân phối lấy mẫu, có một luồng thực sự hay ở đây có mã R rất minh họa.


5
Sự khác biệt giữa bootstrap tham số và không tham số là cái trước tạo ra các mẫu của nó từ phân phối dữ liệu (giả định), sử dụng các giá trị tham số ước tính, trong khi cái sau tạo mẫu bằng cách lấy mẫu thay thế từ dữ liệu quan sát - không giả định mô hình tham số .
jbowman

@jbowman - những "phi tham số" bootstrap không có một mô hình cơ bản - chỉ rằng nó là một mô hình khác nhau để người sử dụng để thúc đẩy dự toán tham số.
xác suất

@miura Xin đừng phá hoại câu trả lời của bạn. Nếu bạn muốn người hỏi chọn một câu trả lời khác, hãy bình luận dưới câu hỏi. Nếu bạn muốn câu trả lời của bạn bị xóa, xin vui lòng gắn cờ và yêu cầu điều đó.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.