Giá trị trung bình của mẫu bootstrap so với thống kê của mẫu


18

Giả sử tôi có một mẫumẫu bootstrap từ mẫu này cho stastitic (ví dụ: giá trị trung bình). Như chúng ta đều biết, mẫu bootstrap này ước tính các phân phối mẫu của ước lượng số liệu thống kê.χ

Bây giờ, giá trị trung bình của mẫu bootstrap này có phải là ước tính tốt hơn về thống kê dân số so với thống kê của mẫu ban đầu không? Trong những điều kiện đó sẽ là trường hợp?


2
Giá trị trung bình của mẫu bootstrap giá trị trung bình của mẫu và bạn không cần mẫu bootstrap trong trường hợp này.
Tây An

1
Cảm ơn @ Xi'an Tôi không chắc chắn tôi làm theo. Giá trị trung bình của mẫu bootstrap có thể khác với số lượng trung bình của mẫu. Bạn đang cố gắng nói rằng hai vẫn còn tương đương về mặt lý thuyết? Bạn có thể xác nhận trên cả hai đầu?
Amelio Vazquez-Reina

2
Chúng ta hãy làm rõ thuật ngữ của chúng tôi: "mẫu bootstrap" có thể đề cập đến một mẫu thay thế cụ thể từ dữ liệu hoặc nó có thể đề cập đến một biến ngẫu nhiên (đa biến) trong đó một mẫu như vậy sẽ được coi là một nhận thức. Bạn đúng rằng giá trị trung bình của một nhận thức có thể khác với giá trị trung bình của dữ liệu, nhưng @ Xi'an cung cấp quan sát phù hợp hơn rằng giá trị trung bình của biến ngẫu nhiên (theo định nghĩa là ước tính bootstrap của trung bình dân số ) phải trùng với với giá trị trung bình của dữ liệu.
whuber

1
Sau đó, câu hỏi của bạn là gần như giống hệt nhau để stats.stackexchange.com/questions/126633/... ; sự khác biệt duy nhất là việc thực hiện mẫu bootstrap có thể trùng lặp, nhưng phân tích được đưa ra trong câu trả lời có thể dễ dàng chuyển sang tình huống bootstrap, với kết quả tương tự.
whuber

1
Tôi thấy kết nối @whuber, mặc dù trong bootstrap, người ta có "tập hợp con thay thế" và việc thực hiện có thể trùng lặp, như bạn đã nói. Tôi sẽ tưởng tượng rằng phân phối (ví dụ như giả ngẫu nhiên) được sử dụng để lấy lại các mẫu trong bootstrap cũng có thể ảnh hưởng đến độ lệch của ước tính từ mẫu bootstrap. Có lẽ câu trả lời là đối với tất cả các vấn đề thực tế, sự khác biệt là không đáng kể. Đây là những gì câu hỏi là sau: điều kiện, sự tinh tế và sự khác biệt trong thực tế.
Amelio Vazquez-Reina

Câu trả lời:


19

Hãy khái quát hóa, để tập trung vào mấu chốt của vấn đề. Tôi sẽ đánh vần những chi tiết nhỏ nhất để không còn nghi ngờ gì nữa. Việc phân tích chỉ yêu cầu như sau:

  1. Giá trị trung bình số học của một tập hợp các sốz1,,zm được xác định là

    1m(z1++zm).
  2. Kỳ vọng là một toán tử tuyến tính. Nghĩa là, khi là các biến ngẫu nhiên và α i là các số, thì kỳ vọng của một tổ hợp tuyến tính là sự kết hợp tuyến tính của các kỳ vọng,Zi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Hãy là một mẫu ( B 1 , ... , B k ) thu được từ một tập dữ liệu x = ( x 1 , ... , x n ) bằng cách lấy k yếu tố thống nhất từ x với thay thế. Hãy m ( B ) là trung bình cộng của B . Đây là một biến ngẫu nhiên. Sau đóB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

tiếp theo là tuyến tính của kỳ vọng. Vì các yếu tố của đều thu được theo cùng một kiểu, nên tất cả chúng đều có cùng kỳ vọng, b nói:Bb

E(B1)==E(Bk)=b.

Điều này đơn giản hóa những điều đã nói ở trên

E(m(B))=1k(b+b++b)=1k(kb)=b.

Theo định nghĩa, kỳ vọng là tổng giá trị có trọng số xác suất. Vì mỗi giá trị của được giả sử có cơ hội bằng 1 / n được chọn,X1/n

E(m(B))= =b= =E(B1)= =1nx1++1nxn= =1n(x1++xn)= =x¯,

trung bình số học của dữ liệu.

Để trả lời câu hỏi, nếu người ta sử dụng trung bình dữ liệu để ước tính trung bình dân số, thì trung bình bootstrap (là trường hợp k = n ) cũng bằng ˉ x , và do đó giống hệt như một công cụ ước tính của trung bình dân số.x¯k= =nx¯


Đối với thống kê không phải là hàm tuyến tính của dữ liệu, kết quả tương tự không nhất thiết phải giữ. Tuy nhiên, sẽ là sai lầm nếu chỉ thay thế bootstrap có nghĩa là giá trị của thống kê trên dữ liệu: đó không phải là cách bootstrapping hoạt động. Thay vào đó, bằng cách so sánh bootstrap có nghĩa với thống kê dữ liệu, chúng tôi có được thông tin về sự sai lệch của thống kê. Điều này có thể được sử dụng để điều chỉnh thống kê ban đầu để loại bỏ sự thiên vị. Do đó, ước tính điều chỉnh sai lệch do đó trở thành một sự kết hợp đại số của thống kê ban đầu và ý nghĩa bootstrap. Để biết thêm thông tin, hãy tra cứu "BCa" (bootstrap được điều chỉnh và tăng tốc) và "ABC". Wikipedia cung cấp một số tài liệu tham khảo.


Bạn có nghĩa là kỳ vọng của trung bình bootstrap bằng với dữ liệu trung bình, không? Bản thân bootstrap không được xác định bởi mẫu dữ liệu (bản gốc).
capybaralet

@ user2429920 Giá trị trung bình của bootstrap là một thống kê được xác định bởi mẫu. Theo nghĩa này, nó giống hệt với ý nghĩa mẫu. Kỳ vọng của nó được thực hiện trong ý nghĩa của phân phối mẫu. Tôi nghi ngờ bạn có thể đang sử dụng "kỳ vọng" theo một nghĩa khác liên quan đến quá trình tính toán bootstrap có nghĩa là thông qua việc lấy mẫu lặp lại với sự thay thế.
whuber

1
Tôi nghĩ đoạn cuối là câu trả lời thực sự cho câu hỏi này vì nó chung chung và không chỉ tập trung vào thống kê trung bình. Tôi đã có cùng nghi ngờ với OP, và tôi không biết về sự tồn tại của BCa. Mặc dù phần trình diễn trong câu trả lời này không giúp tôi nhiều (tôi không sử dụng ý nghĩa như thống kê của mình), đoạn cuối rất rõ ràng về mấu chốt của vấn đề. Tôi tin rằng câu trả lời của Xi'an cũng giải quyết trường hợp sử dụng thống kê trung bình, vì vậy vấn đề tương tự. Cảm ơn bạn!
Gabriel

1
@Gabriel điểm tốt. Tôi đã kiểm tra hồ sơ: trước khi chỉnh sửa, câu hỏi này ban đầu chỉ hỏi về giá trị trung bình. Đó là lý do tại sao các câu trả lời dường như rất tập trung vào thống kê đó.
whuber

9

Kể từ khi phân phối bootstrap được định nghĩa là F n ( x ) = 1

F^n(x)= =1nΣTôi= =1ntôiXTôixXTôi~iidF(x),
EF^n[X]= =1nΣTôi= =1nXTôi= =X¯n
EF^n[X]X¯n

2
+1 Đây là câu trả lời ban đầu tôi muốn viết, nhưng sợ nó có thể quá mờ đối với một số độc giả. Tuy nhiên tôi rất vui khi thấy nó được trình bày thanh lịch như vậy. Tuy nhiên, tôi không chắc ý của bạn trong câu cuối cùng của bạn là gì, nơi bạn dường như phân biệt "kỳ vọng" của xấp xỉ mô phỏng với giá trị trung bình so với "giới hạn" của nó: vì kỳ vọng là không đổi (nó không thay đổi theo kích thước mô phỏng ), thực sự không có bất kỳ giới hạn nào để thực hiện.
whuber

@whuber: Cảm ơn bạn đã nhận xét và xin lỗi vì đã viết chính xác câu trả lời ngắn gọn của tôi cùng lúc với bạn! Giải thích của bạn chắc chắn dễ đọc hơn bởi những người mới trong bootstrap. Tôi đã sửa câu cuối cùng, phần giới hạn của nó là luật số lượng lớn.
Tây An

3
Việc bạn sử dụng "nghĩa" trong câu cuối cùng đó là khá mơ hồ! Tôi đã tìm ra nó từ đầu mối LLN của bạn. Đối với bất kỳ mô phỏng hữu hạn nào của phân phối bootstrap, mỗi mẫu trong mô phỏng tạo ra giá trị trung bình của riêng nó (có một ý nghĩa của "trung bình"). Trung bình của tất cả các mẫu trong một mô phỏng nhất định tạo ra một ý nghĩa mô phỏng (có một ý nghĩa khác). Giá trị trung bình mô phỏng hội tụ đến một hằng số khi kích thước mô phỏng tăng lên, đó là trung bình bootstrap (nghĩa thứ ba) và điều này bằng với trung bình mẫu (nghĩa thứ tư). (Và điều này ước tính dân số có nghĩa là - nghĩa thứ năm!)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.