Các giá trị p bootstrap không tham số so với khoảng tin cậy


11

Bối cảnh

Điều này hơi giống với câu hỏi này , nhưng tôi không nghĩ đó là một bản sao chính xác.

Khi bạn tìm cách hướng dẫn cách thực hiện kiểm tra giả thuyết bootstrap, người ta thường nói rằng sử dụng phân phối theo kinh nghiệm cho các khoảng tin cậy là tốt nhưng bạn cần bootstrap chính xác từ phân phối theo giả thuyết null để có được p- giá trị. Ví dụ, xem câu trả lời được chấp nhận cho câu hỏi này . Một tìm kiếm chung trên internet dường như cho thấy câu trả lời tương tự.

Lý do không sử dụng giá trị p dựa trên phân phối theo kinh nghiệm là vì hầu hết thời gian chúng tôi không có bất biến dịch thuật.

Thí dụ

Hãy để tôi đưa ra một ví dụ ngắn. Chúng tôi có một đồng xu và chúng tôi muốn thực hiện một thử nghiệm một phía để xem tần số của các đầu có lớn hơn 0,5 không

Chúng tôi thực hiện thử nghiệm và nhận đầu. Giá trị p thực sự cho thử nghiệm này sẽ là .n=20k=14p=0.058

Mặt khác, nếu chúng ta khởi động 14 trong số 20 đầu của mình, chúng ta sẽ lấy mẫu một cách hiệu quả từ phân phối nhị thức với và . Thay đổi phân phối này bằng cách trừ 0,2, chúng tôi sẽ nhận được một kết quả gần như không đáng kể khi kiểm tra giá trị quan sát của chúng tôi là 0,7 so với phân phối theo kinh nghiệm thu được.n=20p=1420=0.7

Trong trường hợp này, sự khác biệt là rất nhỏ, nhưng nó sẽ lớn hơn khi tỷ lệ thành công mà chúng tôi kiểm tra gần bằng 1.

Câu hỏi

Bây giờ hãy để tôi đi đến điểm thực sự của câu hỏi của tôi: khiếm khuyết tương tự cũng giữ cho khoảng tin cậy. Trong thực tế, nếu khoảng tin cậy có mức tin cậy đã nêu thì khoảng tin cậy không chứa tham số theo giả thuyết null tương đương với việc từ chối giả thuyết null ở mức ý nghĩa .α1α

Tại sao các khoảng tin cậy dựa trên phân phối theo kinh nghiệm được chấp nhận rộng rãi và giá trị p không?

Có một lý do sâu xa hơn hay là mọi người không bảo thủ với khoảng tin cậy?

Trong câu trả lời này, Peter Dalgaard đưa ra một câu trả lời có vẻ đồng ý với lập luận của tôi. Anh ta nói:

Không có gì đặc biệt sai về dòng lý luận này, hoặc ít nhất là không (nhiều) tệ hơn tính toán của CI.

(Phần lớn) đến từ đâu? Nó ngụ ý rằng việc tạo ra các giá trị p theo cách đó hơi tệ hơn, nhưng không giải thích chi tiết.

Suy nghĩ cuối cùng

Ngoài ra, trong phần Giới thiệu về Bootstrap của Efron và Tibshirani, họ dành rất nhiều khoảng trống cho các khoảng tin cậy nhưng không dành cho giá trị p trừ khi chúng được tạo ra theo phân phối giả thuyết null thích hợp, ngoại trừ một dòng bỏ đi về sự tương đương chung của khoảng tin cậy và giá trị p trong chương về kiểm tra hoán vị.

Chúng ta cũng hãy quay lại câu hỏi đầu tiên tôi liên kết. Tôi đồng ý với câu trả lời của Michael Chernick, nhưng một lần nữa ông cũng lập luận rằng cả khoảng tin cậy và giá trị p dựa trên phân phối bootstrap theo kinh nghiệm đều không đáng tin cậy như nhau trong một số tình huống. Nó không giải thích lý do tại sao bạn tìm thấy nhiều người nói với bạn rằng các khoảng đó là ok, nhưng giá trị p thì không.


Tôi đang bắt đầu trả tiền cho câu hỏi này vì tôi rất quan tâm đến việc đạt được sự rõ ràng về cách thức và thời điểm các TCTD bootstrap có thể được sử dụng để chấp nhận / từ chối một giả thuyết. Có lẽ bạn có thể viết lại / định dạng lại câu hỏi của bạn để làm cho nó ngắn gọn và hấp dẫn hơn? Cảm ơn !
Xavier Bourret Sicotte

Tôi nghĩ rằng hầu hết mọi người sẽ đồng ý rằng khi áp dụng các giả định sau đây khi sử dụng CI cho kiểm tra giả thuyết là OK: phân phối đối xứng của thống kê kiểm tra, thống kê kiểm tra pivotal, áp dụng CLT, không có hoặc ít tham số phiền toái, v.v. là lạ hoặc không được chứng minh là quan trọng. Đây là một ví dụ thực tế mà tôi đang nghiên cứu: ví dụ: hai sự khác biệt mẫu giữa các phần trăm thứ 75 của một thống kê tỷ lệ (tỷ lệ của hai khoản tiền)
Xavier Bourret Sicotte

Không phải câu trả lời đơn giản chỉ là rõ ràng làm thế nào để lấy mẫu theo giả thuyết null, vì vậy có một phương pháp thay thế rõ ràng tốt hơn không? Việc lấy mẫu theo bootstrap thường xảy ra theo phân phối theo kinh nghiệm, do đó cơ chế tạo dữ liệu thực sự, do đó rõ ràng không nên được sử dụng thay vì chỉ lấy mẫu theo null. CI khởi động được tìm thấy từ việc đảo ngược phân phối lấy mẫu theo cơ chế tạo dữ liệu thực sự. Đúng là CI này có thể không hoạt động tốt, nhưng như Dalgaard nói, không nhất thiết phải sửa nó như thế nào.
JSK

Tôi nên làm rõ rằng phân phối theo kinh nghiệm chỉ là một xấp xỉ của cơ chế tạo dữ liệu thực sự. Mức độ mà nó không đại diện cho sự thật sẽ tác động tiêu cực đến CI khởi động theo các hướng chưa biết dẫn đến phạm vi bảo hiểm dưới 95%.
JSK

1
Lấy mẫu theo null là rõ ràng khi thử nghiệm là một sự khác biệt của phương tiện, nhưng trong nhiều trường hợp, không rõ ràng làm thế nào để tái tạo null ... ví dụ: null là tỷ lệ phần trăm thứ hai của hai tỷ lệ là như nhau ... Tôi có thay đổi tử số và mẫu số của các tỷ lệ trong mỗi mẫu để có được điều đó không? Ngoài ra, làm thế nào tôi có thể chắc chắn rằng việc dịch chuyển các thành phần của tỷ lệ đang thực sự tái tạo null?
Xavier Bourret Sicotte

Câu trả lời:


3

Như @MichaelCottaick đã trả lời bình luận về câu trả lời của mình cho câu hỏi được liên kết :

Có một sự tương ứng 1-1 nói chung giữa các khoảng tin cậy và kiểm tra giả thuyết. Ví dụ, khoảng tin cậy 95% cho tham số mô hình đại diện cho vùng không loại bỏ đối với thử nghiệm giả thuyết mức 5% tương ứng liên quan đến giá trị của tham số đó. Không có yêu cầu về hình dạng của sự phân bố dân số. Rõ ràng nếu nó áp dụng cho các khoảng tin cậy nói chung, nó sẽ áp dụng cho các khoảng tin cậy bootstrap.

Vì vậy, câu trả lời này sẽ đề cập đến hai vấn đề liên quan đến: (1) tại sao thuyết trình sức kết quả bootstrap dường như thường xuyên hơn để xác định khoảng tin cậy (CI) chứ không phải là p -values, như đề xuất trong câu hỏi, và (2) khi cả hai có thể p -values và CI được xác định bởi bootstrap bị nghi ngờ là không đáng tin cậy do đó đòi hỏi một cách tiếp cận khác.

Tôi không biết dữ liệu hỗ trợ cụ thể cho yêu cầu trong câu hỏi này về vấn đề đầu tiên. Có lẽ trong thực tế, nhiều ước tính điểm có nguồn gốc từ bootstrap là (hoặc ít nhất là dường như) cho đến nay từ ranh giới quyết định kiểm tra mà ít quan tâm đến giá trị p của giả thuyết null tương ứng, với mối quan tâm chính trong chính ước tính điểm và trong một số biện pháp hợp lý về độ lớn của khả năng thay đổi của nó.

Đối với vấn đề thứ hai, nhiều ứng dụng thực tế liên quan đến "phân phối đối xứng giữa thống kê kiểm tra, thống kê kiểm tra quan trọng, áp dụng CLT, không có hoặc có một vài thông số phiền toái, v.v." (như trong một nhận xét của @XavierBourretSicotte ở trên), có chút khó khăn. Câu hỏi sau đó trở thành làm thế nào để phát hiện những sai lệch tiềm ẩn từ những điều kiện này và làm thế nào để đối phó với chúng khi chúng phát sinh.

Những sai lệch tiềm năng từ hành vi lý tưởng đã được đánh giá cao trong nhiều thập kỷ, với một số cách tiếp cận CI bootstrap được phát triển sớm để đối phó với chúng. Bootstrap Studentized giúp cung cấp một thống kê quan trọng và phương pháp BCa xử lý cả sai lệch và sai lệch về việc có được CI đáng tin cậy hơn từ bootstraps. Chuyển đổi dữ liệu ổn định phương sai trước khi xác định CI khởi động, tiếp theo là chuyển đổi ngược về quy mô ban đầu, cũng có thể giúp ích.

Ví dụ trong câu hỏi này về lấy mẫu từ 14 đầu trong số 20 lần tung từ một đồng tiền công bằng được xử lý độc đáo bằng cách sử dụng CI từ phương pháp BCa; trong R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Các ước tính CI khác đặt ra vấn đề được ghi nhận là rất gần hoặc ở rìa của giá trị dân số 10 đầu trên 20 lần ném. Tài khoản BCa CI cho độ lệch (như được giới thiệu bằng cách lấy mẫu nhị thức cách xa tỷ lệ cược chẵn), do đó, chúng bao gồm giá trị dân số là 10.

Nhưng bạn phải tìm kiếm những sai lệch như vậy từ hành vi lý tưởng trước khi bạn có thể tận dụng những giải pháp này. Như trong rất nhiều thực tiễn thống kê, thực sự nhìn vào dữ liệu thay vì chỉ cắm vào một thuật toán có thể là chìa khóa. Ví dụ: câu hỏi này về CI cho kết quả bootstrap sai lệch hiển thị kết quả cho 3 CI đầu tiên được hiển thị trong mã trên, nhưng loại trừ BCa CI. Khi tôi cố gắng tái tạo phân tích được hiển thị trong câu hỏi đó để bao gồm BCa CI, tôi đã nhận được kết quả:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

trong đó 'w' có liên quan đến hiệu chỉnh sai lệch. Thống kê đang được kiểm tra có giá trị tối đa cố định và ước tính trình cắm thêm đã được khởi động cũng bị sai lệch vốn có. Nhận được một kết quả như vậy sẽ chỉ ra rằng các giả định thông thường nằm bên dưới CI đã khởi động đang bị vi phạm.

Phân tích một lượng quan trọng để tránh các vấn đề như vậy; mặc dù một phân phối theo kinh nghiệm không thể có số liệu thống kê quan trọng chính xác, nhưng gần đến mức hợp lý là một mục tiêu quan trọng. Một vài đoạn cuối của câu trả lời này cung cấp các liên kết đến các công cụ hỗ trợ khác, như các sơ đồ trục để ước tính thông qua bootstrap xem một thống kê (có khả năng sau khi chuyển đổi dữ liệu) có gần với pivotal hay không, và bootstrap tính toán đắt tiền nhưng có tính quyết định.


Cảm ơn edm! Nếu có sự phân chia lại 1-1 giữa CI và kiểm tra giả thuyết - thì tại sao kiểm tra bootstrap thường liên quan đến việc dịch chuyển các bộ dữ liệu để tạo lại null? Bằng cách đó, chúng ta sẽ không nhận được kết quả khác với những gì chúng ta sẽ nhận được bằng cách tính CI của phân phối chênh lệch chẳng hạn?
Xavier Bourret Sicotte

@XavierBourretSicotte Tôi không nghĩ hoàn toàn chính xác rằng "kiểm tra bootstrap thường liên quan đến việc chuyển các bộ dữ liệu để tạo lại null." Mỗi mẫu bootstrap là một nỗ lực để sao chép mẫu / thí nghiệm ban đầu, sử dụng mẫu trong tay để đại diện cho dân số cơ bản. Tuy nhiên, nếu số liệu thống kê trong câu hỏi không phải là mấu chốt, thì CI được phát triển trên các mẫu bootstrapping sẽ không đại diện cho CI được phát triển trên dân số cơ bản. Vì vậy, bạn cần điều chỉnh phân phối số liệu thống kê về những gì nó có được dưới giá trị null, với BCa hoặc các phương pháp khác.
EdM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.