Thử nghiệm giả thuyết Bootstrap so với hoán vị


37

Có một số kỹ thuật lấy mẫu phổ biến, thường được sử dụng trong thực tế, chẳng hạn như bootstrapping, kiểm tra hoán vị, jackknife, v.v. Có rất nhiều bài báo và sách thảo luận về các kỹ thuật này, ví dụ như Philip I Good (2010) Phép thử, Tham số và Thử nghiệm Bootstrap giả thuyết

Câu hỏi của tôi là kỹ thuật tái định hình nào đã trở nên phổ biến hơn và dễ thực hiện hơn? Bootstrapping hoặc thử nghiệm hoán vị?


8
Phổ biến hầu như không phải là một thước đo tốt về chất lượng. Đánh giá theo số lượng trích dẫn (khách hàng), McDonalds là một nhà hàng (tốt hơn?) Phổ biến hơn nhiều so với bất kỳ cơ sở ba sao Michelin nào. Bạn sẽ đưa diễn giả hội thảo tiếp theo của bạn đến McDonalds chứ?
StasK 3/03/2015

Câu trả lời:


68

Cả hai đều phổ biến và hữu ích, nhưng chủ yếu cho các mục đích sử dụng khác nhau. Kiểm tra hoán vị là tốt nhất để kiểm tra các giả thuyết và bootstrapping là tốt nhất để ước tính khoảng tin cậy.

Các phép thử hoán vị kiểm tra một giả thuyết null cụ thể về khả năng trao đổi, nghĩa là chỉ lấy mẫu ngẫu nhiên / ngẫu nhiên giải thích sự khác biệt nhìn thấy. Đây là trường hợp phổ biến cho những thứ như kiểm tra t và ANOVA. Nó cũng có thể được mở rộng thành những thứ như chuỗi thời gian (giả thuyết null rằng không có mối tương quan nối tiếp) hoặc hồi quy (giả thuyết null không có mối quan hệ). Kiểm tra hoán vị có thể được sử dụng để tạo khoảng tin cậy, nhưng nó đòi hỏi nhiều giả định hơn, có thể hoặc không hợp lý (vì vậy các phương pháp khác được ưa thích). Thử nghiệm Mann-Whitney / Wilcoxon thực sự là một trường hợp đặc biệt của thử nghiệm hoán vị, vì vậy chúng phổ biến hơn nhiều so với một số người nhận ra.

Bootstrap ước tính độ biến thiên của quy trình lấy mẫu và hoạt động tốt để ước tính khoảng tin cậy. Bạn có thể làm một bài kiểm tra giả thuyết theo cách này nhưng nó có xu hướng ít mạnh hơn bài kiểm tra hoán vị cho các trường hợp mà các giả định kiểm tra hoán vị nắm giữ.


2
Cảm ơn câu trả lời. Tại sao khoảng tin cậy bootstrap kém mạnh hơn kiểm tra hoán vị? Bao nhiêu vậy? Người ta có thể mô tả các tình huống theo đó nó ít mạnh hơn đáng kể không? Có vẻ như là một lợi thế để có thể hiển thị khoảng tin cậy, vì vậy theo nghĩa đó, bootstrap có vẻ có giá trị hơn.
dfrankow

2
@dfrankow, 2 phương pháp sử dụng các giả định khác nhau. Đối với các mẫu lớn và sự khác biệt, cả hai sẽ ổn, nhưng với các mẫu / chênh lệch nhỏ hơn, phép thử hoán vị có nhiều khả năng tìm thấy sự khác biệt và phù hợp. Xem câu trả lời này: stats.stackexchange.com/questions/112147/ Khăn cho các ví dụ trong đó bootstrap thậm chí không có kích thước chính xác (từ chối quá thường xuyên khi null là đúng).
Greg Snow

Không phải là một thử nghiệm hoán vị một biến thể trên bootstrapping?
Vicki B

Các thử nghiệm @VickiB, Bootstrapping và Permulation thường được đề cập cùng nhau, nhưng các mẫu tăng cường với các mẫu thay thế và hoán vị mà không thay thế sẽ tạo ra sự khác biệt trong những gì chúng có thể làm và sức mạnh của chúng.
Greg Snow


8

Câu hỏi của tôi là kỹ thuật lấy mẫu lại nào đã đạt được các
bài kiểm tra Bootstrapping hoặc hoán vị phổ biến hơn ?

  1. Bootstrapping chủ yếu là về việc tạo ra các lỗi tiêu chuẩn mẫu lớn hoặc khoảng tin cậy; kiểm tra hoán vị như tên cho thấy chủ yếu là về kiểm tra. (Mỗi cái có thể được điều chỉnh để được sử dụng cho các nhiệm vụ khác.)

  2. Làm thế nào chúng ta sẽ đánh giá sự nổi tiếng? Nếu chúng ta nhìn vào các lĩnh vực như tâm lý học và giáo dục, chúng ta có thể tìm thấy rất nhiều sử dụng các bài kiểm tra dựa trên xếp hạng như Wilcoxon-Mann-Whitney, bài kiểm tra xếp hạng đã ký, bài kiểm tra tương quan xếp hạng, v.v. Đây là tất cả các thử nghiệm hoán vị (mặt khác, có nhiều trường hợp trong đó các thử nghiệm hoán vị của dữ liệu gốc có thể được sử dụng thay thế nhưng thường thì không). Trong một số lĩnh vực ứng dụng khác, các phép thử hoán vị hiếm khi được sử dụng, nhưng sự phổ biến khác nhau giữa các lĩnh vực ứng dụng đôi khi nói nhiều về văn hóa địa phương của bất kỳ khu vực nào hơn là hữu ích.

dễ thực hiện hơn?

Trong nhiều trường hợp - đặc biệt là những trường hợp đơn giản hơn - chúng gần như dễ dàng như nhau - về cơ bản là sự khác biệt giữa lấy mẫu với thay thế và lấy mẫu mà không cần thay thế.

Trong một số trường hợp phức tạp hơn, bootstrapping dễ thực hiện hơn vì (nhìn từ quan điểm thử nghiệm) nó hoạt động theo phương án thay vì null (ít nhất là các triển khai ngây thơ sẽ - làm việc đó để nó hoạt động tốt có thể phức tạp hơn nhiều).

Các thử nghiệm hoán vị chính xác có thể khó khăn trong các trường hợp phức tạp hơn vì một lượng có thể trao đổi phù hợp có thể không quan sát được - thường thì một lượng gần như có thể trao đổi có thể được thay thế bằng giá chính xác (và không thực sự phân phối).

Bootstrapping về cơ bản từ bỏ tiêu chí chính xác tương ứng (độ bao phủ chính xác của các khoảng) ngay từ đầu, và thay vào đó tập trung vào việc cố gắng có được độ bao phủ hợp lý trong các mẫu lớn (đôi khi ít thành công hơn có thể hiểu được; nếu bạn chưa kiểm tra, đừng 'giả sử bootstrap của bạn cung cấp phạm vi bảo hiểm mà bạn mong đợi).

Các thử nghiệm hoán vị có thể hoạt động trên các mẫu nhỏ (mặc dù sự lựa chọn hạn chế về mức ý nghĩa đôi khi có thể là vấn đề với các mẫu rất nhỏ), trong khi bootstrap là một kỹ thuật mẫu lớn (nếu bạn sử dụng nó với các mẫu nhỏ, trong nhiều trường hợp, kết quả có thể không rất hữu ích).

Tôi hiếm khi xem họ là đối thủ cạnh tranh trong cùng một vấn đề và đã sử dụng chúng cho các vấn đề thực tế (khác nhau) - thường sẽ có một sự lựa chọn tự nhiên để xem xét.

Có những lợi ích cho cả hai, nhưng không phải trong một panacaea. Nếu bạn đang hy vọng giảm nỗ lực học tập bằng cách chỉ tập trung vào một trong số họ thì bạn có thể sẽ thất vọng - cả hai đều là những phần thiết yếu của hộp công cụ lấy mẫu lại.


1
Bạn có thể vui lòng làm rõ " số lượng trao đổi phù hợp có thể không quan sát được " nghĩa là gì không? (+1 rõ ràng)
usεr11852 nói Phục hồi Monic

1
Cân nhắc việc thử tiến hành kiểm tra hoán vị trong một thí nghiệm với hai yếu tố và hiệp phương sai (hoặc chỉ xem xét hồi quy với một số yếu tố dự đoán). Với tính độc lập và hoàn toàn không có tác dụng, các quan sát có thể trao đổi và do đó bạn có thể kiểm tra giả thuyết đó nhưng bạn không có cách nào để xây dựng một phép thử hoán vị chỉ các yếu tố (vì bạn mong đợi hiệp phương sai có hiệu lực và thử nghiệm nó là null không thú vị); tương tự như vậy, bạn không thể xây dựng một bài kiểm tra hoán vị chỉ một trong hai yếu tố. ... ctd
Glen_b -Reinstate Monica

1
ctd ... Có một số lượng trao đổi rõ ràng nếu bạn biết các hệ số dân số mà bạn không kiểm tra (và các lỗi sẽ luôn có thể trao đổi) nhưng bạn không thể quan sát những điều đó. Nếu bạn thay thế các ước tính của các hệ số hoặc sai số (tức là phần dư), số lượng có thể trao đổi lâu hơn. Tuy nhiên, trong một số điều kiện cụ thể, chúng có thể được trao đổi xấp xỉ (một số người ủng hộ thực hiện chính xác điều này) .... và nếu bạn làm điều đó, bạn sẽ kết thúc với một cái gì đó giống với bootstrap nhưng lấy mẫu mà không thay thế thay vì lấy mẫu bằng thay thế.
Glen_b -Reinstate Monica

Cảm ơn bạn; Tôi sẽ suy nghĩ kỹ về điều này. Tôi nghi ngờ có một cái gì đó sâu sắc hơn cho tôi để tìm hiểu ở đây. :)
usεr11852 nói Phục hồi Monic

1
@NULL vì một số lý do tôi đã bỏ lỡ yêu cầu của bạn để tham khảo. Đối với một điểm khởi đầu, một số tài liệu tham khảo ở đây nên làm: davegiles.blogspot.com/2019/04/ mẹo
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.