Tại sao tôi muốn bootstrap khi tính toán một bài kiểm tra mẫu độc lập? (làm thế nào để biện minh, giải thích và báo cáo kiểm tra khởi động)


8

Giả sử tôi có hai điều kiện và kích thước mẫu của tôi cho hai điều kiện là cực kỳ thấp. Giả sử tôi chỉ có 14 quan sát trong điều kiện đầu tiên và 11 quan sát khác. Tôi muốn sử dụng thử nghiệm t để kiểm tra xem sự khác biệt trung bình có khác biệt đáng kể với nhau không.

Đầu tiên, tôi hơi bối rối về giả định tính chuẩn của bài kiểm tra t, đó có thể là lý do tại sao tôi không hoàn toàn nhận được bootstrapping. Là giả định cho phép thử t rằng (A) dữ liệu được lấy mẫu từ một quần thể bình thường, hoặc (B) rằng các bản phân phối mẫu của bạn có các thuộc tính Gaussian? Nếu nó là (B) thì đó không thực sự là một giả định, phải không? Bạn chỉ có thể vẽ biểu đồ dữ liệu của bạn và xem nó có bình thường hay không. Nếu kích thước mẫu của tôi thấp, tôi sẽ không có đủ điểm dữ liệu để xem liệu phân phối mẫu của tôi có bình thường hay không.

Đây là nơi tôi nghĩ bootstrapping xuất hiện. Tôi có thể bootstrap để xem mẫu của tôi có bình thường không? Tại lần đầu tiên tôi nghĩ bootstrapping rằng sẽ luôn dẫn đến một bản phân phối bình thường, nhưng đây không phải là trường hợp ( Cần Bootstrap Định cỡ ảnh được sử dụng để tính toán một khoảng tin cậy cho phương sai của Tập dữ liệu? Statexchange statexchange ). Vì vậy, một lý do bạn sẽ bootstrap là để chắc chắn hơn về tính quy phạm của dữ liệu mẫu của bạn, đúng không?

Tại thời điểm này tôi hoàn toàn bối rối. Nếu tôi thực hiện kiểm tra t trong R với hàm t.test và tôi đặt các vectơ mẫu đã khởi động thành hai mẫu độc lập, giá trị t của tôi đơn giản trở nên cực kỳ quan trọng. Tôi không làm bài kiểm tra bootstrapping phải không? Tôi không phải, bởi vì tất cả các bootstrapping đang làm chỉ là làm cho giá trị t của tôi lớn hơn, điều này sẽ không xảy ra trong mọi trường hợp chứ? Có phải mọi người không thực hiện kiểm tra t trên các mẫu bootstrapping?

Cuối cùng, lợi ích của khoảng tin cậy điện toán trên bootstrap so với khoảng tin cậy điện toán trên mẫu ban đầu của chúng tôi là gì? Những khoảng tin cậy này cho tôi biết rằng khoảng tin cậy trên dữ liệu mẫu ban đầu là gì?

Tôi đoán rằng tôi đã nhầm lẫn về (A) tại sao nên sử dụng bootstrap nếu nó sẽ làm cho giá trị t của tôi trở nên quan trọng hơn, (B) không chắc chắn về cách sử dụng bootstrapping chính xác khi chạy thử nghiệm t-test mẫu độc lập và (C) không chắc chắn làm thế nào để báo cáo biện minh, thực hiện và kết quả của bootstrapping trong các tình huống kiểm tra t độc lập.


Bạn có bao giờ có nhiều điểm mẫu hơn trong các vectơ mẫu đã khởi động so với các vectơ mẫu ban đầu của bạn không? Nếu vậy, sau đó sử dụng các vectơ khởi động trong thử nghiệm t thay vì số lượng dữ liệu ban đầu để tăng kích thước mẫu của bạn một cách giả tạo. Điều này có thể làm cho giá trị p của bạn nhỏ tùy ý, nhưng vô nghĩa và bất hợp pháp.
amip

Câu trả lời:


15

Có một số hiểu lầm trong bài đăng của bạn (một số trong đó là phổ biến và bạn có thể đã được thông báo sai vì người nói với bạn chỉ truyền thông tin sai).

Đầu tiên là bootstrap không phải là vị cứu tinh của cỡ mẫu nhỏ. Bootstrap thực sự hội chợ khá kém đối với các cỡ mẫu nhỏ, ngay cả khi dân số bình thường. Câu hỏi, câu trả lời và thảo luận này sẽ làm sáng tỏ điều đó. Ngoài ra bài viết ở đây cung cấp thêm chi tiết và nền tảng.

Cả t-test và bootstrap đều dựa trên các phân phối lấy mẫu, phân phối của thống kê kiểm tra là gì.

Kiểm tra t chính xác dựa trên lý thuyết và điều kiện dân số / quy trình tạo dữ liệu là bình thường. Thử nghiệm t xảy ra khá mạnh đối với giả định quy tắc (theo kích thước của thử nghiệm, công suất và độ chính xác có thể là một vấn đề khác) vì vậy trong một số trường hợp, sự kết hợp của "Đủ bình thường" và "Cỡ mẫu lớn" có nghĩa là phân phối lấy mẫu "đủ gần" so với bình thường rằng thử nghiệm t là một lựa chọn hợp lý.

Bootstrap thay vì giả định dân số bình thường, sử dụng CDF mẫu làm ước tính dân số và tính toán / ước tính (thường thông qua mô phỏng) phân phối lấy mẫu thực (có thể là bình thường, nhưng không cần phải như vậy). Nếu mẫu làm một công việc hợp lý để đại diện cho dân số thì bootstrap hoạt động tốt. Nhưng đối với các cỡ mẫu nhỏ, mẫu rất dễ thực hiện công việc kém trong việc đại diện cho dân số và các phương pháp bootstrap làm rất tệ trong các trường hợp đó (xem mô phỏng và giấy tham khảo ở trên).

Ưu điểm của kiểm tra t là nếu tất cả các giả định giữ (hoặc gần) thì nó hoạt động tốt (tôi nghĩ rằng nó thực sự là thử nghiệm mạnh nhất thống nhất). Nhược điểm là nó không hoạt động tốt nếu các giả định không đúng (và không gần đúng) và có một số trường hợp các giả định tạo ra sự khác biệt lớn hơn so với các giả định khác. Và lý thuyết kiểm tra t không áp dụng cho một số thông số / thống kê quan tâm, ví dụ: phương tiện cắt xén, độ lệch chuẩn, lượng tử, v.v.

Ưu điểm của bootstrap là nó có thể ước tính phân phối lấy mẫu mà không cần nhiều giả định cần thiết bằng các phương pháp tham số. Nó hoạt động cho các số liệu thống kê khác với giá trị trung bình và trong trường hợp các giả định khác không giữ (ví dụ 2 mẫu, phương sai không bằng nhau). Nhược điểm của bootstrap là nó phụ thuộc rất nhiều vào mẫu đại diện cho dân số vì nó không có ưu điểm của các giả định khác. Bootstrap không cung cấp cho bạn tính quy tắc, nó cung cấp cho bạn phân phối lấy mẫu (đôi khi trông bình thường, nhưng vẫn hoạt động khi không) mà không cần các giả định về dân số.

Đối với các thử nghiệm t trong trường hợp hợp lý khi cho rằng dân số là bình thường (hoặc ít nhất là đủ bình thường) thì thử nghiệm t sẽ là tốt nhất (trong số 2).

Nếu bạn không có tính quy tắc và có các mẫu nhỏ, thì không nên kiểm tra t-test hoặc bootstrap. Đối với trường hợp 2 mẫu, một phép thử hoán vị sẽ hoạt động tốt nếu bạn sẵn sàng giả sử các phân phối bằng nhau (bao gồm các phương sai bằng nhau) theo giả thuyết null. Đây là một giả định rất hợp lý khi thực hiện một thử nghiệm ngẫu nhiên, nhưng có thể không phải là khi so sánh 2 quần thể riêng biệt (nhưng nếu bạn tin rằng 2 quần thể có thể có mức chênh lệch / hình dạng khác nhau thì có lẽ thử nghiệm phương tiện không phải là câu hỏi thú vị nhất hoặc nơi tốt nhất để bắt đầu).

Với kích thước mẫu lớn, lý thuyết mẫu lớn sẽ có lợi cho cả kiểm tra t và bootstrapping và bạn sẽ thấy ít hoặc không có sự khác biệt khi so sánh các phương tiện.

Với kích thước mẫu vừa phải, bootstrap có thể hoạt động tốt và có thể được ưa thích khi bạn không muốn đưa ra các giả định cần thiết cho quy trình kiểm tra t.

Điều quan trọng là phải hiểu các giả định và điều kiện cần thiết cho các quy trình khác nhau mà bạn đang xem xét và xem xét các điều kiện và độ lệch từ chúng sẽ ảnh hưởng đến phân tích của bạn như thế nào và bạn tin rằng dân số / quy trình sản xuất dữ liệu của bạn phù hợp với các điều kiện đó như thế nào , mô phỏng có thể giúp bạn hiểu làm thế nào các sai lệch ảnh hưởng đến các phương pháp khác nhau. Hãy nhớ rằng tất cả các quy trình thống kê đều có các điều kiện và giả định (ngoại trừ SnowsC chính xácSizedButOtherwiseUslessTestOfAnything , nhưng nếu bạn sử dụng thử nghiệm đó thì mọi người sẽ đưa ra các giả định về bạn).


1
Tôi đã nhầm lẫn về điểm này trong nhiều năm: tính quy phạm tiệm cận của theo CLT không đủ để thử nghiệm? X¯
Shadowtalker

1
@ssdecontrol, tính quy tắc tiệm cận / CLT chỉ có nghĩa là một khi kích thước mẫu đủ lớn, phân phối lấy mẫu sẽ đủ gần với bình thường, nhưng nó không cho chúng ta biết mức độ đủ lớn. Đối với một số quần thể, cỡ mẫu là 6 đủ lớn, đối với những người khác, cỡ mẫu 10.000 không đủ lớn. Điều cần thiết là phải hiểu dân số / quá trình của bạn có thể như thế nào và xem xét các lựa chọn thay thế.
Greg Snow

@GregSnow Tôi vẫn băn khoăn về điều này: "Nếu tôi thực hiện kiểm tra t trong R với hàm t.test và tôi đặt các vectơ mẫu bootstrapping vào như hai mẫu độc lập, giá trị t của tôi đơn giản trở nên cực kỳ quan trọng. Tôi không Tôi không nên thực hiện kiểm tra bootstrapping đúng không? Bởi vì tất cả các bootstrapping đang làm chỉ là làm cho giá trị t của tôi lớn hơn, điều này có xảy ra trong mọi trường hợp không? Mọi người không thực hiện kiểm tra t trên các mẫu bootstrapping? "
Herman Toothrot

@HermanToothrot, không rõ bạn đang làm gì khi bạn nói rằng bạn đặt mẫu bootstrapping vào chức năng kiểm tra t. Nhưng hầu hết những điều mà tôi có thể tưởng tượng với mô tả đó là sai. Có vẻ như bạn đang thuyết phục máy tính rằng kích thước mẫu của bạn lớn hơn nhiều so với thực tế (mang lại nhiều ý nghĩa hơn) sẽ đảm bảo câu trả lời sai / vô nghĩa. Để có được sự hiểu biết tốt về Bootstrapping đòi hỏi nhiều hơn sẽ phù hợp với một nhận xét hoặc thậm chí là một câu trả lời. Bạn thực sự nên tham gia một lớp học bao gồm bootstrap hoặc ít nhất là đọc một cuốn sách về chủ đề này.
Greg Snow
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.