Làm thế nào để thực hiện kiểm tra bootstrap để so sánh phương tiện của hai mẫu?


12

Tôi có hai mẫu bị sai lệch nhiều và đang cố gắng sử dụng bootstrapping để so sánh phương tiện của chúng bằng cách sử dụng thống kê t.

Các thủ tục chính xác để làm điều đó là gì?


Quá trình tôi đang sử dụng

Tôi lo ngại về sự phù hợp của việc sử dụng lỗi tiêu chuẩn của dữ liệu gốc / quan sát trong bước cuối cùng khi tôi biết rằng điều này thường không được phân phối.

Đây là các bước của tôi:

  • Bootstrap - mẫu ngẫu nhiên có thay thế (N = 1000)
  • T(b)=(X¯b1X¯b2)(X¯1X¯2)σxb12/n+σxb22/n
  • α/21α/2
  • Nhận khoảng tin cậy thông qua:

    CIL=(X¯1X¯2)T_CIL.SEoriginal
    CIU=(X¯1X¯2)+T_CIU.SEoriginal
    SE=σX12/n+σX22/n
  • Nhìn vào nơi khoảng tin cậy giảm để xác định xem có sự khác biệt đáng kể về phương tiện không (tức là khác không)

Tôi cũng đã xem xét tổng xếp hạng Wilcoxon nhưng nó không cho kết quả rất hợp lý do phân phối sai lệch rất nhiều (ví dụ: phân vị thứ 75 == 95). Vì lý do này, tôi muốn khám phá thêm bài kiểm tra bootstrapping.

Vì vậy, câu hỏi của tôi là:

  1. Đây có phải là một phương pháp thích hợp?
  2. Có phù hợp để sử dụng SE của dữ liệu được quan sát khi tôi biết nó bị sai lệch nhiều không?

Có thể trùng lặp: Phương pháp nào được ưa thích, thử nghiệm bootstrapping hoặc thử nghiệm dựa trên xếp hạng không theo tỷ lệ?


Làm thế nào lớn là các mẫu?
Michael M

@Michael Mayer Khoảng 800
MèoLoveJazz

Câu trả lời:


16

Tôi sẽ chỉ làm một bài kiểm tra bootstrap thông thường:

  • tính toán thống kê t trong dữ liệu của bạn và lưu trữ nó
  • thay đổi dữ liệu sao cho giả thuyết null là đúng. Trong trường hợp này, trừ giá trị trung bình trong nhóm 1 cho nhóm 1 và thêm giá trị trung bình tổng thể, và làm tương tự cho nhóm 2, theo cách đó, phương tiện trong cả hai nhóm sẽ là trung bình tổng thể.
  • Lấy mẫu bootstrap từ bộ dữ liệu này, có thể theo thứ tự 20.000.
  • tính toán thống kê t trong mỗi mẫu bootstrap này. Phân phối của các thống kê t này là ước tính bootstrap của phân phối lấy mẫu của thống kê t trong dữ liệu sai lệch của bạn nếu giả thuyết null là đúng.
  • p(+1)(+1)

Bạn có thể đọc thêm về điều đó trong:

  • Chương 4 của Phương pháp Bootstrap của AC Davison và DV Hinkley (1997) và ứng dụng của chúng . Cambridge: Nhà xuất bản Đại học Cambridge.

  • Chương 16 của Bradley Efron và Robert J. Tibshirani (1993) Giới thiệu về Bootstrap . Boca Raton: Chapman & Hội trường / CRC.

  • Wikipedia mục về kiểm tra giả thuyết bootstrap.


Đây thực chất là những gì tôi đang làm nhưng nhìn vào tỷ lệ số lần thống kê t ban đầu / được quan sát là> = thống kê t khởi động. Mặc dù vậy, có ổn không khi thực hiện kiểm tra t trên dữ liệu bị sai lệch nhiều trong trường hợp đầu tiên, đây là một trong những lý do tại sao tôi muốn boostrap.
MèoLoveJazz

2
Về mặt kỹ thuật, đối với bài kiểm tra bootstrap bạn chỉ cần một thống kê kiểm tra để đó không phải là vấn đề. Về cơ bản, một thử nghiệm t so sánh các phương tiện và trong các dữ liệu trung bình sai lệch thường có ý nghĩa hơn các phương tiện. Vì vậy, một thử nghiệm so sánh trung bình thay vì phương tiện có thể có ý nghĩa hơn. Tuy nhiên, điều đó phụ thuộc vào giả thuyết không có giá trị của bạn, đó là sự lựa chọn và sự lựa chọn của bạn.
Maarten Buis

Ok cảm ơn, đó là ý nghĩa mà chúng tôi muốn kiểm tra vì tất cả các đầu ra khác của chúng tôi đều ở dạng này.
MèoLoveJazz
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.