Phương pháp nào mô phỏng giá trị từ lấy mẫu lại từ dữ liệu


8

Cách đây không lâu, tôi đã hỏi một câu hỏi về thời gian tương quan giữa các dấu thời giannhận được phản hồi từ Peter Ellis nói rằng tôi có thể tính khoảng cách trung bình giữa các mã ...

Điều này đã cung cấp cho bạn một số ý nghĩa về các hành vi được nhóm lại với nhau, nhưng bạn cũng nên kiểm tra xem điều này không hợp lý chỉ là do tình cờ.

Để kiểm tra điều đó, tôi sẽ tạo dữ liệu mô phỏng được tạo bởi một mô hình theo giả thuyết không có quan hệ. Làm điều này sẽ yêu cầu tạo dữ liệu cho từng thời gian của hành vi từ một mô hình null hợp lý, có thể dựa trên việc lấy lại thời gian giữa mỗi sự kiện (ví dụ giữa mỗi lần ngáp) để tạo ra một bộ tem thời gian mới cho các sự kiện mô hình null giả định. Sau đó tính toán thống kê chỉ báo tương tự cho mô hình null này và so sánh với chỉ báo từ dữ liệu chính hãng của bạn. Bằng cách lặp lại mô phỏng này một số lần, bạn có thể tìm hiểu xem chỉ báo từ dữ liệu của bạn có đủ khác với dữ liệu mô phỏng của mô hình null không (ví dụ thời gian trung bình nhỏ hơn từ mỗi lần ngáp đến đoạn gần nhất) để tính là bằng chứng có ý nghĩa thống kê giả thuyết khống của bạn.

Cuối cùng tôi đã sở hữu bộ kỹ năng để làm điều này và đã làm như vậy trong R nhưng tôi không biết phương pháp hay kỹ thuật này được gọi là gì để tôi có thể (a) tìm hiểu thêm về nó (b) nói một cách thông minh về lý thuyết đằng sau những gì tôi tôi đang làm

Một số người cho rằng đây được gọi là thử nghiệm hoán vị, những người khác nói tương tự nhưng không giống như bootstrapping và một số người nói với tôi rằng nó liên quan đến việc lấy mẫu lại Monte Carlo.

Phương pháp lấy mẫu lại này là gì, với NULL là TRUE, được gọi là gì? Nếu bạn có một tài liệu tham khảo hoặc hai để sao lưu phản hồi của bạn có thể hữu ích nhưng không cần thiết.

Câu trả lời:


4

Dường như với tôi rằng Ellis có thể đề cập đến ba ý tưởng khác biệt ở đây. Đầu tiên, ông nói điều gì đó về việc tạo ra "dữ liệu mô phỏng được tạo bởi một mô hình theo giả thuyết không có liên quan." Tôi sẽ gọi đây là một hình thức bootstrapping tham số . Sau đó, ông nói rằng điều này sẽ "có thể dựa trên việc lấy lại thời gian giữa mỗi sự kiện (ví dụ giữa mỗi lần ngáp) để tạo ra một bộ tem thời gian mới cho các sự kiện mô hình null giả thuyết." Mà, hãy làm rõ ở đây, để làm điều này không phải là "tạo dữ liệu mô phỏng." Thay vào đó, chúng tôi thay vào đó, nếu tôi hiểu chính xác, lấy mẫu lại từ dữ liệu thực tế được quan sát của chúng tôi. Quy trình sau này là một thử nghiệm hoán vị hoặc bootstrapping không định lượng ,

Tôi đoán tôi nên nói thêm một vài từ về bootstrapping tham số, kiểm tra hoán vị và bootstrapping không tham số.

μ1μ2σrnorm()R không phảiμ1= =μ2

Mặt khác, một bài kiểm tra hoán vị liên quan đến việc xáo trộn dữ liệu quan sát của bạn nhiều lần theo cách phù hợp với giả thuyết khống. Vì vậy, ví dụ, nếu giả thuyết null ngụ ý rằng việc gán nhóm không có sự khác biệt về nghĩa của nhóm, bạn có thể ngẫu nhiên xáo trộn các nhãn nhóm trong tất cả các quan sát của bạn nhiều lần và xem sự khác biệt có nghĩa của bạn đối với tất cả các cách xáo trộn có thể có theo cách này Và sau đó bạn sẽ thấy nơi phân phối số liệu thống kê kiểm tra được tính toán từ các bộ dữ liệu được xáo trộn này có nói dối thống kê quan sát thực tế của bạn. Lưu ý rằng có một số cách hữu hạn (nhưng thường là lớn) mà bạn có thể xáo trộn dữ liệu thực sự quan sát được của mình.

Cuối cùng, bootstrapping không tương tự rất giống với thử nghiệm hoán vị, nhưng chúng tôi lấy mẫu lại dữ liệu quan sát bằng thay thếđể cố gắng đến gần hơn với "dân số" vô hạn các giá trị mà dữ liệu của chúng tôi có thể được rút ra từ đó. Có rất nhiều, rất nhiều cách khác để lấy mẫu lại từ dữ liệu của bạn bằng cách thay thế hơn là xáo trộn dữ liệu của bạn (mặc dù về mặt kỹ thuật là hữu hạn trong thực tế). Một lần nữa, tương tự như bootstrapping tham số, điều này thường được thực hiện không theo giả thuyết null, nhưng theo mô hình được ngụ ý bởi dữ liệu quan sát, mang lại khoảng tin cậy xung quanh các thống kê kiểm tra quan sát, không phải giá trị p. Nhưng người ta chắc chắn có thể tưởng tượng làm điều này theo giả thuyết khống như Ellis gợi ý và thu được giá trị p theo cách này. Như một ví dụ về bootstrapping không định lượng ở đây (theo kiểu truyền thống, nghĩa là khôngtheo giả thuyết null) sử dụng cùng một ví dụ về sự khác biệt trong nhóm có nghĩa là tôi đã sử dụng trong đoạn bootstrapping tham số, để làm điều này, chúng tôi sẽ lấy mẫu lại bằng cách thay thế các quan sát trong mỗi nhóm nhiều lần nhưng không trộn lẫn các quan sát giữa các nhóm (không giống như trong hoán vị kiểm tra) và xây dựng phân phối lấy mẫu của các khác biệt có nghĩa là nhóm mà chúng ta có được theo cách này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.