Tôi tự hỏi nếu có bất kỳ kiểm tra thống kê để "kiểm tra" tầm quan trọng của phân phối lưỡng kim. Ý tôi là, bao nhiêu dữ liệu của tôi đáp ứng phân phối lưỡng kim hay không? Nếu vậy, có bất kỳ thử nghiệm trong chương trình R?
Tôi tự hỏi nếu có bất kỳ kiểm tra thống kê để "kiểm tra" tầm quan trọng của phân phối lưỡng kim. Ý tôi là, bao nhiêu dữ liệu của tôi đáp ứng phân phối lưỡng kim hay không? Nếu vậy, có bất kỳ thử nghiệm trong chương trình R?
Câu trả lời:
Một cách tiếp cận khả thi khác cho vấn đề này là suy nghĩ về những gì có thể xảy ra đằng sau hậu trường đang tạo ra dữ liệu bạn nhìn thấy. Đó là, bạn có thể nghĩ theo mô hình hỗn hợp , ví dụ, mô hình hỗn hợp Gaussian. Chẳng hạn, bạn có thể tin rằng dữ liệu của bạn được rút ra từ một dân số bình thường duy nhất hoặc từ hỗn hợp hai phân phối bình thường (theo một tỷ lệ nào đó), với các phương tiện và phương sai khác nhau. Tất nhiên, bạn không cần phải tin rằng chỉ có một hoặc hai, bạn cũng không phải tin rằng các quần thể mà dữ liệu được rút ra cần phải bình thường.
Có (ít nhất) hai gói R cho phép bạn ước tính mô hình hỗn hợp. Một gói là flexmix , và một khác là mclust . Ước tính có hai mô hình ứng cử viên, tôi tin rằng có thể tiến hành kiểm tra tỷ lệ khả năng. Ngoài ra, bạn có thể sử dụng phương pháp khớp chéo bootstrap tham số ( pdf ).
Như đã đề cập trong các bình luận, trang Wikipedia về danh sách 'Phân phối lưỡng kim' tám bài kiểm tra về tính đa phương thức chống lại sự phi hình thức và cung cấp tài liệu tham khảo cho bảy người trong số họ.
Có ít nhất một số trong R. Ví dụ:
Gói diptest
thực hiện thử nghiệm nhúng của Hartigan.
Các stamp
dữ liệu trongbootstrap
gói được sử dụng trong Efron và Tibshirani của Giới thiệu về Bootstrap (cuốn sách mà trên đó các gói dựa) để làm một ví dụ liên quan đến bootstrapping vào số lượng các chế độ; nếu bạn có quyền truy cập vào cuốn sách, bạn có thể sử dụng phương pháp đó.
Efron, B. và Tibshirani, R. (1993) Giới thiệu về Bootstrap .
Chapman và Hội trường, New York, London.
-
Có một câu hỏi trên CV nói về việc xác định (nghĩa là ước tính thay vì kiểm tra) số lượng chế độ mà tìm kiếm của @ whuber xuất hiện. Thật đáng để đọc câu trả lời ở đó. Một trong những câu trả lời ở đó (của tôi, như nó xảy ra) có liên kết đến một tìm kiếm Google, bài viết này của David Donoho về việc xây dựng các TCTD một phía cho số lượng chế độ, tất nhiên có thể được sử dụng làm thử nghiệm (ví dụ: , nếu khoảng một phía không bao gồm trường hợp không chính thống, bạn có thể từ chối tính không đồng nhất). Theo hiểu biết tốt nhất của tôi thì khôngmột trong những bài kiểm tra mà Wikipedia đề cập. Tôi không nghĩ rằng có một triển khai R của khoảng thời gian đó, nhưng (mặc dù thực tế là Donoho có xu hướng sử dụng các công cụ khá tinh vi trong cuộc thảo luận về nó) thực sự là một ý tưởng khá đơn giản để thực hiện. Ý tưởng đó liên quan trực tiếp đến khái niệm sử dụng ước tính mật độ hạt nhân.