Kiểm tra phân phối lưỡng kim


30

Tôi tự hỏi nếu có bất kỳ kiểm tra thống kê để "kiểm tra" tầm quan trọng của phân phối lưỡng kim. Ý tôi là, bao nhiêu dữ liệu của tôi đáp ứng phân phối lưỡng kim hay không? Nếu vậy, có bất kỳ thử nghiệm trong chương trình R?


3
Bạn không tìm thấy câu trả lời bằng cách tìm kiếm trang web của chúng tôi ? Nếu không, thiếu gì?
whuber

7
Có các xét nghiệm về lưỡng tính hoặc đa phương thức, nhưng chúng có xu hướng một chiều. Nghĩa là, bạn có thể kết luận những thứ như "có nhiều hơn một chế độ", nhưng bạn không thể nói "có ít hơn ba chế độ" - bạn có thể nhận được giới hạn thấp hơn về số lượng chế độ nhưng bạn thực sự không thể có giới hạn cao hơn bởi vì một phân phối đa phương thức với bất kỳ số lượng chế độ nào có thể được tìm thấy gần tùy ý với một phân phối với bất kỳ số lượng chế độ nhỏ hơn. Tôi sẽ xem nếu tôi có thể khai thác một số thử nghiệm hoặc tài liệu tham khảo rõ ràng.
Glen_b -Reinstate Monica

4
Trang wikipedia về phân phối lưỡng kim liệt kê tám bài kiểm tra về tính đa phương thức chống lại sự không đồng nhất và cung cấp tài liệu tham khảo cho bảy người trong số họ. Tôi không chắc có ai ở R. Tôi sẽ xem xét.
Glen_b -Reinstate Monica

Câu trả lời:


17

Một cách tiếp cận khả thi khác cho vấn đề này là suy nghĩ về những gì có thể xảy ra đằng sau hậu trường đang tạo ra dữ liệu bạn nhìn thấy. Đó là, bạn có thể nghĩ theo mô hình hỗn hợp , ví dụ, mô hình hỗn hợp Gaussian. Chẳng hạn, bạn có thể tin rằng dữ liệu của bạn được rút ra từ một dân số bình thường duy nhất hoặc từ hỗn hợp hai phân phối bình thường (theo một tỷ lệ nào đó), với các phương tiện và phương sai khác nhau. Tất nhiên, bạn không cần phải tin rằng chỉ có một hoặc hai, bạn cũng không phải tin rằng các quần thể mà dữ liệu được rút ra cần phải bình thường.

Có (ít nhất) hai gói R cho phép bạn ước tính mô hình hỗn hợp. Một gói là flexmix , và một khác là mclust . Ước tính có hai mô hình ứng cử viên, tôi tin rằng có thể tiến hành kiểm tra tỷ lệ khả năng. Ngoài ra, bạn có thể sử dụng phương pháp khớp chéo bootstrap tham số ( pdf ).


Xin chào @gung, đối với phương pháp ghép chéo bootstrap tham số, bạn sẽ xác định tiêu chí tối ưu như thế nào đối với phân phối lưỡng kim? Có thể có trường hợp hai phân phối cạnh tranh giao nhau tại hai điểm. Nên làm gì trong trường hợp như vậy?
akashrajkn

32

Như đã đề cập trong các bình luận, trang Wikipedia về danh sách 'Phân phối lưỡng kim' tám bài kiểm tra về tính đa phương thức chống lại sự phi hình thức và cung cấp tài liệu tham khảo cho bảy người trong số họ.

Có ít nhất một số trong R. Ví dụ:

  1. Gói diptestthực hiện thử nghiệm nhúng của Hartigan.

  2. Các stampdữ liệu trongbootstrap gói được sử dụng trong Efron và Tibshirani của Giới thiệu về Bootstrap (cuốn sách mà trên đó các gói dựa) để làm một ví dụ liên quan đến bootstrapping vào số lượng các chế độ; nếu bạn có quyền truy cập vào cuốn sách, bạn có thể sử dụng phương pháp đó.

    Efron, B. và Tibshirani, R. (1993) Giới thiệu về Bootstrap .
    Chapman và Hội trường, New York, London.

-

Có một câu hỏi trên CV nói về việc xác định (nghĩa là ước tính thay vì kiểm tra) số lượng chế độ mà tìm kiếm của @ whuber xuất hiện. Thật đáng để đọc câu trả lời ở đó. Một trong những câu trả lời ở đó (của tôi, như nó xảy ra) có liên kết đến một tìm kiếm Google, bài viết này của David Donoho về việc xây dựng các TCTD một phía cho số lượng chế độ, tất nhiên có thể được sử dụng làm thử nghiệm (ví dụ: , nếu khoảng một phía không bao gồm trường hợp không chính thống, bạn có thể từ chối tính không đồng nhất). Theo hiểu biết tốt nhất của tôi thì khôngmột trong những bài kiểm tra mà Wikipedia đề cập. Tôi không nghĩ rằng có một triển khai R của khoảng thời gian đó, nhưng (mặc dù thực tế là Donoho có xu hướng sử dụng các công cụ khá tinh vi trong cuộc thảo luận về nó) thực sự là một ý tưởng khá đơn giản để thực hiện. Ý tưởng đó liên quan trực tiếp đến khái niệm sử dụng ước tính mật độ hạt nhân.


Đó là công việc có giá trị.
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.