Tất cả các điểm dữ liệu này đều xuất phát từ cùng một bản phân phối. Làm thế nào để kiểm tra?


16

Tôi cảm thấy như tôi đã thấy chủ đề này được thảo luận ở đây trước đây, nhưng tôi không thể tìm thấy bất cứ điều gì cụ thể. Sau đó, một lần nữa, tôi cũng không thực sự chắc chắn những gì để tìm kiếm.

Tôi có một bộ dữ liệu theo thứ tự. Tôi đưa ra giả thuyết rằng tất cả các điểm trong tập hợp được rút ra từ cùng một phân phối.

Làm thế nào tôi có thể kiểm tra giả thuyết này? Có hợp lý không khi kiểm tra thay thế chung cho "các quan sát trong bộ dữ liệu này được rút ra từ hai bản phân phối khác nhau"?

Lý tưởng nhất, tôi muốn xác định những điểm đến từ phân phối "khác". Vì dữ liệu của tôi đã được yêu cầu, tôi có thể thoát khỏi việc xác định điểm cắt không, sau khi kiểm tra bằng cách nào đó liệu nó có "hợp lệ" để cắt dữ liệu không?

Chỉnh sửa: theo câu trả lời của Glen_b, tôi sẽ quan tâm đến các bản phân phối không chính thống, tích cực. Tôi cũng quan tâm đến trường hợp đặc biệt giả sử phân phối và sau đó kiểm tra các tham số khác nhau .


Bạn có ý nghĩa gì bởi "cùng phân phối"? Là những quan sát về Gamma được coi là đến từ cùng một phân phối, hay nó được coi là tổng của các phân phối theo cấp số nhân?
Metariat

+1 đây là một câu hỏi thực sự tốt để bạn tự hỏi chính mình.
Mehrdad

@Metallica miễn là mỗi quan sát là một tổng số mũ, tôi sẽ nói rằng chúng đến từ cùng một phân phối
Shadowtalker

@Mehrdad Tôi không được đào tạo thống kê chính thức ngoài bằng cấp đại học và một vài lớp linh tinh trong thạc sĩ. Nếu bạn nhìn vào lịch sử câu trả lời của tôi, rõ ràng tôi biết rất nhiều về hồi quy tuyến tính và không biết nhiều về bất cứ điều gì khác
Shadowtalker

2
Một cách có thể để tiếp cận câu hỏi này là xem xét một hỗn hợp hữu hạn, ví dụ như một số loại phân phối và để xem liệu bạn có cần nhiều hơn 1 thành phần hỗn hợp để mô tả tốt dữ liệu của mình không. Tuy nhiên, câu hỏi đặt ra là liệu có một loại phân phối nào đủ linh hoạt để mô tả "giả thuyết không" của bạn bằng một thành phần hỗn hợp không (ví dụ: nếu bạn sử dụng hỗn hợp gamma hữu hạn, chúng có thể không linh hoạt về độ lệch hoặc đuôi hành vi tùy thuộc vào những gì bạn đang cố gắng làm), trong khi có chứa sự thay thế tiềm năng dưới dạng hỗn hợp nhiều thành phần.
Bjorn

Câu trả lời:


29

Hãy tưởng tượng hai kịch bản:

  1. tất cả các điểm dữ liệu được rút ra từ cùng một phân phối - một điểm thống nhất trên (16,36)

  2. các điểm dữ liệu được rút ra từ hỗn hợp 50-50 của hai quần thể:

    a. quần thể A, có hình dạng như thế này:

nhập mô tả hình ảnh ở đây

b. quần thể B, có hình dạng như thế này:

nhập mô tả hình ảnh ở đây

... sao cho hỗn hợp của cả hai trông giống hệt như trường hợp trong 1.

Làm thế nào họ có thể được phân biệt?

Dù bạn chọn hình dạng nào cho hai quần thể, sẽ luôn có một phân bố dân cư duy nhất có hình dạng giống nhau. Lập luận này chứng minh rõ ràng rằng trong trường hợp chung, bạn chỉ đơn giản là không thể làm điều đó. Không có cách nào để phân biệt.

Nếu bạn giới thiệu thông tin về các quần thể (giả định, hiệu quả) thì thường có thể có cách để tiến hành *, nhưng trường hợp chung đã chết.

* ví dụ: nếu bạn cho rằng dân số là không chính thống và có đủ các phương tiện khác nhau, bạn có thể đến một nơi nào đó

[Có những hạn chế được thêm vào câu hỏi là không đủ để tránh một phiên bản khác của loại vấn đề tôi mô tả ở trên - chúng ta vẫn có thể viết một giá trị không chính thống trên nửa dòng tích cực dưới dạng hỗn hợp 50-50 của hai bản phân phối không chính thống trên nửa dòng tích cực. Tất nhiên nếu bạn có một null cụ thể hơn, điều này sẽ trở thành vấn đề ít hơn nhiều. Ngoài ra, vẫn có thể hạn chế lớp thay thế hơn nữa cho đến khi chúng tôi ở trong một vị trí để kiểm tra đối với một số thay thế hỗn hợp. Hoặc một số hạn chế bổ sung có thể được áp dụng cho cả null và thay thế sẽ khiến chúng có thể phân biệt được.]


1
Cảm ơn, ví dụ tuyệt vời. Vì vậy, nó đi xuống để hạn chế một cách thích hợp các giả thuyết thay thế, đúng không?
Shadowtalker

@ssdecontrol có, về bản chất; nếu (với các giả định), sự thay thế có thể phân biệt được với null, bạn có một số hy vọng về một bài kiểm tra có sức mạnh cao hơn mức ý nghĩa của bạn.
Glen_b -Reinstate Monica

0

Rõ ràng bạn cần có một số lý thuyết để nói về phân phối và các giả thuyết nhà nước để kiểm tra. Một cái gì đó nhóm các đối tượng trong một hoặc nhiều nhóm và một cái gì đó làm cho các phép đo tách ra.

Bạn tới đó bằng cách nào? Tôi thấy ba lựa chọn:

  • Nếu bạn đã biết rằng từ vấn đề của bạn, thì bạn chỉ cần dịch nó sang ngôn ngữ của giả thuyết thống kê
  • Vẽ sơ đồ và nhận ra các mẫu để trở thành giả thuyết để kiểm tra
  • Hãy đến với một danh sách các bản phân phối bạn có thể phù hợp và làm một thí nghiệm toán học. Lập trình xác suất là từ khóa ở đây

Bài tập sau đó sẽ cho phép bạn kết luận rằng có một hoặc nhiều nhóm được đại diện trong mẫu của bạn hoặc chỉ một nhóm. Hoặc không có nhóm nào cả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.