Kiểm tra lấy mẫu IID


16

Làm thế nào bạn sẽ kiểm tra hoặc kiểm tra việc lấy mẫu là IID (Phân phối độc lập và giống hệt nhau)? Lưu ý rằng tôi không có nghĩa là Gaussian và Phân phối chính xác, chỉ IID.

Và ý tưởng xuất hiện trong đầu tôi là liên tục chia mẫu thành hai mẫu phụ có kích thước bằng nhau, thực hiện thử nghiệm Kolmogorov-Smirnov và kiểm tra xem phân phối của các giá trị p có đồng nhất không.

Bất kỳ bình luận về cách tiếp cận đó, và bất kỳ đề nghị đều được chào đón.

Làm rõ sau khi bắt đầu tiền thưởng: Tôi đang tìm kiếm một thử nghiệm chung có thể được áp dụng cho dữ liệu chuỗi thời gian không.


Có phải là dữ liệu chuỗi thời gian?
danas.zuokas

@ gui11aume bạn đã thử kiểm tra "nhãn cầu" chưa? Đó là, vẽ dữ liệu và xem nếu nó trông IID.
Macro

Tôi chưa. Tôi không chắc ý của bạn là gì: vẽ các giá trị theo thứ tự chúng đến (có thể là ngẫu nhiên)? Và sau đó kiểm tra sự vắng mặt của mô hình nổi bật?
gui11aume

1
Bạn đã xem "bài kiểm tra chạy" chưa? vi.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent

1
Lấy làm tiếc. Tôi đã ghi nhớ trong bài kiểm tra chạy sau: apprendre-en-ligne.net/random/run.html (nhưng điều này được viết bằng tiếng Pháp)
Stéphane Laurent

Câu trả lời:


14

Những gì bạn kết luận về nếu dữ liệu là IID đến từ thông tin bên ngoài, chứ không phải chính dữ liệu. Bạn là nhà khoa học cần xác định xem có hợp lý không khi giả sử dữ liệu IID dựa trên cách dữ liệu được thu thập và thông tin bên ngoài khác.

Hãy xem xét một số ví dụ.

Kịch bản 1: Chúng tôi tạo ra một tập hợp dữ liệu độc lập từ một phân phối duy nhất xảy ra là một hỗn hợp của 2 quy tắc.

Kịch bản 2: Trước tiên, chúng tôi tạo biến số giới tính từ phân phối nhị thức, sau đó trong nam và nữ, chúng tôi tạo dữ liệu độc lập từ phân phối bình thường (nhưng các quy tắc khác nhau đối với nam và nữ), sau đó chúng tôi xóa hoặc mất thông tin về giới.

Trong kịch bản 1, dữ liệu là IID và trong kịch bản 2, dữ liệu rõ ràng không được phân phối chính xác (phân phối khác nhau cho nam và nữ), nhưng 2 phân phối cho 2 kịch bản không thể phân biệt được với dữ liệu, bạn phải biết mọi thứ về cách dữ liệu được tạo ra để xác định sự khác biệt.

Kịch bản 3: Tôi lấy một mẫu ngẫu nhiên đơn giản của những người sống trong thành phố của tôi và thực hiện một cuộc khảo sát và phân tích kết quả để đưa ra những suy luận về tất cả mọi người trong thành phố.

Kịch bản 4: Tôi lấy một mẫu ngẫu nhiên đơn giản của những người sống trong thành phố của tôi và thực hiện một cuộc khảo sát và phân tích kết quả để đưa ra những suy luận về tất cả mọi người trong nước.

Trong kịch bản 3, các đối tượng sẽ được coi là độc lập (mẫu ngẫu nhiên đơn giản về dân số quan tâm), nhưng trong kịch bản 4, họ sẽ không được coi là độc lập vì họ được chọn từ một nhóm nhỏ dân số quan tâm và sự gần gũi về địa lý có thể sẽ áp đặt sự phụ thuộc. Nhưng 2 bộ dữ liệu giống hệt nhau, đó là cách chúng tôi dự định sử dụng dữ liệu xác định xem chúng độc lập hay phụ thuộc trong trường hợp này.

Vì vậy, không có cách nào để kiểm tra chỉ sử dụng dữ liệu để hiển thị dữ liệu đó là IID, các sơ đồ và chẩn đoán khác có thể hiển thị một số loại không phải IID, nhưng thiếu những điều này không đảm bảo rằng dữ liệu là IID. Bạn cũng có thể so sánh với các giả định cụ thể (IID bình thường dễ bị từ chối hơn là chỉ IID). Bất kỳ thử nghiệm nào vẫn chỉ là một quy tắc, nhưng việc không từ chối các thử nghiệm không bao giờ chứng minh rằng đó là IID.

Các quyết định về việc bạn có sẵn sàng cho rằng các điều kiện IID cần phải được đưa ra dựa trên cơ sở khoa học về cách dữ liệu được thu thập, cách nó liên quan đến thông tin khác và cách sử dụng nó.

Chỉnh sửa:

Dưới đây là một tập hợp các ví dụ khác cho không giống nhau.

Kịch bản 5: dữ liệu là phần dư từ hồi quy trong đó có độ không đồng nhất (phương sai không bằng nhau).

Kịch bản 6: dữ liệu là từ hỗn hợp các quy tắc có giá trị trung bình 0 nhưng phương sai khác nhau.

Trong kịch bản 5, chúng ta có thể thấy rõ rằng phần dư không được phân phối giống hệt nhau nếu chúng ta vẽ các phần dư dựa trên các giá trị được trang bị hoặc các biến khác (dự đoán hoặc dự đoán tiềm năng), nhưng bản thân phần dư (không có thông tin bên ngoài) sẽ không thể phân biệt được với kịch bản 6.


Phần đầu tiên của câu trả lời này, đặc biệt, có vẻ hơi khó hiểu (hoặc khó hiểu) với tôi. Being iid là một thuộc tính toán học được xác định rõ ràng của một tập hợp hữu hạn các biến ngẫu nhiên . Kịch bản 1 và 2 của bạn giống hệt nhau nếu các biến ngẫu nhiên trong trường hợp thứ hai được lấy "sau khi mất thông tin về giới". Họ là iid trong cả hai trường hợp!
hồng y

GregSnow Tôi không hoàn toàn đồng ý với khẳng định của bạn. Có thể là bạn biết rằng dữ liệu đến từ một chuỗi các biến ngẫu nhiên được phân phối giống hệt nhau. Bạn không biết chính xác mô hình đã tạo ra nó. Nó có thể là chúng được tạo ra độc lập hoặc luân phiên đến từ một chuỗi thời gian đứng yên. Để quyết định trường hợp nào giả sử rằng bạn biết rằng phân phối giống hệt nhau là bình thường. Sau đó, cả hai khả năng thuộc loại trình tự đứng yên và sẽ là iid nếu và chỉ tất cả các tự động độ trễ không khác nhau là 0. Hoàn toàn hợp lý để kiểm tra xem liệu Correla
Michael R. Chernick

2
@cardinal, vậy bạn có đồng ý rằng dữ liệu trong kịch bản 2 không được phân phối chính xác trước khi mất thông tin về giới không? Vì vậy, chúng ta sẽ có một trường hợp chúng không giống nhau, nhưng cách duy nhất để phân biệt sự khác biệt là sử dụng thông tin bên ngoài biến được xem xét (giới tính trong trường hợp này). Có là IID là một thuộc tính toán học được xác định rõ, nhưng cũng là một số nguyên, bạn có thể kiểm tra xem điểm dữ liệu 3. là số nguyên được lưu dưới dạng số dấu phẩy động hay giá trị liên tục được làm tròn mà không có thông tin bên ngoài về nơi nó đến từ.
Greg Snow

2
ZXiXj,ijXi|ZXj|ZZZ

Nhưng tất cả những gì bạn nói ở trên đều sử dụng thông tin về cách dữ liệu được thu thập / tạo, không chỉ riêng dữ liệu. Và ngay cả khi chúng tôi có dữ liệu hỗ trợ rằng không có tự động tương quan chuỗi thời gian mà không cho chúng tôi biết bất cứ điều gì về tương quan không gian hoặc các loại không độc lập khác. Chúng ta có thể thực sự kiểm tra cho mọi loại phụ thuộc có thể và nhận được kết quả có ý nghĩa không? hoặc chúng ta nên sử dụng thông tin về cách dữ liệu được thu thập để hướng dẫn các thử nghiệm nào có khả năng có ý nghĩa nhất?
Greg Snow

5

Nếu dữ liệu có thứ tự chỉ mục, bạn có thể sử dụng các kiểm tra nhiễu trắng cho chuỗi thời gian. Về cơ bản điều đó có nghĩa là kiểm tra độ tự động ở tất cả độ trễ khác không bằng 0. Điều này xử lý phần độc lập. Tôi nghĩ rằng cách tiếp cận của bạn đang cố gắng chủ yếu giải quyết phần phân phối giống hệt của giả định. Tôi nghĩ rằng có một số vấn đề với cách tiếp cận của bạn. Tôi nghĩ rằng bạn cần rất nhiều phân chia để có đủ giá trị p để kiểm tra tính đồng nhất. Sau đó, mỗi bài kiểm tra KS mất điện. Nếu bạn đang sử dụng các phần tách trùng nhau trên các phần của tập dữ liệu, các bài kiểm tra sẽ tương quan. Với một số lượng nhỏ các phép chia, kiểm tra tính đồng nhất thiếu năng lượng. Nhưng với nhiều phân tách, kiểm tra tính đồng nhất có thể mạnh mẽ nhưng các kiểm tra KS thì không. Ngoài ra, dường như phương pháp này sẽ không giúp phát hiện sự phụ thuộc giữa các biến.

@ gu11aume Tôi không chắc chắn những gì bạn đang yêu cầu với một bài kiểm tra chung cho chuỗi không thời gian. Dữ liệu không gian cung cấp một dạng dữ liệu chuỗi không theo thời gian. Có chức năng được gọi là variogram có thể được xem xét. Đối với các chuỗi một chiều, tôi không thấy nhiều sự khác biệt giữa các chuỗi được sắp xếp theo thời gian so với bất kỳ cách sắp xếp dữ liệu nào khác. Một chức năng tự tương quan vẫn có thể được xác định và kiểm tra. Khi bạn nói rằng bạn muốn kiểm tra tính độc lập trong lấy mẫu, tôi nghĩ bạn có một thứ tự trong đó các mẫu được thu thập. Vì vậy, tôi nghĩ rằng tất cả các trường hợp 1 chiều hoạt động theo cùng một cách.


2
(+1) vì đây là những gì tôi đã nghĩ nhưng Re: "Nếu dữ liệu có chỉ số theo thứ tự, bạn có thể sử dụng các kiểm tra tiếng ồn trắng cho chuỗi thời gian. - logic này chỉ áp dụng khi bạn xử lý chuỗi thời gian đứng yên, phải không? Nếu không, bạn có thể nhận được kết quả sai lệch về các mối tương quan bị trễ. Ví dụ, điều gì sẽ xảy ra nếu chỉ phần "sau" của chuỗi thời gian được tự động hóa?
Macro

1
@Macro Tôi nghĩ đó là những gì bạn có trong đầu dựa trên câu hỏi của bạn với OP. Nhưng tôi không nghĩ cần phải chờ phản hồi của anh ấy để chỉ ra điều này. Nó áp dụng khi bạn đang tìm kiếm sự độc lập. Nhưng tôi hiểu quan điểm của bạn. Trong thực tế bạn chỉ kiểm tra độ trễ k đầu tiên. Nếu sê-ri đứng yên, các mối tương quan sẽ giảm với k nhưng không phải đối với sê-ri không cố định. Vì vậy, ít nhất trong lý thuyết, bạn sẽ bỏ lỡ mối tương quan ở độ trễ lớn cho một loạt không cố định.
Michael R. Chernick

2
cor(yt,ys)=f(s,t)f(s,t)|st|

Cảm ơn câu trả lời của bạn Michael! Bạn đã đúng: trong trường hợp dữ liệu là một chuỗi thời gian, kiểm tra tương quan tự động là cách tiếp cận tốt nhất. Đối với những lời chỉ trích của bạn về cách tiếp cận chia tách KS, bạn cũng có một điểm. Vì vậy, chúng tôi vẫn không có thử nghiệm trong trường hợp chung (không phải chuỗi thời gian) có vẻ như.
gui11aume

2
Sự tự tương quan khác không đầu tiên là ở độ trễ 60 và chỉ ở bội số khác của 60. Nếu chuỗi thời gian có độ dài 55, chúng ta thậm chí không thể quan sát hai điểm cách nhau 60 điểm. Sowe không thể kiểm tra xem độ tương quan độ trễ 60 có bằng 0 hay không. Nếu độ dài của chuỗi là 65, chúng ta có thể ước tính độ tương quan độ trễ 60 nhưng chỉ dựa trên 5 độ trễ 60 cặp. Vì vậy, phương sai của ước tính là lớn và chúng tôi sẽ không có khả năng phát hiện mối tương quan khác không này.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.