Những gì bạn kết luận về nếu dữ liệu là IID đến từ thông tin bên ngoài, chứ không phải chính dữ liệu. Bạn là nhà khoa học cần xác định xem có hợp lý không khi giả sử dữ liệu IID dựa trên cách dữ liệu được thu thập và thông tin bên ngoài khác.
Hãy xem xét một số ví dụ.
Kịch bản 1: Chúng tôi tạo ra một tập hợp dữ liệu độc lập từ một phân phối duy nhất xảy ra là một hỗn hợp của 2 quy tắc.
Kịch bản 2: Trước tiên, chúng tôi tạo biến số giới tính từ phân phối nhị thức, sau đó trong nam và nữ, chúng tôi tạo dữ liệu độc lập từ phân phối bình thường (nhưng các quy tắc khác nhau đối với nam và nữ), sau đó chúng tôi xóa hoặc mất thông tin về giới.
Trong kịch bản 1, dữ liệu là IID và trong kịch bản 2, dữ liệu rõ ràng không được phân phối chính xác (phân phối khác nhau cho nam và nữ), nhưng 2 phân phối cho 2 kịch bản không thể phân biệt được với dữ liệu, bạn phải biết mọi thứ về cách dữ liệu được tạo ra để xác định sự khác biệt.
Kịch bản 3: Tôi lấy một mẫu ngẫu nhiên đơn giản của những người sống trong thành phố của tôi và thực hiện một cuộc khảo sát và phân tích kết quả để đưa ra những suy luận về tất cả mọi người trong thành phố.
Kịch bản 4: Tôi lấy một mẫu ngẫu nhiên đơn giản của những người sống trong thành phố của tôi và thực hiện một cuộc khảo sát và phân tích kết quả để đưa ra những suy luận về tất cả mọi người trong nước.
Trong kịch bản 3, các đối tượng sẽ được coi là độc lập (mẫu ngẫu nhiên đơn giản về dân số quan tâm), nhưng trong kịch bản 4, họ sẽ không được coi là độc lập vì họ được chọn từ một nhóm nhỏ dân số quan tâm và sự gần gũi về địa lý có thể sẽ áp đặt sự phụ thuộc. Nhưng 2 bộ dữ liệu giống hệt nhau, đó là cách chúng tôi dự định sử dụng dữ liệu xác định xem chúng độc lập hay phụ thuộc trong trường hợp này.
Vì vậy, không có cách nào để kiểm tra chỉ sử dụng dữ liệu để hiển thị dữ liệu đó là IID, các sơ đồ và chẩn đoán khác có thể hiển thị một số loại không phải IID, nhưng thiếu những điều này không đảm bảo rằng dữ liệu là IID. Bạn cũng có thể so sánh với các giả định cụ thể (IID bình thường dễ bị từ chối hơn là chỉ IID). Bất kỳ thử nghiệm nào vẫn chỉ là một quy tắc, nhưng việc không từ chối các thử nghiệm không bao giờ chứng minh rằng đó là IID.
Các quyết định về việc bạn có sẵn sàng cho rằng các điều kiện IID cần phải được đưa ra dựa trên cơ sở khoa học về cách dữ liệu được thu thập, cách nó liên quan đến thông tin khác và cách sử dụng nó.
Chỉnh sửa:
Dưới đây là một tập hợp các ví dụ khác cho không giống nhau.
Kịch bản 5: dữ liệu là phần dư từ hồi quy trong đó có độ không đồng nhất (phương sai không bằng nhau).
Kịch bản 6: dữ liệu là từ hỗn hợp các quy tắc có giá trị trung bình 0 nhưng phương sai khác nhau.
Trong kịch bản 5, chúng ta có thể thấy rõ rằng phần dư không được phân phối giống hệt nhau nếu chúng ta vẽ các phần dư dựa trên các giá trị được trang bị hoặc các biến khác (dự đoán hoặc dự đoán tiềm năng), nhưng bản thân phần dư (không có thông tin bên ngoài) sẽ không thể phân biệt được với kịch bản 6.