Kiểm tra dữ liệu lớn cho tính quy tắc - làm thế nào và nó có đáng tin cậy không?


12

Tôi đang kiểm tra một phần của bộ dữ liệu của mình chứa 46840 giá trị gấp đôi từ 1 đến 1690 được nhóm thành hai nhóm. Để phân tích sự khác biệt giữa các nhóm này, tôi đã bắt đầu bằng cách kiểm tra phân phối các giá trị để chọn thử nghiệm đúng.

Theo một hướng dẫn về kiểm tra tính thông thường, tôi đã thực hiện một qqplot, biểu đồ & boxplot.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Đây dường như không phải là một phân phối bình thường. Vì hướng dẫn nói rõ phần nào rằng kiểm tra đồ họa thuần túy là không đủ, tôi cũng muốn kiểm tra phân phối cho tính chuẩn.

Xem xét kích thước của tập dữ liệu và giới hạn của phép thử shapiro-wilks trong R, phân phối đã cho phải được kiểm tra tính quy phạm và xem xét kích thước của tập dữ liệu, điều này có đáng tin cậy không? ( Xem câu trả lời được chấp nhận cho câu hỏi này )

Biên tập:

Hạn chế của bài kiểm tra Shapiro-Wilk mà tôi đang đề cập là bộ dữ liệu được kiểm tra bị giới hạn ở 5000 điểm. Để trích dẫn một câu trả lời hay khác liên quan đến chủ đề này:

Một vấn đề khác với thử nghiệm của Shapiro-Wilk là khi bạn cung cấp cho nó nhiều dữ liệu hơn, khả năng giả thuyết khống sẽ bị từ chối trở nên lớn hơn. Vì vậy, điều xảy ra là đối với một lượng lớn dữ liệu, thậm chí có thể phát hiện những sai lệch rất nhỏ so với tính quy phạm, dẫn đến sự từ chối của sự kiện giả thuyết khống cho mục đích thực tế, dữ liệu là quá đủ bình thường.

[...] May mắn thay shapiro.test bảo vệ người dùng khỏi hiệu ứng được mô tả ở trên bằng cách giới hạn kích thước dữ liệu ở mức 5000.

Về lý do tại sao tôi đang thử nghiệm phân phối bình thường ở nơi đầu tiên:

Một số thử nghiệm giả thuyết giả định phân phối dữ liệu bình thường. Tôi muốn biết liệu tôi có thể sử dụng các xét nghiệm này hay không.


11
Không có điểm kiểm tra; mọi thử nghiệm của bất kỳ việc sử dụng nào, một mức ý nghĩa hợp lý rõ ràng sẽ từ chối rõ ràng. Bất cứ hướng dẫn nào bạn đang đọc đều đánh lừa bạn. Bạn có ý nghĩa gì bởi "đáng tin cậy" chính xác. "Giới hạn" của Shapiro-Wilk mà bạn đề cập đến là gì? Tôi gần như đồng ý với tuyên bố trong câu trả lời mà bạn liên kết đến ... "Tôi chưa bao giờ gặp phải tình huống mà một bài kiểm tra bình thường là điều nên làm" (Tôi đã thấy ít nhất một lần tình huống mà tôi nghĩ đó là điều đúng đắn để làm, nhưng mọi người hầu như luôn luôn làm điều đó vì lý do xấu).
Glen_b -Reinstate Monica

@Glen_b: tình cờ, tôi thấy mình đã sử dụng Shapiro lau Wilk vào một ngày khác để định lượng bằng chứng chống lại null, mà một người nào đó trên Academia đã lầm tưởng là lớn hơn so với mẫu của các lớp. Tôi tự hỏi nếu đó là sử dụng phòng thủ.
Nick Stauner

@NickStauner Phản hồi của tôi đã tăng quá lâu cho một bình luận và tôi không muốn đánh cắp câu hỏi này bằng một chuỗi bình luận về bài đăng của bạn ở đó. Khả năng: Chúng tôi nói chuyện trong trò chuyện, hoặc bạn gửi câu hỏi về nó (mà tôi có thể đăng câu trả lời mở rộng) hoặc chúng tôi thảo luận về nó theo một cách khác, chẳng hạn như email.
Glen_b -Reinstate Monica

Câu trả lời:


14

Tôi không thấy lý do tại sao bạn bận tâm. Nó hoàn toàn không bình thường - trong trường hợp này, kiểm tra đồ họa xuất hiện đủ với tôi. Bạn đã có rất nhiều quan sát từ những gì dường như là một bản phân phối gamma sạch đẹp. Chỉ cần đi với điều đó. nếu bạn phải - Tôi sẽ đề xuất phân phối tham khảo.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
nhập mô tả hình ảnh ở đây

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Như tôi luôn nói, "Xem thử nghiệm tính quy phạm 'về cơ bản là vô dụng'? ", Đặc biệt là câu trả lời của @ MånsT , trong đó chỉ ra rằng các phân tích khác nhau có độ nhạy khác nhau đối với các vi phạm khác nhau về các giả định về tính quy tắc. Nếu bản phân phối của bạn gần giống với bản phân phối của bạn, có lẽ bạn đã bị lệch và kurtosis ("kurtosis dư thừa" ). Điều đó có thể là một vấn đề đối với rất nhiều bài kiểm tra. Nếu bạn không thể tìm thấy một bài kiểm tra với các giả định tham số phù hợp hơn hoặc không có gì cả, có lẽ bạn có thể chuyển đổi dữ liệu của mình hoặc ít nhất tiến hành phân tích độ nhạy của bất kỳ phân tích nào bạn có trong đầu.1.45.92.9

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.