Tôi đang kiểm tra một phần của bộ dữ liệu của mình chứa 46840 giá trị gấp đôi từ 1 đến 1690 được nhóm thành hai nhóm. Để phân tích sự khác biệt giữa các nhóm này, tôi đã bắt đầu bằng cách kiểm tra phân phối các giá trị để chọn thử nghiệm đúng.
Theo một hướng dẫn về kiểm tra tính thông thường, tôi đã thực hiện một qqplot, biểu đồ & boxplot.
Đây dường như không phải là một phân phối bình thường. Vì hướng dẫn nói rõ phần nào rằng kiểm tra đồ họa thuần túy là không đủ, tôi cũng muốn kiểm tra phân phối cho tính chuẩn.
Xem xét kích thước của tập dữ liệu và giới hạn của phép thử shapiro-wilks trong R, phân phối đã cho phải được kiểm tra tính quy phạm và xem xét kích thước của tập dữ liệu, điều này có đáng tin cậy không? ( Xem câu trả lời được chấp nhận cho câu hỏi này )
Biên tập:
Hạn chế của bài kiểm tra Shapiro-Wilk mà tôi đang đề cập là bộ dữ liệu được kiểm tra bị giới hạn ở 5000 điểm. Để trích dẫn một câu trả lời hay khác liên quan đến chủ đề này:
Một vấn đề khác với thử nghiệm của Shapiro-Wilk là khi bạn cung cấp cho nó nhiều dữ liệu hơn, khả năng giả thuyết khống sẽ bị từ chối trở nên lớn hơn. Vì vậy, điều xảy ra là đối với một lượng lớn dữ liệu, thậm chí có thể phát hiện những sai lệch rất nhỏ so với tính quy phạm, dẫn đến sự từ chối của sự kiện giả thuyết khống cho mục đích thực tế, dữ liệu là quá đủ bình thường.
[...] May mắn thay shapiro.test bảo vệ người dùng khỏi hiệu ứng được mô tả ở trên bằng cách giới hạn kích thước dữ liệu ở mức 5000.
Về lý do tại sao tôi đang thử nghiệm phân phối bình thường ở nơi đầu tiên:
Một số thử nghiệm giả thuyết giả định phân phối dữ liệu bình thường. Tôi muốn biết liệu tôi có thể sử dụng các xét nghiệm này hay không.