Các kiểm tra thống kê tiêu chuẩn để xem liệu dữ liệu tuân theo phân phối theo cấp số nhân hay bình thường là gì?
Các kiểm tra thống kê tiêu chuẩn để xem liệu dữ liệu tuân theo phân phối theo cấp số nhân hay bình thường là gì?
Câu trả lời:
Có vẻ như bạn đang cố gắng quyết định nên mô hình hóa dữ liệu của mình bằng phân phối bình thường hay phân phối theo cấp số nhân. Điều này có vẻ hơi lạ đối với tôi, vì những phân phối này rất khác nhau.
Phân phối bình thường là đối xứng trong khi phân phối theo cấp số nhân bị lệch nhiều về bên phải, không có giá trị âm. Thông thường, một mẫu từ phân bố mũ sẽ chứa nhiều quan sát tương đối gần với và một vài sự cản trở lệch về bên phải từ 0 . Sự khác biệt này thường dễ dàng nhìn thấy bằng đồ họa.
Dưới đây là một ví dụ trong đó tôi đã mô phỏng quan sát từ phân phối bình thường với trung bình 2 và phương sai 4 và phân phối theo cấp số nhân với trung bình 2 và phương sai 4 :
Sự đối xứng của phân phối chuẩn và độ lệch của hàm mũ có thể được nhìn thấy bằng cách sử dụng biểu đồ, hình hộp và biểu đồ tán xạ, như được minh họa trong hình trên.
Một công cụ rất hữu ích khác là một cốt truyện QQ . Trong ví dụ dưới đây, các điểm sẽ xấp xỉ theo dòng nếu mẫu đến từ phân phối bình thường. Như bạn có thể thấy, đây là trường hợp của dữ liệu bình thường, nhưng không phải cho dữ liệu theo cấp số nhân.
Thử nghiệm này thực sự là phiên bản thử nghiệm một mặt của Grubbs cho các ngoại lệ . Bạn sẽ thấy điều này được triển khai trong hầu hết các phần mềm thống kê (nhưng hãy đảm bảo rằng bạn sử dụng đúng phiên bản - có một số thống kê kiểm tra thay thế được sử dụng cho thử nghiệm ngoại lệ!).
Xem độ tin cậy của KC Kapur và LR Lamberson trong thiết kế kỹ thuật . Wiley 1977.
Đối với tính bình thường Anderson-Darling và Shapiro-Wilk được coi là tốt nhất. Đối với bài kiểm tra Lillerfors theo cấp số nhân được thiết kế dành riêng cho nó.
Bạn đã xem xét các phương pháp đồ họa để xem dữ liệu ứng xử như thế nào chưa?
Các kỹ thuật đồ thị xác suất thường liên quan đến việc xếp hạng dữ liệu, áp dụng CDF nghịch đảo và sau đó vẽ kết quả trên mặt phẳng Cartesian. Điều này cho phép bạn xem nếu một số giá trị đi chệch khỏi phân phối giả định và có thể giải thích cho lý do sai lệch.