Làm thế nào để các nhà thống kê xác định phân phối nào là phù hợp cho các thử nghiệm thống kê khác nhau?


8

Ví dụ: thống kê thử nghiệm được tính cho thử nghiệm ANOVA được so sánh với phân phối F, trong khi so sánh thử nghiệm t có nghĩa là so sánh thống kê thử nghiệm với phân phối t.


1
Để biết tổng quan chung, hãy xem trang 3 của bài viết này . Nó chứa một biểu đồ mô tả mối quan hệ giữa nhiều bản phân phối. Khá gọn gàng.
COOLSerdash

Ở một cấp độ, câu trả lời rất đơn giản: phân phối là của thống kê kiểm tra theo giả thuyết null. Tìm kiếm nó chỉ là một tính toán. Các phần cứng đang đưa ra một mô hình xác suất phù hợp cho một vấn đề, gợi ra chức năng mất và tìm một thống kê kiểm tra tạo ra một bài kiểm tra tốt. Nhiều bản phân phối, bao gồm Bình thường, χ 2 , thực sự xuất hiện thường xuyên nhất dưới dạng các xấp xỉ tiệm cận với các phân phối thực tế (và trong đó có một phần riêng biệt của bất kỳ câu trả lời hay nào). tχ2
whuber

Câu trả lời:


12

Câu trả lời đầy đủ cho câu hỏi của bạn sẽ là một khóa học thống kê lý thuyết toán học đầy đủ (đây sẽ là một ý tưởng tốt để bạn thực hiện nếu bạn thực sự quan tâm).

Nhưng một bộ câu trả lời ngắn và một phần là:

Nói chung, chúng tôi bắt đầu với phân phối bình thường, nó đã được tìm thấy là một xấp xỉ hợp lý cho nhiều tình huống trong thế giới thực và định lý Giới hạn trung tâm (và các định lý khác) cho chúng tôi biết rằng đó là một xấp xỉ thậm chí tốt hơn khi xem xét các phương tiện của các mẫu ngẫu nhiên đơn giản ( cỡ mẫu lớn hơn dẫn đến xấp xỉ tốt hơn bình thường). Vì vậy, bình thường thường là phân phối mặc định để xem xét nếu không có lý do để tin rằng nó sẽ không phải là một xấp xỉ hợp lý. Mặc dù với các máy tính hiện đại, giờ đây việc sử dụng các công cụ không tham số hoặc các công cụ khác trở nên dễ dàng hơn và chúng ta không cần phụ thuộc nhiều vào mức bình thường (nhưng lịch sử / quán tính / v.v. giữ cho chúng ta sử dụng các phương pháp dựa trên bình thường).

Nếu bạn bình phương một biến xuất phát từ một phân phối chuẩn thông thường thì nó tuân theo phân phối Chi bình phương. Nếu bạn cộng các biến từ một bình phương Chi, bạn sẽ nhận được một Chi bình phương khác (mức độ thay đổi tự do), do đó điều đó có nghĩa là phương sai (được chia tỷ lệ) theo Chi bình phương.

Nó cũng chỉ ra rằng một hàm của tỷ lệ khả năng tuân theo phân phối Chi bình phương không có triệu chứng nếu null là đúng và các giả định khác được giữ.

Một tiêu chuẩn bình thường chia cho căn bậc hai của bình phương chi (và một số tham số tỷ lệ) tuân theo phân phối t, do đó, thống kê t chung (theo giả thuyết null) tuân theo t.

Tỷ lệ 2 bình phương Chis (chia cho mức độ tự do và các cân nhắc khác) tuân theo phân phối F. Các thử nghiệm anova F dựa trên tỷ lệ của 2 ước tính có cùng phương sai (dưới giá trị null) và do phương sai tuân theo bình phương Chi, tỷ lệ này tuân theo F (theo giá trị null và giả định).

Những người thông minh đã tìm ra những quy tắc này để những người còn lại có thể áp dụng chúng. Một khóa học toán / stat đầy đủ sẽ cung cấp thêm lịch sử và các dẫn xuất (và có thể nhiều hơn các phương án), đây chỉ là một tổng quan nhanh về các bài kiểm tra và phân phối phổ biến hơn.


Cảm ơn, đây chính xác là những gì tôi đang tìm kiếm. Tôi nghĩ rằng bây giờ tôi sẽ bỏ khóa học thống kê lý thuyết toán học.
Stu

3

Một cách khác để trả lời câu hỏi của bạn là suy nghĩ tuần tự sau đây mà tôi muốn minh họa bằng một ví dụ đơn giản:

1) Giả thuyết null liên quan đến câu hỏi quan tâm là gì? Ví dụ, ở Mỹ, thu nhập trung bình là $ 6000 mỗi tháng.

2) Làm thế nào chúng ta có thể đo lường độ lệch khỏi giả thuyết null dựa trên dữ liệu có sẵn? Thử đầu tiên: Thu nhập trung bình. Càng xa 6000, giả thuyết null càng ít hợp lý và chúng ta càng nên từ chối nó.T= =

TTσ/nσnσσ^

T'= =(T-6000)/(σ^/n)
TT'±1,96

-2

Chỉ có ba phân phối dựa trên thực tế. (1) Binomial (2) Đa thức (3) xấp xỉ của nhị phân của Abraham De Moivre đối với nhị thức. Các bản phân phối khác là các biểu thức 'xuất phát' với phạm vi động rất hạn chế và rất ít liên hệ với thực tế. Thí dụ. Một nhà thống kê sẽ cho bạn biết dữ liệu của bạn phù hợp với Phân phối Poisson. Anh ta thực sự sẽ tin rằng bản phân phối Poisson có một số loại thực tế 'độc lập'. Sự thật là, Phân phối Poisson xấp xỉ nhị thức cho lượng xiên rất nhỏ và rất lớn. Bây giờ tất cả chúng ta đều có máy tính, không có lý do gì để gọi các xấp xỉ. Nhưng, thật đáng buồn, thói quen cũ chết cứng.


1
Một luận án thú vị và kích thích tư duy, nhưng cuối cùng ít hữu ích hơn trong bối cảnh này. Hơn nữa, sự thật của nó dường như dựa trên một ý tưởng bình dị và hạn chế về "dựa trên thực tế". (Để biện minh cho cáo buộc hạn chế đó, hãy xem xét - trong số nhiều ví dụ - những gì sẽ cần để lấy các phân phối như siêu âm hoặc Benford từ ba phân phối có tên ở đây.)
whuber

Tôi không thấy làm thế nào một máy tính làm giảm nhu cầu gần đúng mô hình trong một quy trình phức tạp. Mọi người không sử dụng hồi quy Poisson vì dữ liệu của họ được tạo ra từ một số lượng lớn các thử nghiệm Bernoulli trong đó xác suất thành công giảm tỷ lệ thuận với số lượng thử nghiệm và họ chỉ muốn cứu rắc rối máy tính của họ. Họ sử dụng nó bởi vì đó là một mô hình đơn giản để kiểm tra mức độ đồng biến ảnh hưởng đến giá trị trung bình của kết quả đếm. Một học viên sắc sảo kiểm tra các giả định của các mô hình của họ, nhưng cho đến khi máy tính trở thành nhà ngoại cảm, chúng ta sẽ sử dụng các mô hình để ước tính thực tế.
Macro

Trong khoa học đời sống, điều quan trọng là kiểm tra các bộ dữ liệu chống lại phân phối nhị thức. Làm như vậy cho chúng ta một thước đo tổng số 'nguồn lỗi' tương ứng với số lượng gen ảnh hưởng đến quá trình. Phân phối Poisson, trong số những người khác, che khuất mối quan hệ này.
10739
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.