Lựa chọn giữa -test và -test


20

Bối cảnh: Tôi đang thuyết trình cho các đồng nghiệp đang làm bài kiểm tra giả thuyết và hiểu hầu hết mọi thứ đều ổn nhưng có một khía cạnh là tôi tự trói mình trong những nút thắt cố gắng hiểu cũng như giải thích nó cho người khác.

Đây là những gì tôi nghĩ rằng tôi biết (xin vui lòng sửa nếu sai!)

  • Thống kê sẽ là bình thường nếu phương sai được biết đến, hãy tuân theo phân phối nếu phương sai không xác địnht
  • CLT (Định lý giới hạn trung tâm): Phân phối mẫu của giá trị trung bình mẫu xấp xỉ bình thường đối với đủ lớn (có thể là , có thể lên tới đối với các phân phối sai lệch cao)30 300n30300
  • Phân phối có thể được coi là Bình thường cho mức độ tự do> 30t>30

Bạn sử dụng -test nếu:z

  1. Dân số bình thường và phương sai đã biết (đối với mọi cỡ mẫu)
  2. Dân số bình thường, phương sai không xác định và (do CLT)n>30
  3. phân dân số, ,n q > 10np>10nq>10

Bạn sử dụng test nếu:t

  1. Dân số bình thường, phương sai không xác định vàn<30
  2. Không có kiến ​​thức về dân số hoặc phương sai và , nhưng dữ liệu mẫu có vẻ bình thường / vượt qua các bài kiểm tra, v.v. vì vậy dân số có thể được giả định là bình thườngn<30

Vì vậy, tôi còn lại với:

  • Đối với các mẫu và (?), Không có kiến ​​thức về dân số và phương sai được biết / chưa biết.< 300>30<≈300

Vì vậy, câu hỏi của tôi là:

  1. Ở cỡ mẫu nào bạn có thể giả định (trong đó không có kiến ​​thức về phân bố dân số hoặc phương sai) rằng phân phối mẫu của giá trị trung bình là bình thường (nghĩa là CLT đã khởi động) khi phân phối mẫu có vẻ không bình thường? Tôi biết rằng một số bản phân phối cần , nhưng một số tài nguyên dường như nói sử dụng -test bất cứ khi nào ...z n > 30n>300zn>30

  2. Đối với các trường hợp tôi không chắc chắn, tôi cho rằng tôi xem xét dữ liệu cho tính quy tắc. Bây giờ, nếu dữ liệu mẫu trông có vẻ bình thường, tôi có sử dụng -test (vì giả sử dân số bình thường và vì ) không?n > 30zn>30

  3. Điều gì về nơi dữ liệu mẫu cho các trường hợp tôi không chắc chắn về việc trông không bình thường? Có bất kỳ trường hợp nào bạn vẫn sử dụng -test hoặc -test hoặc bạn luôn tìm cách biến đổi / sử dụng các xét nghiệm không tham số? Tôi biết rằng, do CLT, tại một số giá trị của , phân phối lấy mẫu của giá trị trung bình sẽ gần đúng với bình thường nhưng dữ liệu mẫu sẽ không cho tôi biết giá trị của là gì; dữ liệu mẫu có thể không bình thường trong khi giá trị trung bình của mẫu theo mức bình thường / . Có trường hợp nào bạn chuyển đổi / sử dụng thử nghiệm không tham số trong khi thực tế phân phối lấy mẫu của giá trị trung bình là bình thường / nhưng bạn không thể biết? z n n t ttznntt


4
" Có thể lên tới 300 cho các bản phân phối sai lệch cao " ... trong một số trường hợp, nó có thể là một cái quái gì đó nhiều hơn nữa; hoặc nó có thể không bao giờ xảy ra. Chọn bất kỳ , và tôi sẽ chỉ cho bạn một trường hợp không đủ. n
Glen_b -Reinstate Monica

Cảm ơn Glen_b - vì vậy, luôn luôn kiểm tra dữ liệu mẫu có vẻ bình thường để sử dụng tham số không?
Hatti

@Hatti không! Kiểm tra T là hợp lệ khi dữ liệu xuất hiện không bình thường.
AdamO

Câu trả lời:


24

@AdamO đã đúng, bạn chỉ cần luôn sử dụng -test nếu bạn không biết độ lệch chuẩn của dân số a-prori. Bạn không cần phải lo lắng về việc khi nào chuyển sang -test, vì -distribution 'chuyển' cho bạn. Cụ thể hơn, -distribution hội tụ đến bình thường, do đó nó là sự phân bố đúng để sử dụng ở mọi . tzttNN

Ở đây cũng có một sự nhầm lẫn về ý nghĩa của dòng truyền thống tại . Có hai loại hội tụ mà mọi người nói đến: N=30

  1. Đầu tiên là phân phối lấy mẫu của thống kê kiểm tra (nghĩa là ) được tính từ dữ liệu thô được phân phối thông thường (trong nhóm) hội tụ đến phân phối bình thường là mặc dù thực tế là SD được ước tính từ dữ liệu. (Phân phối chăm sóc việc này cho bạn, như đã lưu ý ở trên.) tNt
  2. Thứ hai là phân phối lấy mẫu của giá trị trung bình của dữ liệu thô không phân phối thông thường (trong nhóm) hội tụ đến phân phối bình thường (chậm hơn so với ở trên) là . Mọi người tin tưởng vào Định lý giới hạn trung tâm để chăm sóc điều này cho họ. Tuy nhiên, không có gì đảm bảo rằng nó sẽ hội tụ trong bất kỳ kích thước mẫu hợp lý nào - chắc chắn không có lý do gì để tin rằng (hoặc ) là con số kỳ diệu. Tùy thuộc vào mức độ và bản chất của tính không quy tắc, có thể mất nhiều thời gian (xem câu trả lời của @ Macro ở đây: Hồi quy khi phần dư OLS không được phân phối bình thườngN30 300 U U t30300). Nếu bạn tin rằng dữ liệu thô (trong nhóm) của bạn không bình thường, tốt hơn là sử dụng một loại thử nghiệm khác, chẳng hạn như Mann-Whitney -testU . Lưu ý rằng với dữ liệu không bình thường, Mann-Whitney -test có khả năng mạnh hơn -test và có thể như vậy ngay cả khi CLT đã khởi động. (Cũng đáng để chỉ ra rằng việc kiểm tra tính bình thường có khả năng khiến bạn lạc lối, xem: Kiểm tra tính quy phạm 'về cơ bản là vô dụng'? )Ut

Bằng mọi giá, để trả lời câu hỏi của bạn rõ ràng hơn, nếu bạn tin rằng dữ liệu thô (trong nhóm) của bạn không được phân phối bình thường, hãy sử dụng Mann-Whitney -test; nếu bạn tin rằng dữ liệu của bạn được phân phối bình thường, nhưng bạn không biết SD a-prori, hãy sử dụng -test; và nếu bạn tin rằng dữ liệu của bạn được phân phối bình thường và bạn biết SD a-prori, hãy sử dụng -test. Utz

Nó có thể giúp bạn đọc câu trả lời gần đây của @ GregSnow tại đây: Giải thích giá trị p trong việc so sánh tỷ lệ giữa hai nhóm nhỏ trong R về các vấn đề này.


Cảm ơn, điều này thực sự hữu ích, tôi biết rằng tôi đã quá phức tạp khi thử nghiệm t cho n lớn hơn tiếp cận bình thường. Vì vậy, nói đúng ra, ngay cả khi n là 1000, bài kiểm tra t nên được sử dụng nếu SD không biết a-prori?
Hatti

t

Vâng chắc chắn. Xin lỗi vì đã quá khó khăn, chỉ khó khăn khi cố gắng nghĩ cách giải thích nó với người khác theo cách khá trắng đen. Đánh giá cao sự giúp đỡ của bạn!
Hatti

Cũng lưu ý rằng việc tính toán kết quả kiểm tra t là dành cho tất cả ý định và mục đích mà không có chi phí tính toán bổ sung có ý nghĩa hiện nay. Chúng tôi không còn tìm kiếm số liệu thống kê kiểm tra trong một số bảng giấy không thể bao gồm tất cả các trường hợp, chúng tôi chỉ yêu cầu máy tính. Vì vậy, tại sao phải bận tâm và lo lắng về việc bạn có thể cũng nhận được kết quả tương tự bằng cách sử dụng kiểm tra z không?
Bjorn

11

t

ttz

tz

zt


Luôn luôn sử dụng kiểm tra t cho một bài kiểm tra không đối xứng về sự khác biệt về phương tiện .. ý bạn là tham số phải không?
Xavier Bourret Sicotte
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.