Kiểm tra mẫu độc lập: Dữ liệu có thực sự cần được phân phối bình thường cho cỡ mẫu lớn không?


13

Giả sử tôi muốn kiểm tra xem hai mẫu độc lập có phương tiện khác nhau không. Tôi biết phân phối cơ bản là không bình thường .

Nếu tôi hiểu chính xác, thống kê kiểm tra của tôi là giá trị trung bình và đối với kích thước mẫu đủ lớn, giá trị trung bình sẽ được phân phối bình thường ngay cả khi các mẫu không. Vì vậy, một thử nghiệm có ý nghĩa tham số nên có giá trị trong trường hợp này, phải không? Tôi đã đọc thông tin mâu thuẫn và khó hiểu về điều này vì vậy tôi sẽ đánh giá cao một số xác nhận (hoặc giải thích tại sao tôi sai).

Ngoài ra, tôi đã đọc rằng đối với kích thước mẫu lớn, tôi nên sử dụng thống kê z thay vì thống kê t. Nhưng trong thực tế, phân phối t sẽ chỉ hội tụ đến phân phối bình thường và hai thống kê nên giống nhau, phải không?

Chỉnh sửa : Dưới đây là một số nguồn mô tả z-test. Cả hai đều tuyên bố rằng các quần thể phải được phân phối bình thường:

Ở đây , nó nói "Không phân biệt loại thử nghiệm Z được sử dụng, người ta cho rằng các quần thể mà các mẫu được rút ra là bình thường." Và ở đây , các yêu cầu đối với phép thử z được liệt kê là "Hai quần thể phân bố bình thường nhưng độc lập, được biết đến".


Những gì bạn đang nói có ý nghĩa. Bạn đang sử dụng định lý giới hạn trung tâm để đảm nhận tính quy tắc trong phân phối phương tiện mẫu. Ngoài ra, bạn đang sử dụng kiểm tra t vì bạn không có phương sai dân số và bạn đang ước tính nó dựa trên phương sai mẫu. Nhưng bạn có thể liên kết hoặc đăng bất kỳ nguồn nào trong số các nguồn xung đột này không?
Antoni Parellada

Cảm ơn vì đã trả lời! Ở đây ví dụ, các yêu cầu đối với z-test được liệt kê như "Hai hành bình thường nhưng người dân độc lập, σ được biết đến", vì vậy họ đang nói về sự phân bố dân số, chứ không phải giá trị trung bình - là sai đó?
Lisa

@AntoniParellada Tôi đã kết hợp một số nguồn trong bài viết gốc!
Lisa

Kiểm tra trên Wikipedia
Antoni Parellada

Nếu dân số ban đầu được biết là bình thường thì chúng ta có một tình huống hoàn hảo, không thể vượt qua. Tuy nhiên, CLT thường ở đó, đặc biệt là trong các mẫu lớn, để tránh phụ thuộc vào thứ tự rất cao này được chỉ định trên giấy liên kết của bạn.
Antoni Parellada

Câu trả lời:


7

Tôi nghĩ rằng đây là một sự hiểu lầm phổ biến của CLT. CLT không chỉ không liên quan gì đến việc bảo tồn lỗi loại II (mà không ai đề cập ở đây) mà còn không được áp dụng khi bạn phải ước tính phương sai dân số. Phương sai mẫu có thể rất xa so với phân phối chi bình phương tỷ lệ khi dữ liệu không phải là Gaussian, do đó CLT có thể không áp dụng ngay cả khi kích thước mẫu vượt quá hàng chục nghìn. Đối với nhiều bản phân phối, SD thậm chí không phải là một biện pháp phân tán tốt.

Để thực sự sử dụng CLT, một trong hai điều phải đúng: (1) độ lệch chuẩn mẫu hoạt động như một thước đo độ phân tán cho phân phối chưa biết thực sự hoặc (2) độ lệch chuẩn dân số thực được biết. Đó là rất thường xuyên không phải là trường hợp. Và một ví dụ về n = 20.000 là quá nhỏ để CLT "hoạt động" đến từ việc vẽ các mẫu từ phân phối logic bất thường như được thảo luận ở nơi khác trên trang web này.

Độ lệch chuẩn mẫu "hoạt động" như một biện pháp phân tán nếu ví dụ phân phối là đối xứng và không có đuôi nặng hơn phân bố Gaussian.

Tôi không muốn dựa vào CLT cho bất kỳ phân tích nào của tôi.


3
CLT có thể là một chút cá trích đỏ. Điều thường có thể xảy ra là giá trị trung bình của mẫu có phân phối không bình thường và SD mẫu chắc chắn có hình dạng không chi, nhưng tuy nhiên, thống kê t được ước tính một cách hữu ích bởi phân phối Student t (một phần do sự phụ thuộc giữa hai số liệu thống kê). Cho dù đây là trường hợp nên được đánh giá trong bất kỳ tình huống nào. Tuy nhiên, vì CLT khẳng định rất ít về các mẫu hữu hạn (và nói hoàn toàn không có gì định lượng về chúng), nên yêu cầu của nó để hỗ trợ các giả định phân phối thường không hợp lệ.
whuber

Sẽ công bằng khi nói rằng chúng ta đang thảo luận (và học hỏi trong trường hợp của tôi) một quy trình (so sánh hai phương tiện mẫu từ các phân phối chưa biết với kiểm tra t) được thực hiện thường xuyên (và có thể không cần suy nghĩ) trên cơ sở hàng ngày ở mọi nơi, mặc dù biện minh có thể yếu? Và, có sử dụng CLT nào trong thực tế không, có thể chấp nhận / chấp nhận được, ngay cả khi không lý tưởng?
Antoni Parellada

Các -statistic rất thường xuyên có một bản phân phối đó là rất xa t phân phối khi các dữ liệu đến từ một phân phối phi Gaussian. Và vâng, tôi muốn nói rằng sự biện minh cho việc sử dụng t -test yếu hơn hầu hết các học viên nghĩ. Đó là lý do tại sao tôi thích các phương pháp bán và không tham số. ttt
Frank Harrell

2
CLT thực sự là một tuyên bố tiệm cận, và khi hầu hết mọi người gọi nó, tôi nghi ngờ ý tưởng trong đầu họ thực sự giống như định lý Berry Berry Esseen (họ tin rằng sự hội tụ đến tính quy tắc xảy ra ở tốc độ "hợp lý", và do đó cỡ mẫu của họ Là đủ tốt"). Nhưng ngay cả lý do phức tạp hơn một chút này có thể dẫn đến một kết luận không chính xác về tính hợp lệ của bài kiểm tra t. Tôi tự hỏi liệu có đáng để đề cập / nhấn mạnh trong câu trả lời này hay không mà ngay cả Berry ăn Esseen cũng không "cứu" được sự hấp dẫn ngụy biện đối với CLT.
Cá bạc

3
@FrankHarrell Ý bạn là gì khi "độ lệch chuẩn mẫu hoạt động như một thước đo độ phân tán cho phân phối chưa biết thực sự"? Sẽ rất hữu ích nếu bạn thêm một lời giải thích ngắn gọn (có thể chỉ một câu) vào câu trả lời của bạn.
đánh dấu999

9

Tôi sẽ để lại đoạn này để các ý kiến ​​có ý nghĩa: Có lẽ giả định về tính quy tắc trong các quần thể ban đầu là quá hạn chế và có thể được bỏ qua tập trung vào phân phối mẫu và nhờ vào định lý giới hạn trung tâm, đặc biệt là đối với các mẫu lớn.

t

Như bạn đã đề cập, phân phối t không hội tụ đến phân phối bình thường khi mẫu tăng lên, vì biểu đồ R nhanh này thể hiện:

nhập mô tả hình ảnh ở đây

t

Vì vậy, áp dụng thử nghiệm z có thể sẽ ổn với các mẫu lớn.


Giải quyết các vấn đề với câu trả lời ban đầu của tôi. Cảm ơn bạn, Glen_b vì sự giúp đỡ của bạn với OP (những lỗi mới có thể xảy ra trong diễn giải hoàn toàn thuộc về tôi).

  1. CÁC TÌNH TRẠNG TUYỆT VỜI TẠI PHÂN PHỐI THEO ĐÁNH GIÁ BÌNH THƯỜNG:

Bỏ qua sự phức tạp trong các công thức cho một mẫu hai mẫu (ghép đôi và không ghép cặp), thống kê t chung tập trung vào trường hợp so sánh trung bình mẫu với trung bình dân số là:

(1)t-test=X¯μsn=X¯μσ/ns2σ2=X¯μσ/nx=1n(XX¯)2n1σ2

Xμσ2

  1. (1) N(1,0)
  2. (1)s2/σ2n11n1χn12(n1)s2/σ2χn12
  3. Tử số và mẫu số phải độc lập.

t-statistict(df=n1)

  1. Định lý giới hạn trung tâm:

Xu hướng về tính quy tắc của phân phối mẫu của mẫu có nghĩa là khi kích thước mẫu tăng có thể biện minh cho việc phân phối tử số bình thường ngay cả khi dân số không bình thường. Tuy nhiên, nó không ảnh hưởng đến hai điều kiện còn lại (phân phối bình phương của mẫu số và tính độc lập của tử số với mẫu số).

Nhưng không phải tất cả đã mất, trong bài viết này, người ta đã thảo luận về cách định lý Slutzky hỗ trợ sự hội tụ tiệm cận đối với phân phối bình thường ngay cả khi phân phối chi của mẫu số không được đáp ứng.

  1. ROBUSTNESS:

Trên bài báo "Một cái nhìn thực tế hơn về tính mạnh mẽ và lỗi loại II của thử nghiệm để khởi hành từ quy tắc dân số" của Sawilowsky SS và Blair RC trong Bản tin tâm lý, 1992, Tập. 111, Số 2, 352-360 , trong đó họ đã thử nghiệm các bản phân phối ít lý tưởng hơn hoặc "thế giới thực" (ít bình thường hơn) cho các lỗi và loại I, có thể tìm thấy các xác nhận sau: "Mặc dù bản chất bảo thủ liên quan đến Loại Tôi có lỗi trong thử nghiệm t đối với một số phân phối thực tế này, có rất ít ảnh hưởng đến mức năng lượng đối với sự đa dạng của các điều kiện xử lý và cỡ mẫu nghiên cứu. Các nhà nghiên cứu có thể dễ dàng bù đắp tổn thất năng lượng nhẹ bằng cách chọn cỡ mẫu lớn hơn một chút " .

" Quan điểm phổ biến dường như là thử nghiệm mẫu độc lập t mạnh mẽ một cách hợp lý, trong trường hợp có liên quan đến lỗi Loại I, đối với hình dạng dân số không phải là Gaussian miễn là (a) cỡ mẫu bằng hoặc gần như vậy, (b) mẫu kích thước khá lớn (Boneau, 1960, đề cập đến cỡ mẫu từ 25 đến 30) và (c) thử nghiệm có hai đầu thay vì một đầu. Lưu ý rằng khi các điều kiện này được đáp ứng và sự khác biệt giữa alpha danh nghĩa và alpha thực tế xảy ra, sự khác biệt thường là của một người bảo thủ hơn là bản chất tự do. "

Các tác giả nhấn mạnh các khía cạnh gây tranh cãi của chủ đề này, và tôi mong muốn được làm việc trên một số mô phỏng dựa trên phân phối logic bất thường như được đề cập bởi Giáo sư Mitchell. Tôi cũng muốn đưa ra một số so sánh Monte Carlo với các phương pháp không tham số (ví dụ: thử nghiệm MannTHER Whitney U). Vì vậy, đây là một công việc đang tiến triển ...


Mô phỏng:

Tuyên bố miễn trừ trách nhiệm: Điều gì sau đây là một trong những bài tập này trong việc "chứng minh bản thân" bằng cách này hay cách khác. Các kết quả không thể được sử dụng để thực hiện khái quát hóa (ít nhất là không phải bởi tôi), nhưng tôi đoán tôi có thể nói rằng hai mô phỏng MC (có thể không hoàn hảo) này dường như không quá nản lòng khi sử dụng thử nghiệm t trong các trường hợp mô tả.

Lỗi loại I:

n=50μ=0σ=1

nhập mô tả hình ảnh ở đây

5%4.5%

Trong thực tế, biểu đồ mật độ của các thử nghiệm t thu được dường như trùng lặp với pdf thực tế của phân phối t:

nhập mô tả hình ảnh ở đây

Phần thú vị nhất là nhìn vào "mẫu số" của bài kiểm tra t, phần được cho là tuân theo phân phối chi bình phương:

(n1)s2/σ2=98(49(SDA2+SDA2))/98(eσ21)e2μ+σ2

Ở đây chúng tôi đang sử dụng độ lệch chuẩn chung, như trong mục Wikipedia này :

SX1X2=(n11)SX12+(n21)SX22n1+n22

Và thật ngạc nhiên (hoặc không) cốt truyện cực kỳ không giống với pdf chi bình phương chồng chất:

nhập mô tả hình ảnh ở đây

Lỗi loại II và nguồn:

109

nhập mô tả hình ảnh ở đây5%0.024%99%

ở đây .


1
Tôi nghĩ rằng đây là một sự hiểu lầm phổ biến của CLT. CLT không chỉ không liên quan gì đến việc bảo tồn lỗi loại II (mà không ai đề cập ở đây) mà còn không được áp dụng khi bạn phải ước tính phương sai dân số. Phương sai mẫu có thể rất xa so với phân phối chi bình phương tỷ lệ khi dữ liệu không phải là Gaussian, do đó CLT có thể không áp dụng ngay cả khi kích thước mẫu vượt quá hàng chục nghìn. Đối với nhiều bản phân phối, SD thậm chí không phải là một biện pháp phân tán tốt.
Frank Harrell

1
Giáo sư Harrell, tôi sẽ rất vui khi gỡ bài xuống nếu nó không đúng. Điều này rất có thể là một sự hiểu lầm rất cơ bản. Tôi đã gợi ý rằng CLT được áp dụng cho phân phối mẫu có nghĩa là xác nhận, trong các mẫu lớn, so sánh phương tiện với thử nghiệm z hoặc thử nghiệm t bất kể phân phối nguồn gốc của mẫu. Điều này LAF không đúng?
Antoni Parellada

1
Điều đó sẽ đúng nếu (1) độ lệch chuẩn mẫu hoạt động như một thước đo độ phân tán cho phân bố chưa biết thực sự hoặc (2) độ lệch chuẩn dân số thực được biết đến. Đó là rất thường xuyên không phải là trường hợp. Và một ví dụ về n = 20.000 là xa quá nhỏ so với CLT để "làm việc" xuất phát từ bản vẽ mẫu từ phân phối lognormal. Hiểu lầm về những điểm này đang lan tràn trong số các tiến sĩ về thống kê với 20 năm kinh nghiệm.
Frank Harrell

5
Vấn đề, Lisa, là liệu bạn cần so sánh phương tiện hay bạn chỉ muốn so sánh vị trí của hai quần thể. Trong một số ứng dụng, sự quan tâm tập trung vào một giá trị trung bình hoặc tổng, việc thay thế nó bằng một số tham số khác sẽ ít được sử dụng. Điều này đặc biệt là trường hợp dân số là một số lượng tích lũy tự nhiên, chẳng hạn như tiền hoặc ô nhiễm môi trường.
whuber

3
Antoni, phần cuối cùng của bạn về sự mạnh mẽ là khá thích hợp. Tôi đã thực hiện nhiều nghiên cứu tương tự như nghiên cứu được mô tả bởi Sawilosky và Blair, và đã đọc nhiều hơn nữa, và do đó nghi ngờ kết luận của họ phải được giới hạn trong các loại dữ liệu rất đặc biệt. Thử nghiệm t thất bại thảm hại, đặc biệt là về sức mạnh, với sự có mặt của các bản phân phối sai lệch. Điều làm tôi ngạc nhiên trong những năm qua là nó thực sự khá mạnh mẽ đối với những sự khởi hành khác từ tính quy tắc, đến mức tôi thấy một số giá trị trong tuyên bố rằng đó là một thủ tục không theo quy chuẩn.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.