Tôi có nên sử dụng kiểm tra t trên dữ liệu sai lệch cao không? Bằng chứng khoa học, làm ơn?


15

Tôi có các mẫu từ bộ dữ liệu sai lệch (trông giống như phân phối theo cấp số nhân) về sự tham gia của người dùng (ví dụ: số lượng bài đăng), có kích thước khác nhau (nhưng không dưới 200) và tôi muốn so sánh ý nghĩa của chúng. Vì thế, tôi đang sử dụng các thử nghiệm t ghép đôi hai mẫu (và thử nghiệm t với yếu tố của Welch, khi các mẫu có phương sai khác nhau). Như tôi đã nghe nói rằng, đối với các mẫu thực sự lớn, không có vấn đề gì khi mẫu không được phân phối bình thường.

Ai đó, xem lại những gì tôi đã làm, nói rằng các bài kiểm tra tôi đang sử dụng không phù hợp với dữ liệu của tôi. Họ đề nghị chuyển đổi các mẫu của tôi trước khi sử dụng các bài kiểm tra t.

Tôi là người mới bắt đầu, vì vậy nghe có vẻ khó hiểu với tôi khi trả lời các câu hỏi nghiên cứu của tôi với "nhật ký tham gia".

Họ có sai không? Tôi có lầm không? Nếu họ sai, có một cuốn sách hoặc bài báo khoa học mà tôi có thể trích dẫn / cho họ xem không? Nếu tôi sai, tôi nên sử dụng thử nghiệm nào?


1
Kiểm tra T có giả định phân phối bình thường csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Bạn có thể nghĩ rằng phân phối t gần bằng mức bình thường khi mẫu đủ lớn.
ndorlearn

6
"Bằng chứng khoa học" nghĩa là gì trong bối cảnh này?
Glen_b -Reinstate Monica

1
Tôi nghĩ rằng giả định là tất cả các phương tiện của tất cả các mẫu có thể từ một dân số nhất định là bình thường. Vì vậy, bởi CLT, nó cũng đúng với tập dữ liệu của tôi.
Milena Araujo

1
bằng chứng khoa học = một cái gì đó liên quan đến học thuật: một cuốn sách, một bài báo, v.v.
Milena Araujo

Câu trả lời:


36

Tôi sẽ không gọi 'số mũ' đặc biệt rất lệch. Nhật ký của nó rõ ràng là lệch trái, ví dụ, và độ lệch của nó chỉ là 2.

1) Sử dụng kiểm tra t với dữ liệu theo cấp số nhân và n gần 500 là ổn :

a) Tử số của thống kê kiểm tra sẽ ổn: Nếu dữ liệu là số mũ độc lập với thang đo chung (và không nặng hơn đuôi), thì trung bình của chúng được phân phối gamma với tham số hình dạng bằng số lượng quan sát. Phân phối của nó trông rất bình thường đối với tham số hình dạng lớn hơn khoảng 40 hoặc hơn (tùy thuộc vào độ chính xác của đuôi bạn cần bao xa).

Điều này có khả năng chứng minh toán học, nhưng toán học không phải là khoa học. Dĩ nhiên, bạn có thể kiểm tra nó qua mô phỏng, nhưng nếu bạn sai về cấp số nhân, bạn có thể cần các mẫu lớn hơn. Đây là phân phối của tổng mẫu (và do đó, nghĩa là mẫu) của dữ liệu theo cấp số nhân trông như thế nào khi n = 40:

nhập mô tả hình ảnh ở đây

Xiên rất nhẹ. Độ lệch này giảm khi căn bậc hai của cỡ mẫu. Vì vậy, tại n = 160, nó chỉ bằng một nửa. Tại n = 640, một phần tư là xiên:

nhập mô tả hình ảnh ở đây

Rằng điều này là đối xứng hiệu quả có thể được nhìn thấy bằng cách lật nó về giá trị trung bình và vẽ nó trên đầu trang:

nhập mô tả hình ảnh ở đây

Màu xanh là bản gốc, màu đỏ được lật. Như bạn thấy, chúng gần như trùng hợp.

-

n= =40

nhập mô tả hình ảnh ở đây

n= =500

-

c) Tuy nhiên, điều thực sự quan trọng là sự phân phối của toàn bộ thống kê dưới giá trị null. Định mức của tử số là không đủ để làm cho thống kê t có phân phối t. Tuy nhiên, trong trường hợp dữ liệu theo cấp số nhân, đó cũng không phải là vấn đề lớn:

nhập mô tả hình ảnh ở đây

n= =40n= =500n= =500

Tuy nhiên, lưu ý rằng đối với dữ liệu thực sự theo cấp số nhân, độ lệch chuẩn sẽ chỉ khác nhau nếu phương tiện khác nhau. Nếu giả định theo cấp số nhân là trường hợp, thì theo null, không cần phải lo lắng về các phương sai dân số khác nhau, vì chúng chỉ xảy ra theo phương án thay thế. Vì vậy, một thử nghiệm t phương sai bằng nhau vẫn sẽ ổn (trong trường hợp gần đúng tốt nhất mà bạn thấy trong biểu đồ thậm chí có thể tốt hơn một chút).


2) Ghi nhật ký vẫn có thể cho phép bạn hiểu ý nghĩa của nó, mặc dù

đăng nhậpλ1đăng nhậpλ2λ1λ2

[Nếu bạn thực hiện kiểm tra đó trong nhật ký, tôi sẽ có xu hướng đề nghị thực hiện kiểm tra phương sai bằng nhau trong trường hợp đó.]

Vì vậy - với sự can thiệp đơn thuần có lẽ là một hoặc hai câu biện minh cho kết nối, tương tự như những gì tôi có ở trên - bạn sẽ có thể viết kết luận của mình không phải về nhật ký của số liệu tham gia, mà là về chính số liệu tham gia.


3) Có rất nhiều thứ khác bạn có thể làm!

a) bạn có thể làm một bài kiểm tra phù hợp với dữ liệu theo cấp số nhân. Thật dễ dàng để có được một thử nghiệm dựa trên tỷ lệ khả năng. Khi điều đó xảy ra, đối với dữ liệu theo cấp số nhân, bạn có được một thử nghiệm F mẫu nhỏ (dựa trên tỷ lệ phương tiện) cho tình huống này trong trường hợp một đuôi; LRT hai đuôi thường không có tỷ lệ bằng nhau ở mỗi đuôi đối với cỡ mẫu nhỏ. (Điều này sẽ có sức mạnh tốt hơn so với thử nghiệm t, nhưng sức mạnh cho thử nghiệm t sẽ khá hợp lý và tôi hy vọng sẽ không có nhiều sự khác biệt ở kích thước mẫu của bạn.)

b) bạn có thể thực hiện kiểm tra hoán vị - thậm chí dựa trên kiểm tra t nếu bạn muốn. Vì vậy, điều duy nhất thay đổi là tính toán của giá trị p. Hoặc bạn có thể thực hiện một số thử nghiệm lấy mẫu lại khác, chẳng hạn như thử nghiệm dựa trên bootstrap. Điều này sẽ có sức mạnh tốt, mặc dù nó sẽ phụ thuộc một phần vào thống kê kiểm tra mà bạn chọn liên quan đến phân phối bạn có.

c) bạn có thể thực hiện một bài kiểm tra không tham số dựa trên xếp hạng (chẳng hạn như Wilcoxon-Mann-Whitney). Nếu bạn giả sử rằng nếu các phân phối khác nhau, thì chúng chỉ khác nhau bởi một yếu tố tỷ lệ (phù hợp với nhiều phân phối sai lệch bao gồm cả số mũ), thì bạn thậm chí có thể có được khoảng tin cậy cho tỷ lệ của các tham số tỷ lệ.

[Vì mục đích đó, tôi khuyên bạn nên làm việc theo thang đo log (sự thay đổi vị trí trong các bản ghi là nhật ký của sự thay đổi tỷ lệ). Nó sẽ không thay đổi giá trị p, nhưng nó sẽ cho phép bạn lũy thừa ước tính điểm và giới hạn CI để có được một khoảng cho sự thay đổi tỷ lệ.]

Điều này cũng vậy, có xu hướng có sức mạnh khá tốt nếu bạn ở trong tình huống theo cấp số nhân, nhưng có thể không tốt bằng sử dụng thử nghiệm t.


Một tham chiếu xem xét một tập hợp các trường hợp rộng hơn đáng kể cho sự thay thế dịch chuyển vị trí (ví dụ với cả sự không đồng nhất về phương sai và độ lệch trong giá trị null) là

Fagerland, MW và L. Sandvik (2009),
"Hiệu suất của năm thử nghiệm vị trí hai mẫu cho các phân phối sai lệch với phương sai không bằng nhau,"
Các thử nghiệm lâm sàng đương đại , 30 , 490 phản 496

Nó thường có xu hướng đề xuất thử nghiệm U của Welch (một trong những thử nghiệm cụ thể được xem xét bởi Welch và là thử nghiệm duy nhất mà họ đã thử nghiệm). Nếu bạn không sử dụng chính xác cùng một thống kê tiếng Wales, các khuyến nghị có thể thay đổi phần nào (mặc dù có thể không nhiều). [Lưu ý rằng nếu các bản phân phối của bạn theo cấp số nhân, bạn sẽ quan tâm đến một giải pháp thay thế quy mô trừ khi bạn ghi nhật ký ... trong trường hợp đó bạn sẽ không có phương sai không bằng nhau.]


4
Câu trả lời chính xác! Tôi thực sự choáng váng về số lượng thông tin bạn đã đóng gói trong một bài đăng
Christian Sauer

@Glen_b, đây là một câu trả lời tuyệt vời! Cảm ơn rât nhiều. Chỉ một câu hỏi nữa: các mẫu của tôi đến từ cùng một bộ dữ liệu. Tôi muốn so sánh các mẫu của người dùng với X đặc trưng và người dùng có các đặc điểm Y. Mẫu cho người dùng X khoảng ~ 500 và mẫu cho người dùng Y là khoảng ~ 10000. Có một sự khác biệt lớn về kích thước, nhưng dường như không có sự khác biệt lớn về hình dạng của chúng (nhìn vào các ô mật độ và xác suất). Nó sẽ là một vấn đề để sử dụng thử nghiệm t anyway?
Milena Araujo

Khi bạn nói "sự khác biệt lớn về kích thước", bạn đang nói về cỡ mẫu (10000 so với 500) hoặc trong các giá trị tiêu biểu trong mỗi nhóm? (Ngẫu nhiên, chúng liên tục hay rời rạc? Các giá trị tối thiểu điển hình của loại dữ liệu này nhỏ đến mức nào? Các bản ghi có hình dạng tương tự nhau - tức là nó chỉ là một sự thay đổi tỷ lệ mà chúng tôi đang xem xét?)
Glen_b -Reinstate Monica

1
Bạn có thể tốt hơn với một bảng cho dữ liệu như vậy. Thông tin quan trọng là nó không chỉ rời rạc mà gần như tất cả các giá trị đều nằm trong số ít câu hỏi thấp nhất. Nếu bạn vẽ biểu đồ, hãy vẽ biểu đồ mà không bị rung lắc và đảm bảo tất cả các giá trị thấp là riêng biệt (các thanh cho mỗi 0, 1, 2, không kết hợp chúng). Tốt hơn hết là cắt bên phải và trải bên trái ra nhiều hơn (nơi gần như toàn bộ dữ liệu), miễn là bạn làm rõ có nhiều hơn bên phải nếu bạn cắt bỏ. Bao gồm thông tin về những gì bạn đang đo và những gì bạn đang cố gắng đạt được ... (ctd)
Glen_b -Reinstate Monica

1
@ScottH phần 1.c trong câu trả lời của tôi giải quyết vấn đề này một cách rõ ràng và xem xét vấn đề quan trọng trong trường hợp đang thảo luận (phân phối theo cấp số nhân ở các cỡ mẫu tương tự)
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.