Làm thế nào để thực hiện kiểm tra t với các mẫu lớn?

Tôi có hai quần thể, Một với N = 38,704 (số lượng quan sát) và khác với N = 1,313,662. Các bộ dữ liệu này có ~ 25 biến, tất cả đều liên tục. Tôi lấy trung bình của từng bộ trong mỗi bộ dữ liệu và tính toán thống kê kiểm tra bằng công thức

t = sai số trung bình / lỗi std

Vấn đề là mức độ tự do. Theo công thức của df = N1 + N2-2, chúng ta sẽ có nhiều tự do hơn bảng có thể xử lý. Bất kỳ đề nghị về điều này? Làm thế nào để kiểm tra thống kê t ở đây. Tôi biết rằng thử nghiệm t được sử dụng để xử lý các mẫu nhưng nếu chúng ta áp dụng điều này trên các mẫu lớn.

t-test

— ayush biyani
nguồn

Câu trả lời:

chl đã đề cập đến cái bẫy của nhiều so sánh khi tiến hành đồng thời 25 thử nghiệm với cùng một bộ dữ liệu. Một cách dễ dàng để xử lý đó là điều chỉnh ngưỡng giá trị p bằng cách chia chúng cho số lượng thử nghiệm (trong trường hợp này là 25). Công thức chính xác hơn là: Giá trị p đã điều chỉnh = 1 - (giá trị 1 - p) ^ (1 / n). Tuy nhiên, hai công thức khác nhau xuất phát gần như cùng một giá trị p được điều chỉnh.

Có một vấn đề lớn khác với bài tập kiểm tra giả thuyết của bạn. Bạn chắc chắn sẽ gặp phải lỗi Loại I (dương tính giả), theo đó bạn sẽ phát hiện ra một số khác biệt thực sự nhỏ mà cực kỳ quan trọng ở mức 99.9999%. Điều này là do khi bạn xử lý một mẫu có kích thước lớn như vậy (n = 1.313.662), bạn sẽ nhận được một lỗi tiêu chuẩn rất gần với 0. Đó là vì căn bậc hai của 1.313.662 = 1.146. Vì vậy, bạn sẽ chia độ lệch chuẩn cho 1.146. Nói tóm lại, bạn sẽ nắm bắt được những khác biệt nhỏ có thể hoàn toàn phi vật chất.

Tôi sẽ đề nghị bạn tránh xa khuôn khổ thử nghiệm giả thuyết này và thay vào đó tiến hành phân tích loại Kích thước hiệu ứng. Trong khuôn khổ này, thước đo khoảng cách thống kê là độ lệch chuẩn. Không giống như lỗi tiêu chuẩn, độ lệch chuẩn không bị thu hẹp một cách giả tạo bởi kích thước của mẫu. Và, phương pháp này sẽ cho bạn cảm nhận rõ hơn về sự khác biệt về vật chất giữa các bộ dữ liệu của bạn. Kích thước hiệu ứng cũng tập trung nhiều hơn vào khoảng tin cậy xung quanh chênh lệch trung bình trung bình nhiều thông tin hơn so với thử nghiệm giả thuyết tập trung vào ý nghĩa thống kê thường không có ý nghĩa gì cả. Mong rằng sẽ giúp.

— Sympa
nguồn

+1 để đưa ra các ý tưởng chính: (1) chúng tôi có thể đảm bảo các phương tiện sẽ khác nhau khi các bộ dữ liệu lớn như vậy và (2) một số phân tích khác có thể phù hợp và hữu ích hơn. Nhưng vì chúng tôi không biết về mục đích của phân tích, chúng tôi nên thận trọng về việc đưa ra các khuyến nghị cụ thể.

— whuber

Cảm ơn Gaetan..got bạn..Tôi nghĩ điều tôi rút ra từ điều này là độ lệch chuẩn là một biện pháp tốt hơn khi bạn có các mẫu lớn như của tôi .. xin vui lòng cho tôi biết nếu tôi bỏ lỡ bất cứ điều gì.

— ayush biyani

ayush ... Bạn nói đúng. Đó là cơ bản nó. Và, điều này là do lỗi tiêu chuẩn của bạn sẽ trở nên rất nhỏ (do kích thước mẫu lớn). Điều này lần lượt vượt quá khoảng cách thống kê giữa các nhóm kiểm tra và kiểm soát của bạn. Và, khiến bạn cuối cùng gặp phải Lỗi Loại I (phát hiện ra một sự khác biệt quá nhỏ đến mức không quan trọng). Đây là một vấn đề phổ biến trong thử nghiệm giả thuyết với các mẫu lớn.

— Sympa

Sinh viên của t -distribution trở nên gần hơn và gần gũi hơn với các phân phối chuẩn chuẩn làm bậc tự do có được lớn hơn. Với 1313662 + 38704 - 2 = 1352364 độ tự do, phân phối t sẽ không thể phân biệt được với phân phối chuẩn thông thường, như có thể thấy trong hình bên dưới (trừ khi có lẽ bạn đang ở trong đuôi rất cực và bạn quan tâm đến phân biệt giá trị p hoàn toàn nhỏ với những giá trị nhỏ hơn). Vì vậy, bạn có thể sử dụng bảng cho phân phối chuẩn thông thường thay vì bảng cho phân phối t .

văn bản thay thế

— trên đỉnh
nguồn

Các bạn, cảm ơn vì câu trả lời. Tôi có một dữ liệu để phân tích. Làm thế nào để tôi đính kèm dữ liệu này. Rất nhiều để hỏi bạn mọi người..Cảm ơn trong dự đoán. Mong đợi một câu trả lời nhanh chóng.

— ayush biyani

Huh? Bạn đã nói trong câu hỏi bạn đã tính toán thống kê t và chl đã cung cấp mã R mẫu. Nhiều hơn những gì bạn muốn? Nhân tiện, tôi không chắc bạn có quyền mong đợi hay yêu cầu trả lời nhanh chóng; chúng tôi không được trả tiền cho điều này bạn biết.

— vào

@ayush Đối với câu hỏi trước của bạn, tôi cung cấp câu trả lời đầy đủ cho câu hỏi của bạn (IMHO) - sau đó tôi đã đưa ra một số theo dõi cho ý kiến của bạn trước khi dừng lại khi tôi nghĩ rằng bạn đang hỏi một câu hỏi khác không phải là mục đích của tùy chọn nhận xét ở đây . Vì vậy, tôi sẽ đề nghị bạn nêu rõ nếu câu hỏi của bạn liên quan đến việc xem xét lý thuyết hoặc phân tích dữ liệu ứng dụng (trong trường hợp sau, hãy cho chúng tôi một ví dụ có thể lặp lại) hoặc tách câu hỏi của bạn. BTW, bạn vẫn có tùy chọn để chấp nhận câu trả lời mà bạn thấy hữu ích (một lần nữa, hãy viết câu hỏi ban đầu của bạn, không phải các bình luận theo sau).

— chl

@ayush Ah, và tôi chỉ nhận ra rằng bạn không bao giờ bỏ phiếu bất kỳ câu trả lời nào được cung cấp cho bạn (mặc dù bạn có đủ đại diện ngay bây giờ).

— chl

@ chl-- yeah..even Tôi nhận ra lỗi này của tôi và sẽ khắc phục điều này chắc chắn trong các bài đăng sắp tới..Cảm ơn đã chỉ ra điều này..Nhận xét tôi một số ngày một tài tử ngây thơ ..

— ayush biyani

Các phân phối có xu hướng đến (gaussian) phân phối khi là lớn (trên thực tế, khi , họ gần như giống hệt nhau, xem hình ảnh được cung cấp bởi @onestop). Trong trường hợp của bạn, tôi sẽ nói rằng là RẤT lớn, do đó bạn chỉ có thể sử dụng -test. Do hậu quả của cỡ mẫu, mọi khác biệt RẤT nhỏ sẽ được khai báo là đáng kể. Vì vậy, đáng để tự hỏi nếu các thử nghiệm này (với bộ dữ liệu đầy đủ) có thực sự thú vị. $t$ $z$ $n$ $n>30$ $n$ $z$

Để chắc chắn, vì tập dữ liệu của bạn bao gồm 25 biến, bạn đang thực hiện 25 bài kiểm tra? Nếu đây là trường hợp, có lẽ bạn cần phải sửa cho nhiều so sánh để không làm tăng tỷ lệ lỗi loại I (xem chủ đề liên quan trên trang web này).

BTW, phần mềm R sẽ cung cấp cho bạn các giá trị p bạn đang tìm kiếm, không cần phải dựa vào Bảng:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039

— chl
nguồn