Kiểm tra thống kê cho một giá trị nằm xa hơn đáng kể so với dân số có nghĩa là: đó là kiểm tra Z hay kiểm tra T?

Giá trị quan trọng như thế nào so với danh sách các giá trị? Trong hầu hết các trường hợp, kiểm tra thống kê liên quan đến việc so sánh một tập hợp mẫu với dân số. Trong trường hợp của tôi, mẫu được tạo bởi một giá trị và chúng tôi so sánh nó với dân số.

Tôi là một chuyên gia trong thử nghiệm giả thuyết thống kê phải đối mặt với vấn đề có lẽ cơ bản nhất. Nó không chỉ là một thử nghiệm mà là hàng trăm trong số chúng. Tôi có một không gian tham số, và phải làm một bài kiểm tra quan trọng cho mọi điểm. Cả giá trị và danh sách nền (dân số) được tạo cho mỗi kết hợp tham số. Sau đó, tôi đang đặt hàng này theo giá trị p và tìm kết hợp tham số thú vị. Trong thực tế, việc tìm kiếm các kết hợp tham số trong đó p-val này cao (không đặc hiệu) cũng rất quan trọng.

Vì vậy, hãy thực hiện một thử nghiệm duy nhất: Tôi có một giá trị được tính toán được tạo từ một bộ đã chọn và một bộ giá trị nền được tính bằng cách chọn một bộ đào tạo ngẫu nhiên. Giá trị được tính là 0,35 và tập hợp nền là (có lẽ?) Thường được phân phối với giá trị trung bình là 0,25 và tiêu chuẩn rất hẹp (e-7). Tôi thực sự không có kiến thức về phân phối, bởi vì các mẫu được tính từ một thứ khác, chúng không phải là số mẫu ngẫu nhiên từ một số phân phối, vì vậy nền là từ chính xác cho nó.

Giả thuyết khống sẽ là "giá trị trung bình của phép thử mẫu bằng với giá trị tính toán của tôi là 0,35". Khi nào tôi nên coi đây là thử nghiệm Z hay thử nghiệm T? Tôi muốn giá trị cao hơn đáng kể so với trung bình dân số, do đó đây là một thử nghiệm đơn đuôi.

Tôi hơi bối rối không biết nên xem xét một mẫu nào: Tôi có một mẫu của một (quan sát) và danh sách nền là dân số HOẶC mẫu của tôi là danh sách nền và tôi đang so sánh nó với toàn bộ (không được ghép) dân số theo giả thuyết null nên có cùng một nghĩa. Một khi điều này được quyết định, thử nghiệm sẽ đi đến các hướng khác nhau tôi đoán.

Nếu là kiểm tra T, làm cách nào để tính giá trị p của nó? Tôi muốn tự tính toán nó thay vì sử dụng hàm R / Python / Excel (tôi đã biết cách thực hiện điều đó) do đó trước tiên tôi phải thiết lập công thức chính xác.

Để bắt đầu, tôi nghi ngờ một T-test là một chút quá chung chung, vì trong trường hợp của tôi T-test sẽ được liên kết với cỡ mẫu và sẽ có các hình thức: nơi

T = = Z / S,

$T=Z/s,$

và s là

, std mẫu so với std dân. Vì vậy, tôi có hai trường hợp: kích thước mẫu của tôi là kích thước của dân số, mà tôi "đoán" có nghĩa là tôi đang xử lý kiểm tra Z hoặc thống kê dân số (n và std) không xác định được nhưng phân phối có thể nằm trong một cách nào đó gần đúng và tôi thực sự đang đối phó với một bài kiểm tra T. Trong mọi trường hợp, những câu hỏi sau đây của tôi là:

Z = = \frac{\bar{X}}{\frac{σ}{\sqrt{n}}}

$Z=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}$

S = = \hat{σ} / σ

$s=\hat{\sigma}/\sigma$

Làm cách nào để tính giá trị p? (tức là không sử dụng hàm R / Python / Excel hoặc tra cứu bảng giá trị p nhưng thực sự tính toán nó dựa trên công thức, vì tôi muốn biết tôi đang làm gì)
Làm cách nào để tôi quyết định ngưỡng ý nghĩa dựa trên kích thước mẫu của tôi? (một công thức sẽ tốt đẹp)

hypothesis-testing statistical-significance

— Grokkaine
nguồn

10^{6}

$10^6$

0.35 = 10^{6} \times 10^{- 7} + 0.25

$0.35 = 10^6 \times 10^{-7} + 0.25$

0.35

$0.35$

@grokkaine - Câu hỏi này đặt ra những vấn đề thú vị và có vẻ có giá trị, nhưng tôi sẽ thấy nó còn có giá trị hơn nếu bạn chỉnh sửa nó một chút, chú ý rất chính xác với các điều khoản của bạn.

— rolando2

Nó không chỉ là một thử nghiệm mà là hàng trăm trong số chúng. Tôi có một không gian tham số, và phải làm một bài kiểm tra quan trọng cho mọi điểm. Cả giá trị và danh sách nền (dân số) được tạo cho mỗi kết hợp tham số. Sau đó, tôi đang đặt hàng này theo giá trị p và tìm kết hợp tham số thú vị. Trong thực tế, việc tìm kiếm các kết hợp tham số trong đó p-val này cao (không đặc hiệu) cũng rất quan trọng. Tôi sẽ cố gắng chỉnh sửa bài viết của tôi một chút sau.

— Grokkaine

Câu trả lời:

Bạn đưa ra một câu hỏi thú vị. Điều đầu tiên, nếu bạn có quan sát 0,35, trung bình 0,25 và độ lệch chuẩn là 1/10 ^ 7 (đó là cách tôi diễn giải e ^ -7 bit của bạn), bạn thực sự không cần phải đi vào bất kỳ giả thuyết nào bài tập thử nghiệm. Quan sát 0,35 của bạn rất khác so với giá trị trung bình 0,25 cho rằng nó sẽ có độ lệch chuẩn hàng nghìn so với giá trị trung bình và có thể sẽ có hàng triệu lỗi tiêu chuẩn so với giá trị trung bình.

Sự khác biệt giữa thử nghiệm Z và thử nghiệm t chủ yếu liên quan đến kích thước mẫu. Với các mẫu nhỏ hơn 120, bạn nên sử dụng phép thử t để tính giá trị p. Khi kích thước mẫu lớn hơn thế, nó sẽ không tạo ra nhiều khác biệt nếu bạn sử dụng tất cả những gì. Thật thú vị khi tính toán cả hai cách bất kể kích thước mẫu và quan sát sự khác biệt nhỏ giữa hai thử nghiệm.

Theo như tự mình tính toán mọi thứ, bạn có thể tính toán chỉ số t bằng cách chia sự khác biệt giữa quan sát của bạn và giá trị trung bình và chia nó cho sai số chuẩn. Lỗi tiêu chuẩn là độ lệch chuẩn chia cho căn bậc hai của cỡ mẫu. Bây giờ, bạn có stat của bạn. Để tính giá trị ap tôi nghĩ không có cách nào khác ngoài việc tra cứu giá trị t của bạn trong bảng thử nghiệm. Nếu bạn chấp nhận một TDIST thay thế Excel đơn giản (giá trị t stat, DF, 1 hoặc 2 cho 1 hoặc 2 giá trị p đuôi) sẽ thực hiện thủ thuật. Để tính giá trị ap bằng Z, công thức Excel cho kiểm tra 1 đuôi là: (1 - NORMSDIST (giá trị Z). Giá trị Z giống với chỉ số t (hoặc số lỗi tiêu chuẩn cách xa giá trị trung bình).

Cũng giống như một cảnh báo, những phương pháp kiểm tra giả thuyết có thể bị biến dạng bởi kích thước mẫu. Nói cách khác, cỡ mẫu của bạn càng lớn thì sai số chuẩn của bạn càng nhỏ, giá trị Z hoặc t stat của bạn càng cao, giá trị p càng thấp và ý nghĩa thống kê của bạn càng cao. Như một cách rút gọn trong logic này, kích thước mẫu lớn sẽ dẫn đến ý nghĩa thống kê cao. Nhưng, ý nghĩa thống kê cao liên quan đến kích thước mẫu lớn có thể hoàn toàn không quan trọng. Nói cách khác, ý nghĩa thống kê là một cụm từ toán học. Nó không nhất thiết có nghĩa là đáng kể (theo từ điển Webster).

Để thoát khỏi cái bẫy cỡ mẫu lớn này, các nhà thống kê đã chuyển sang các phương pháp Kích thước hiệu ứng. Cái sau sử dụng như một đơn vị khoảng cách thống kê giữa hai lần quan sát Độ lệch chuẩn thay vì Lỗi tiêu chuẩn. Với kích thước mẫu khung như vậy sẽ không có tác động đến ý nghĩa thống kê của bạn. Sử dụng Kích thước hiệu ứng cũng sẽ có xu hướng giúp bạn tránh xa các giá trị p và hướng tới Khoảng tin cậy có thể có ý nghĩa hơn bằng tiếng Anh.

— Sympa
nguồn

Cảm ơn câu trả lời, tôi hơi bối rối không biết nên xem xét mẫu nào: Tôi có một mẫu của một (quan sát) và danh sách nền là dân số HOẶC mẫu của tôi là danh sách nền và tôi đang so sánh nó với toàn bộ dân số (không ghép đôi) mà theo giả thuyết null nên có cùng một nghĩa. Một khi điều này được quyết định, thử nghiệm sẽ đi đến các hướng khác nhau tôi đoán.

— Grokkaine

Sử dụng tất cả các quan sát bạn có làm mẫu (bất cứ điều gì bạn gọi nó). Và, tính khoảng cách thống kê giữa một quan sát của bạn và giá trị trung bình của mẫu như được xác định. Tính độ lệch chuẩn và sai số chuẩn của mẫu của bạn. Và, khoảng cách thống kê quan sát của bạn từ giá trị trung bình là: (Quan sát - Trung bình) / Lỗi tiêu chuẩn = t stat. Sử dụng hàm Excel TDIST (DF, t stat, 1 (cho một đuôi)) và bạn nhận được giá trị p của mình.

— Sympa

Kiểm định giả thuyết luôn đề cập đến dân số. Nếu bạn muốn đưa ra tuyên bố về mẫu, bạn không cần phải kiểm tra (chỉ cần so sánh những gì bạn thấy). Những người thường xuyên tin vào sự không có triệu chứng, miễn là cỡ mẫu của bạn lớn, đừng lo lắng về việc phân phối dữ liệu của bạn. Z-test và T-test về cơ bản giống nhau về cách tính thống kê kiểm tra, chỉ cần các giá trị tới hạn được lấy từ các bản phân phối khác nhau (Bình thường so với Student-T). Nếu kích thước mẫu của bạn lớn, sự khác biệt là biên.

Về Q1: Chỉ cần tra cứu nó từ phân phối T với độ tự do n-1, trong đó n là cỡ mẫu.

Về Q2: Bạn tính ngưỡng dựa trên mức ý nghĩa mong muốn của bạn cho phép thử Z và dựa trên mức ý nghĩa trên cỡ mẫu trong trường hợp Thử nghiệm T.

Nhưng nghiêm túc, bạn nên xem lại một số điều cơ bản.

— chung_p
nguồn

Cảm ơn câu trả lời. Thực tế đó là t-dist mà tôi đang sử dụng, nhưng tôi cũng muốn hiểu "tại sao" tôi sử dụng nó. Làm thế nào để bạn xác định một mẫu "lớn" và giá trị p khác nhau như thế nào. Quan trọng hơn, làm thế nào để chúng ta biết khi phân phối là bình thường hoặc sinh viên? Có một bài kiểm tra thống kê cho nó? Có thể sử dụng thử nghiệm kolmogorov-smirnov cho lần thứ hai và hmm .. những gì để sử dụng cho lần đầu tiên?

— Grokkaine

lớn ... cũng Z và t hội tụ bắt đầu với n = 60. Chỉ cần so sánh các giá trị p bạn nhận được từ cả hai bài kiểm tra. Giả định phân phối t / Bình thường không phụ thuộc vào phân phối dữ liệu cơ bản. Nó dựa trên giả định rằng phân phối lấy mẫu của giá trị trung bình là bình thường. Ngay cả khi biến bạn đang kiểm tra được phân phối Gamma, vẫn giữ nguyên. Với n = 200 hoặc hơn, nó sẽ hoạt động tốt. Một lần nữa, tất cả những thứ này được dựa trên số liệu thống kê thường xuyên.

— chung_p

+1 cho nhận xét về kiểm tra giả thuyết luôn đề cập đến dân số nhưng -1 vì dường như bỏ lỡ điểm mà người hỏi có mẫu 1.

— Peter Ellis

Tôi đã thực sự chắc chắn rằng "Tôi có một giá trị được tính toán và một tập hợp các giá trị được tạo ngẫu nhiên. Giá trị được tính là 0,35" có nghĩa là ... Tôi nghĩ điều này bằng cách nào đó ngụ ý rằng có nhiều hơn 1 quan sát.

— khớp_p

đăng lại nhận xét của tôi từ các đoạn khác: Tôi hơi bối rối không biết nên xem xét mẫu nào: Tôi có một mẫu của một (quan sát) và danh sách nền là dân số HOẶC mẫu của tôi là danh sách nền và Tôi đang so sánh điều đó với toàn bộ dân số (không ghép đôi) mà theo giả thuyết null nên có cùng ý nghĩa. Một khi điều này được quyết định, thử nghiệm sẽ đi đến các hướng khác nhau tôi đoán.

— Grokkaine