Những gì được phân phối chính xác theo phân phối t?

Tôi cố gắng để hiểu ý tưởng đằng sau phân phối t. Đây là các bước mà tôi đã hiểu cho đến nay:

Chúng tôi sử dụng một mẫu gồm các yếu tố N để ước tính trung bình dân số. Để biết thêm chi tiết, chúng tôi sử dụng trung bình mẫu như là một ước tính của trung bình dân số.
Chúng tôi muốn biết ước tính của chúng tôi gần với giá trị thực như thế nào. Hoặc, cụ thể hơn, chúng tôi muốn biết khoảng cách xung quanh mẫu có nghĩa là bao nhiêu để chúng tôi có thể nói rằng trung bình dân số nằm trong khoảng này với một xác suất nhất định.
Để trả lời câu hỏi này, chúng tôi giả định rằng các giá trị trong dân số được phân phối theo phân phối bình thường với độ lệch chuẩn và trung bình đã biết.
Có các tham số phân bố các giá trị trong dân số, chúng ta có thể tính toán phân bố của mẫu có nghĩa là một hàm của phân bố dân số và kích thước của mẫu.
Chúng ta có thể chỉ ra rằng phân phối của giá trị trung bình mẫu cũng là một phân phối bình thường có cùng giá trị trung bình với phân bố dân số và độ lệch chuẩn được đưa ra bởi công thức sau , trong đó là kích thước của mẫu . $s = \sigma/\sqrt{N}$ $N$
Có phân phối trung bình mẫu, chúng ta có thể dễ dàng tính xác suất trung bình mẫu được tách ra khỏi giá trị trung bình thực của X. Hay nói cách khác, chúng ta có thể tính xác suất trung bình dân số nằm trong một khoảng nhất định xung quanh giá trị trung bình của mẫu .
Nó gần như là những gì chúng ta cần. Vấn đề duy nhất là trong các cài đặt thực tế, chúng ta thường không biết độ lệch chuẩn của phân bố dân số (và đây là tham số xác định mức trung bình mẫu của chúng ta được phân phối xung quanh trung bình dân số).
Những gì chúng ta có thể làm là thay thế độ lệch chuẩn dân số bằng độ lệch chuẩn mẫu. Nói cách khác, chúng tôi thay thế tham số chính xác và chưa biết bằng ước tính gần đúng của chúng tôi về nó.

Vì vậy, đây là nơi tôi đang ở cho đến nay. Bằng cách thay thế STD dân số bằng STD mẫu, chúng tôi làm cho ước tính phân phối mẫu có ý nghĩa tồi tệ hơn. Và để "bù" giá trị "sai" này của các tham số của phân phối, chúng tôi thay đổi hình dạng phân phối (chúng tôi nói rằng đó không phải là phân phối bình thường nữa, đó là phân phối t). Nhưng chính xác những gì được phân phối theo phân phối t? Khi chúng ta biết STD dân số, chúng ta biết ý nghĩa của mẫu được phân phối xung quanh dân số có nghĩa là gì. Bây giờ chúng tôi không biết STD dân số, nhưng nó không thay đổi sự phân bố của mẫu trung bình xung quanh ý nghĩa dân số!

— Roman
nguồn

Bạn đã gần đạt được...

Nếu là một mẫu của các quan sát bình thường của iid với trung bình và phương sai , thì trung bình được chuẩn hóa là Tiêu chuẩn bình thường. Bây giờ, như bạn đã chỉ ra, trong thực tế, chúng ta không bao giờ biết . Vì vậy, chúng tôi thay thế bằng ước tính mẫu của nó và xem xét "sinh viên" có nghĩa là . Biến ngẫu nhiên này hơi khác với biến ở trên. Do đó, phân phối của nó hơi không bình thường, cụ thể là Sinh viên có độ tự do. $X_1, \dots, X_n$ $\mu$ $\sigma^2$

\frac{{\bar{X}}_{n} - μ}{σ / \sqrt{n}}

$\frac{\bar X_n-\mu}{\sigma/\sqrt{n}}$

σ

$\sigma$

σ

$\sigma$

S

$S$

T = \frac{{\bar{X}}_{n} - μ}{S / \sqrt{n}}

$T = \frac{\bar X_n-\mu}{S/\sqrt{n}}$

n - 1

$n-1$

Đối với không quá nhỏ , gần với (đó là tính nhất quán của độ lệch chuẩn mẫu). Sau đó, trung bình chuẩn hóa rất gần với học sinh. Điều này giải thích tại sao phân phối Sinh viên với nhiều mức độ tự do trông giống như bình thường. $n$ $S$ $\sigma$

Giá trị trung bình học sinh là điểm khởi đầu để rút ra các khoảng tin cậy và kiểm tra giả thuyết cho . $\mu$

Ví dụ : Để tìm giới hạn tin cậy 95% thấp hơn cho , bạn giải phương trình sau cho . Để làm như vậy, bạn cố gắng sửa đổi phương trình trong xác suất để giá trị trung bình học sinh xuất hiện (cố gắng tìm ra các bước phụ): Sau đó, bạn sử dụng thực tế là có phân phối Sinh viên với df để loại bỏ xác suất: trong đó là lượng tử tương ứng 95%. Do đó, $\bar X_n -c$ $\mu$

P ({\bar{X}}_{n} - c \leq μ) = 0.95

$P(\bar X_n -c \le \mu) = 0.95$

c

$c$

P (T \leq \frac{c}{S / \sqrt{n}}) = 0.95.

$P(T \le \frac{c}{S/\sqrt{n}}) = 0.95.$

T

$T$

n - 1

$n-1$

\frac{c}{S / \sqrt{n}} = q t_{0.95; n - 1},

$\frac{c}{S/\sqrt{n}} = qt_{0.95;n-1},$

q t_{0.95; n - 1}

$qt_{0.95;n-1}$

c = \frac{S}{\sqrt{n}} \cdot q t_{0.95; n - 1}

$c = \frac{S}{\sqrt{n}} \cdot qt_{0.95;n-1}$ và giới hạn độ tin cậy thấp hơn (nổi tiếng) theo sau:

{\bar{X}}_{n} - \frac{S}{\sqrt{n}} \cdot q t_{0.95; n - 1}

$\bar X_n - \frac{S}{\sqrt{n}} \cdot qt_{0.95;n-1}$

— Michael M
nguồn

Nó có nghĩa là thay vì nói về nghĩa trung bình mẫu ( X_n), chúng ta nói về "giá trị trung bình chuẩn". Chúng ta có thể nói rằng phân phối của giá trị trung bình tiêu chuẩn là bình thường với giá trị trung bình bằng 0 và STD bằng 1. Không chúng tôi xác định một biến khác bằng cách thay thế quần thể STD bằng STD mẫu và nói rằng biến mới này được phân phối theo phân phối t. ĐỒNG Ý. Điều cuối cùng mà tôi không hiểu là tại sao chúng ta không thay thế trung bình dân số bằng trung bình mẫu. Nếu chúng ta không biết sigma, có lẽ chúng ta cũng không biết mu.

— La Mã

Chúng tôi làm! Nhưng hầu hết những câu hỏi thú vị về như "trong những gì dao động sẽ được một cách chắc chắn cao" (-> khoảng tin cậy) hay "là thực sự khác biệt so với 0" (-> kiểm tra giả thuyết) đều được trả lời bằng cách sử dụng thực tế là sinh viên có nghĩa là sau một phân phối sinh viên. Bạn không thể trả lời các câu hỏi như vậy chỉ bằng cách nhìn vào ước tính.

μ

$\mu$

μ

$\mu$

μ

$\mu$

— Michael M