Tại sao không sử dụng phân phối T để ước tính giá trị trung bình khi mẫu lớn?


17

Các khóa học thống kê cơ bản thường đề xuất sử dụng phân phối bình thường để ước tính giá trị trung bình của tham số dân số khi cỡ mẫu n lớn (thường trên 30 hoặc 50). Phân phối T của sinh viên được sử dụng cho các cỡ mẫu nhỏ hơn để tính độ không đảm bảo về độ lệch chuẩn của mẫu. Khi cỡ mẫu lớn, độ lệch chuẩn mẫu cung cấp thông tin tốt về độ lệch chuẩn dân số, cho phép ước tính phân phối chuẩn. Tôi hiểu rồi

Nhưng tại sao sử dụng một ước tính khi bạn có thể có được khoảng tin cậy chính xác? Bất kể kích thước mẫu là gì, điểm sử dụng phân phối bình thường là gì nếu đó chỉ là ước tính về thứ gì đó bạn có thể nhận được chính xác với phân phối T?


@Glen_b Vâng, đó sẽ là công cụ ước tính khoảng. Về các khoảng thời gian này: "Bạn phải sử dụng bảng phân phối t khi làm việc có vấn đề khi độ lệch chuẩn dân số () không được biết và kích thước mẫu nhỏ (n <30)" (từ web.pdx.edu/~stipakb/ tải về / PA551 / NormalVersusTdistribution.doc). Tại sao mọi người không sử dụng phân phối T mọi lúc khi độ lệch chuẩn dân số không được biết (ngay cả khi n> 30)?
Pertinax

Câu trả lời:


15

Chỉ cần làm rõ về mối quan hệ với tiêu đề, chúng tôi không sử dụng phân phối t để ước tính giá trị trung bình (theo nghĩa của ước tính điểm ít nhất), nhưng để xây dựng một khoảng cho nó.

Nhưng tại sao sử dụng một ước tính khi bạn có thể có được khoảng tin cậy chính xác?

Đó là một câu hỏi hay (miễn là chúng ta không quá khăng khăng về 'chính xác', vì các giả định cho nó được phân phối chính xác sẽ không thực sự giữ được).

"Bạn phải sử dụng bảng phân phối t khi các vấn đề làm việc khi độ lệch chuẩn dân số (σ) không được biết và kích thước mẫu nhỏ (n <30)"

Tại sao mọi người không sử dụng phân phối T mọi lúc khi độ lệch chuẩn dân số không được biết (ngay cả khi n> 30)?

Tôi coi lời khuyên là - tốt nhất - có khả năng gây hiểu lầm. Trong một số tình huống, phân phối t vẫn nên được sử dụng khi mức độ tự do lớn hơn nhiều.

Trường hợp bình thường là một xấp xỉ hợp lý phụ thuộc vào nhiều thứ khác nhau (và do đó phụ thuộc vào tình huống). Tuy nhiên, vì (với máy tính), không khó để sử dụngt , ngay cả khi df rất lớn, bạn sẽ phải tự hỏi tại sao cần phải lo lắng về việc làm gì đó khác với n = 30.

Nếu kích thước mẫu thực sự lớn, nó sẽ không tạo ra sự khác biệt đáng chú ý đối với khoảng tin cậy, nhưng tôi không nghĩ n = 30 luôn đủ gần với 'thực sự lớn'.


Có một trường hợp trong đó có thể có ý nghĩa khi sử dụng bình thường thay vì t - đó là khi dữ liệu của bạn rõ ràng không thỏa mãn các điều kiện để có phân phối t, nhưng bạn vẫn có thể tranh luận về tính bình thường gần đúng của giá trị trung bình (nếu n khá lớn). Tuy nhiên, trong những trường hợp đó, thường thì t là một xấp xỉ tốt trong thực tế và có thể "an toàn hơn". [Trong tình huống như vậy, tôi có thể có xu hướng điều tra thông qua mô phỏng.]


2
Tôi đã đọc ở đâu đó trong tài liệu này rằng là tốt khi α = 5 % . Nhưng tôi không chắc nó là đủ. n=30α=5%
Stéphane Laurent

1
@ StéphaneLaurent Đối với hầu hết các mục đích, nó sẽ ổn ở mức 5%, nhưng những đánh giá như vậy tùy thuộc vào từng cá nhân. Có những tình huống - tôi chỉ gặp phải một ngày hôm nay - trong đó mức độ lỗi có thể đủ quan trọng.
Glen_b -Reinstate Monica

2
@ StéphaneLaurent Bạn có thể có được cái nhìn sâu sắc từ Johnson, VE (2013). Sửa đổi tiêu chuẩn cho bằng chứng thống kê . Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia , 110 (48): 19313 Bóng19317. Bài viết này phù hợp với bài viết - Tại sao hầu hết các kết quả nghiên cứu được công bố là phê bình sai về nghiên cứu ( a la How Science Goes Wrong )
Alexis

4
@ StéphaneLaurent Bài viết của bạn trả lời câu hỏi của tôi. Đối với hồ sơ, một bản dịch sơ bộ về kết luận của nó: "Việc sử dụng phân phối bình thường như một xấp xỉ với phân phối t của Sinh viên chỉ là sản phẩm của những hạn chế công nghệ của thế kỷ 20. Những hạn chế này đã biến mất với phần mềm thống kê hiện đại, và không còn nữa bất kỳ lý do để sử dụng các xấp xỉ không bảo thủ này ".
Pertinax

2
@TheThunderChimp Caveat: nếu biết phương sai dân số (ví dụ: ước tính tỷ lệ dân số - giá trị trung bình của biến nhị phân), thì tiêu chuẩn bình thường ( z ) và không phân phối t là phù hợp.
Alexis

7

Đó là một lỗi thời lịch sử. Có rất nhiều trong số họ trong số liệu thống kê.

Nếu bạn không có máy tính, thật khó để sử dụng phân phối t và việc sử dụng phân phối bình thường sẽ dễ dàng hơn nhiều. Khi kích thước mẫu trở nên lớn, hai phân phối của chúng trở nên giống nhau (lớn như thế nào là 'lớn' là một câu hỏi khác).


1
Đó có vẻ là một câu trả lời khá nông cho một câu hỏi sâu hơn.
Alexis

2
Không chắc chắn những gì bạn có ý nghĩa. Bạn không nghĩ đó là lý do? (Câu trả lời được đánh giá cao nhất cũng đưa ra quan điểm tương tự - mặc dù hùng hồn và công phu hơn.)
Jeremy Miles

1
Tôi đánh giá thấp vì câu trả lời của bạn đọc cho tôi như: Bởi vì lịch sử. Tóm tắt ngắn gọn câu hỏi của bạn.
Alexis

2
Cảm ơn vì đã cho tôi biết - nó đẹp hơn một downvote ẩn danh mà tôi không biết lý do.
Jeremy Miles

3
Trong lịch sử, một "sử dụng" các phân phối này bằng cách tìm kiếm các giá trị trong bảng. Cách duy nhất để sử dụng phân phối Bình thường trở nên dễ dàng hơn là người ta không phải chọn cột tương ứng với mức độ tự do. Đó hầu như không phải là một mối quan tâm. Điều gì đã làm hạn chế việc sử dụng là tại một số điểm, việc mở rộng các bảng thành mức độ tự do lớn: các cuốn sách sẽ trở nên quá lớn.
whuber

1

ex2n


1
Ở kích thước nào thì các lỗi số trong ước tính t vượt trội hơn lợi ích từ việc sử dụng nó?
jona

2
chắc chắn bạn có thể tính toán các giá trị t đến độ chính xác tùy ý và do đó chúng có thể chính xác như số lượng bạn so sánh chúng với.
Neil G

"Nói cách khác, giá trị t" chính xác "không phải là" chính xác "và trong lỗi xấp xỉ, giá trị này giống như giá trị CDF cho tiêu chuẩn thông thường." Tôi không chắc đây là một quy tắc đáng tin cậy.
Shadowtalker

2
25.9325×1016

1
Whuber, bạn đúng. Tôi đã sử dụng "lỗi số" không đúng cách. Tôi có nghĩa là tất cả các số xử lý lỗi: xấp xỉ bằng số của các tích phân, lỗi số để làm việc với độ chính xác hữu hạn và các lỗi số do cắt ngắn. Nếu một người có thể làm việc với độ chính xác vô hạn, sẽ không có lý do nào để thay thế phân phối t bằng bình thường
VictorZurkowski
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.