Với kích thước mẫu đủ lớn, một thử nghiệm sẽ luôn hiển thị kết quả quan trọng trừ khi kích thước hiệu ứng thực sự chính xác bằng không. Tại sao?


21

Tôi tò mò về một yêu cầu được đưa ra trong bài viết của Wikipedia về kích thước hiệu ứng . Đặc biệt:

[...] một so sánh thống kê không có giá trị sẽ luôn hiển thị kết quả có ý nghĩa thống kê trừ khi kích thước hiệu ứng dân số chính xác bằng không

Tôi không chắc điều này có nghĩa là gì / ngụ ý gì, huống chi là một đối số để sao lưu nó. Tôi đoán, xét cho cùng, một hiệu ứng là một thống kê, nghĩa là một giá trị được tính từ một mẫu, với phân phối riêng của nó. Điều này có nghĩa là các hiệu ứng không bao giờ là do chỉ là sự thay đổi ngẫu nhiên (đó là những gì tôi hiểu nó có nghĩa là không đáng kể)? Có phải chúng ta sau đó chỉ xem xét liệu hiệu ứng có đủ mạnh - có giá trị tuyệt đối cao không?

Tôi đang xem xét hiệu ứng mà tôi quen thuộc nhất: hệ số tương quan Pearson r dường như mâu thuẫn với điều này. Tại sao bất kỳ có ý nghĩa thống kê? Nếu nhỏ, đường hồi quy của chúng tôi rr

y=ax+b=r(sysx)=ϵx+b

Đối với nhỏ, gần bằng 0, kiểm tra F có thể sẽ chứa khoảng tin cậy chứa 0 cho độ dốc. Đây không phải là một ví dụ sao?ϵ


10
Gợi ý: mệnh đề trước phần bạn trích dẫn là điều cần thiết. " Với kích thước mẫu đủ lớn , so sánh thống kê không có giá trị sẽ luôn hiển thị kết quả có ý nghĩa thống kê trừ khi kích thước hiệu ứng dân số chính xác bằng 0"
Nhà nghiên cứu Kodi

@Kodiologist: Nhưng, ví dụ của tôi, điều này có nghĩa là nếu cỡ mẫu lớn hơn thì bản thân r cũng sẽ lớn hơn, hoặc, ít nhất là biểu thức sẽ lớn hơn nếu cỡ mẫu lớn hơn? Tôi không thấy nó. r(sy/sx)
gary

5
Nếu điều này không đúng, nó sẽ là một lỗ hổng trong phương pháp thống kê. Nếu , chắc chắn một số cỡ mẫu đủ lớn để phát hiện sự khác biệt. μ>μ0
John Coleman

Câu trả lời:


26

Một ví dụ đơn giản, giả sử rằng tôi đang ước tính chiều cao của bạn bằng cách sử dụng một số mumbo jumbo thống kê.

Bạn đã luôn tuyên bố với người khác rằng bạn cao 177 cm (khoảng 5 ft 10 in).

Nếu tôi kiểm tra giả thuyết này (rằng chiều cao của bạn bằng 177 cm, ) và tôi có thể giảm sai số trong phép đo của mình đủ, thì tôi có thể chứng minh rằng bạn thực tế không phải là 177 cm. Cuối cùng, nếu tôi ước tính chiều cao của bạn đủ số thập phân, bạn gần như chắc chắn sẽ chệch khỏi chiều cao đã nêu là 177.00000000 cm. Có lẽ bạn là 177,02 cm; Tôi chỉ phải giảm lỗi của mình xuống dưới 0,02 để biết rằng bạn không phải 177 cm.h=177

Làm cách nào để giảm lỗi trong thống kê? Lấy một mẫu lớn hơn. Nếu bạn nhận được một mẫu đủ lớn, lỗi sẽ nhỏ đến mức bạn có thể phát hiện ra những sai lệch nhỏ nhất từ ​​giả thuyết khống.


2
Đây là một lời giải thích rất rõ ràng và súc tích. Có lẽ nó hữu ích hơn để hiểu tại sao điều này xảy ra hơn là các câu trả lời toán học nhiều hơn. Làm tốt.
Không ai vào

1
Giải thích cặn kẽ, nhưng tôi nghĩ cũng quan trọng để xem xét rằng có những trường hợp trong đó giá trị được nêu là thực sự chính xác. Ví dụ, đặt sang một bên những điều kỳ lạ xảy ra trong lý thuyết dây, v.v., một phép đo số lượng kích thước không gian của vũ trụ của chúng ta (có thể được thực hiện) sẽ đưa ra 3, và cho dù bạn có thực hiện phép đo đó chính xác đến đâu, bạn sẽ không bao giờ tìm thấy độ lệch có ý nghĩa thống kê từ 3. Tất nhiên nếu bạn tiếp tục kiểm tra đủ số lần, bạn sẽ nhận được một số sai lệch đơn giản là do phương sai, nhưng đó là một vấn đề khác.
David Z

Có lẽ là một câu hỏi ngây thơ nhưng nếu tôi khẳng định tôi cao 177cm, không phải khái niệm chữ số có nghĩa là tôi chỉ nói tôi nằm trong khoảng 176,5 đến 177,5? Câu trả lời dường như đưa ra một khái niệm lý thuyết tốt, đúng, nhưng nó không dựa trên một tiền đề sai? Tôi đang thiếu gì?
JimLohse

Trong trường hợp này, chiều cao đã nêu là 177 tương tự như giả thuyết khống trong thống kê. Trong thử nghiệm giả thuyết truyền thống về sự bình đẳng, bạn đưa ra tuyên bố về sự bình đẳng (ví dụ ). Vấn đề là bất kể bạn nói gì về chiều cao của mình, tôi có thể từ chối bằng cách giảm lỗi trừ khi giả thuyết khống là hoàn toàn chính xác. Tôi đã sử dụng chiều cao như một ví dụ dễ hiểu, nhưng khái niệm này giống nhau ở các lĩnh vực khác (chất x không gây ung thư, đồng tiền này là công bằng, v.v.)μ=177
Underminer

13

Như @Kodiologist chỉ ra, đây thực sự là những gì xảy ra với kích thước mẫu lớn. Đối với kích thước mẫu nhỏ, không có lý do tại sao bạn không thể có dương tính giả hoặc âm tính giả.

Tôi nghĩ rằng -test làm cho trường hợp tiệm cận rõ ràng nhất. Giả sử chúng ta có và chúng tôi muốn kiểm tra so với . Thống kê thử nghiệm của chúng tôi là X 1 , ... , X n IID ~ N ( μ , 1 ) H 0 : μ = 0 H Một : μ 0 Z n = ˉ X n - 0zX1,,XniidN(μ,1)H0:μ=0HA:μ0

Zn=X¯n01/n=nX¯n.

Zn=X¯nN(μ,1n) nên . Chúng tôi quan tâm đến . Đặt là biến tham chiếu của chúng tôi. Trong nên chúng tôi có để chúng tôi có thể chọn để kiểm soát tỷ lệ lỗi loại I của mình như mong muốn . Nhưng theo vậy P(|Zn|α)P(|Zn|α)=P(Zn-α)+P(Znα)=1+Φ(-α-LZn=nX¯nN(μn,1)P(|Zn|α)

P(|Zn|α)=P(Znα)+P(Znα)
Y~N(0,1)H0μ=0P(|Zn|α)=1-P(-αYα)αHMộtμ
=1+Φ(αμn)Φ(αμn).
YN(0,1)H0 μ=0P(|Zn|α)=1P(αYα)αHA P(|Zn|α)μn0H 0 L 0 ± L < 0
P(|Zn|α)1+Φ(±)Φ(±)=1
vì vậy với xác suất 1, chúng tôi sẽ từ chối nếu ( là trong trường hợp , nhưng cả hai cách này đều có cùng dấu hiệu).H0μ0±μ<0

Điểm chính của điều này là nếu chính xác bằng thì thống kê kiểm tra của chúng tôi có phân phối tham chiếu và chúng tôi sẽ từ chối 5% (hoặc bất cứ điều gì chúng tôi chọn) vào thời điểm đó. Nhưng nếu không chính xác bằng , thì xác suất chúng tôi sẽ từ chối đầu lên khi tăng. Ý tưởng ở đây là tính nhất quán của một bài kiểm tra, theo , sức mạnh (xác suất từ ​​chối) đứng đầu là .μ μ 0 1 n H Một 1 n 0μ01nHA1n

Đó là câu chuyện chính xác tương tự với thống kê kiểm tra để thử nghiệm so với với hệ số tương quan Pearson. Nếu giả thuyết khống là sai, thì thống kê kiểm tra của chúng tôi ngày càng lớn hơn về xác suất, do đó xác suất chúng tôi sẽ từ chối tiếp cận .H Một : ρ ρ 0 1H0:ρ=ρ0HA:ρρ01


1
Nitpick: nếu , thì sẽ chuyển hướng sang thay vì , phải không? Z n - μ<0Zn
Nhà khoa học Kodi

1
Đẹp, nhưng điều gì xảy ra trong trường hợp sẽ phụ thuộc vào việc nhanh hơn so với không? Tôi thậm chí không chắc chắn về cách bạn sẽ so sánh với tốc độ hội tụ cho một chuỗi các biến ngẫu nhiên và một chuỗi các số nguyên - có lẽ nên áp dụng định lý Slutsky hoặc một cái gì đó tương tự. ˉ Xp 0 μ=0X¯p0n
DeltaIV

1
@DeltaIV, phải, nếu tốc độ hội tụ khác nhau, người ta sẽ cần một tỷ lệ khác nhau để có được phân phối null không biến đổi. Nhưng đối với ví dụ hiện tại, root-n là tỷ lệ đúng.
Christoph Hanck

1
nX¯ hội tụ đến một tiêu chuẩn thông thường bởi CLT, không phải là . 0
anh chàng

7

Có thể cho rằng những gì họ nói sai, nếu không vì lý do nào khác ngoài việc họ sử dụng "điều này luôn xảy ra".

Tôi không biết đây có phải là mấu chốt của sự nhầm lẫn mà bạn gặp phải không, nhưng tôi sẽ đăng nó vì tôi nghĩ nhiều người sẽ và sẽ bị nhầm lẫn bởi điều này:

" sẽ xảy ra nếu là đủ lớn"n Xn làm KHÔNG có nghĩa là "Nếu , sau đó ".n > n 0 Xn>n0X

Thay vào đó, nó có nghĩa là .limnPr(X)=1

Những gì họ đang nói theo nghĩa đen dịch ra sau đây:

Đối với mọi kích thước mẫu trên một số kích thước tối thiểu , kết quả của bất kỳ thử nghiệm không null nào được đảm bảo là đáng kể nếu kích thước hiệu ứng thực sự không chính xác bằng không.nn0

Tuy nhiên, những gì họ đã cố gắng nói là:

Đối với bất kỳ mức ý nghĩa nào, khi kích thước mẫu được tăng lên, xác suất thử nghiệm không null mang lại kết quả quan trọng tiếp cận 1 nếu kích thước hiệu ứng thực sự không chính xác bằng không.

Có sự khác biệt quan trọng ở đây:

  • Không có gì đảm bảo. Bạn chỉ có nhiều khả năng nhận được một kết quả quan trọng với một mẫu lớn hơn. Bây giờ, họ có thể né tránh một phần trách nhiệm ở đây, bởi vì cho đến nay nó chỉ là một vấn đề thuật ngữ. Trong bối cảnh xác suất, có thể hiểu rằng câu "nếu n đủ lớn thì X" cũng có thể được hiểu là "X ngày càng có nhiều khả năng đúng khi n phát triển lớn" .
    Tuy nhiên, cách giải thích này đi ra ngoài cửa sổ của tôi ngay khi họ nói điều này "luôn luôn" xảy ra. Thuật ngữ thích hợp ở đây sẽ có thể nói điều này xảy ra " với xác suất cao " 1 .

  • Đây chỉ là thứ yếu, nhưng cách diễn đạt của họ gây nhầm lẫn với điều này có vẻ như ngụ ý rằng bạn sửa kích thước mẫu là "đủ lớn", và sau đó câu lệnh đúng với bất kỳ mức ý nghĩa nào. Tuy nhiên, bất kể câu lệnh toán học chính xác là gì, điều đó không thực sự có ý nghĩa: trước tiên bạn luôn sửa mức ý nghĩa và sau đó bạn chọn cỡ mẫu đủ lớn.
    Tuy nhiên, ý kiến cho rằng nó bằng cách nào đó có thể là cách khác xung quanh không may nhấn mạnh các giải thích "đủ lớn", vì vậy mà làm cho vấn đề trên thậm chí tồi tệ hơn.n>n0

Nhưng một khi bạn hiểu tài liệu, bạn sẽ hiểu những gì họ đang cố nói.

(Lưu ý bên lề: tình cờ, đây chính xác là một trong những vấn đề thường gặp của nhiều người với Wikipedia. Thông thường, chỉ có thể hiểu những gì họ nói nếu bạn đã biết tài liệu, vì vậy nó chỉ tốt cho một tài liệu tham khảo hoặc như một lời nhắc nhở , không phải là tài liệu tự dạy.)

1 Đối với các đồng nghiệp (hi!), Vâng, thuật ngữ này có ý nghĩa cụ thể hơn so với từ tôi liên kết. Thuật ngữ kỹ thuật lỏng lẻo nhất mà chúng tôi có thể muốn ở đây là "không có triệu chứng gần như chắc chắn" . Xem tại đây .


"xác suất thử nghiệm không null mang lại kết quả quan trọng đạt 0 nếu kích thước hiệu ứng thực sự chính xác bằng 0" có thể không hoàn toàn đúng: nếu thử nghiệm có mức ý nghĩa thì xác suất mang lại kết quả quan trọng có thể là hoặc ở đâu đó ở tất cả các cỡ mẫualphaαα
Henry

@Henry: Oh bắn, bạn nói đúng! Tôi đã viết nó rất nhanh, tôi đã không dừng lại để suy nghĩ. Cảm ơn rất nhiều! Tôi đã sửa nó. :)
Mehrdad

3

Ví dụ yêu thích của tôi là số ngón tay theo giới tính. Đại đa số mọi người có 10 ngón tay. Một số bị mất ngón tay do tai nạn. Một số có thêm ngón tay.

Tôi không biết nếu đàn ông có nhiều ngón tay hơn phụ nữ (trung bình). Tất cả các bằng chứng dễ dàng có sẵn cho thấy cả nam và nữ đều có 10 ngón tay.

Tuy nhiên, tôi rất tự tin rằng nếu tôi thực hiện một cuộc điều tra dân số của tất cả đàn ông và tất cả phụ nữ thì tôi sẽ học được rằng một giới tính có nhiều ngón tay (trung bình) hơn so với người khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.