Điều gì đã xảy ra với ý nghĩa thống kê trong hồi quy khi kích thước dữ liệu là khổng lồ?


13

Tôi đã đọc câu hỏi này liên quan đến hồi quy quy mô lớn ( liên kết ) trong đó whuber chỉ ra một điểm thú vị như sau:

"Hầu như bất kỳ kiểm tra thống kê nào bạn chạy sẽ mạnh đến mức gần như chắc chắn xác định được hiệu ứng" đáng kể ". Bạn phải tập trung nhiều hơn vào tầm quan trọng thống kê, chẳng hạn như kích thước hiệu ứng, thay vì quan trọng."

--- whuber

Tôi đã tự hỏi nếu đây là một cái gì đó có thể được chứng minh hoặc chỉ đơn giản là một số hiện tượng phổ biến trong thực tế?

Bất kỳ con trỏ đến một bằng chứng / thảo luận / mô phỏng sẽ thực sự hữu ích.


1
Hiệu ứng kích thước quan trọng. (+1 cho câu trả lời của Glen_b). Để đưa ra một ví dụ nhanh: nếu chúng ta bị béo phì, chúng ta sẽ không thay đổi chế độ ăn kiêng hiện tại sang chế độ ăn mới đắt tiền hơn nếu nó giảm cân 0,05 kg sau một tháng ngay cả khi nó có giá trị 0,0000000001 . Chúng tôi vẫn sẽ béo phì, chỉ là nghèo hơn. Đối với tất cả chúng ta đều biết việc giảm cân nhẹ như vậy có thể là do phòng khám sức khỏe cho rằng các bản ghi được di chuyển từ mặt đất của tòa nhà không có thang máy lên tầng bốn của cùng tòa nhà. (Câu hỏi hay + 1)p0.0000000001
usεr11852 nói Phục hồi Monic

Câu trả lời:


10

Đó là khá nhiều chung chung.

Hãy tưởng tượng có một hiệu ứng nhỏ, nhưng khác không (nghĩa là một số sai lệch so với null mà bài kiểm tra có thể nhận được).

Ở cỡ mẫu nhỏ, cơ hội từ chối sẽ rất gần với tỷ lệ lỗi loại I (nhiễu chi phối hiệu ứng nhỏ).

Như cỡ mẫu lớn ảnh hưởng ước tính nên hội tụ vào đó hiệu lực dân số, trong khi cùng một lúc không chắc chắn của các co lại ảnh hưởng ước tính (thường là như ), cho đến khi khả năng tình huống null đủ gần với hiệu ứng ước tính mà nó vẫn hợp lý trong một mẫu được chọn ngẫu nhiên từ dân số giảm xuống bằng không.n

Điều đó có nghĩa là, với điểm null, cuối cùng sự từ chối trở nên chắc chắn, bởi vì trong hầu hết các tình huống thực tế, về cơ bản luôn luôn có một số sai lệch so với null.


"... bởi vì trong hầu hết tất cả các tình huống thực tế, về cơ bản luôn luôn có một số sai lệch so với null." Vì vậy, nó ở đó và người ta thậm chí có thể nhìn thấy nó. Đó sẽ là một tài sản khá tốt đẹp hay không?
Trilarion

"Null" ở đây đề cập đến giả thuyết null rằng hệ số bằng 0?
Arash Howaida

Tôi nghĩ rằng câu trả lời của Glen_b là chung chung và có thể áp dụng cho bất kỳ thử nghiệm giả thuyết nào với điểm không. Trong bối cảnh hồi quy, có, null là hệ số bằng không. Sự hiểu biết của riêng tôi mặc dù ...
Bayesric

4

Đây không phải là một bằng chứng, nhưng không khó để thể hiện ảnh hưởng của cỡ mẫu trong thực tế. Tôi muốn sử dụng một ví dụ đơn giản từ Wilcox (2009) với những thay đổi nhỏ:

Hãy tưởng tượng rằng một biện pháp chung của lo âu, một tuyên bố nghiên cứu rằng dân số của sinh viên đại học có trung bình tối thiểu 50. Như một kiểm tra về tuyên bố này, cho rằng sinh viên đại học mười được lấy mẫu ngẫu nhiên với mục đích thử nghiệm với α = 0,05H0:μ50α=.05 . (Wilcox, 2009: 143)

Chúng tôi có thể sử dụng kiểm tra t cho phân tích này:

T=X¯μos/n

Giả sử rằng mẫu trung bình ( ) là 45 và mẫu độ lệch chuẩn ( s ) là 11,X¯s

T=455011/10=1.44.

tνv=101P(T1.83)=.05T=1.44

T=455011/100=4.55

v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Thống kê cơ bản: Tìm hiểu các phương pháp thông thường và những hiểu biết hiện đại . Nhà xuất bản Đại học Oxford, Oxford.


1
Cảm ơn câu trả lời. Câu trả lời của bạn cung cấp một bản demo cụ thể về câu trả lời của Glen_b: khi kích thước mẫu rất lớn, độ lệch nhỏ so với null (luôn có độ lệch nhỏ trong thực tế) sẽ được ghi nhận là hiệu ứng đáng kể.
Bayesric

2

Trong hồi quy, đối với mô hình tổng thể, thử nghiệm là trên F. Ở đây

F=RSS1RSS2p2p1RSS2np2
RSS1RSS2

1
Cảm ơn câu trả lời. Tuy nhiên, tôi hoài nghi về "khi N lớn hơn, F lớn hơn"; khi N tăng, RSS2 cũng tăng, tôi không rõ tại sao F sẽ lớn hơn.
Bayesric

@Peter Flom điều này là không thực tế nhưng bạn có thể xem tại đây stats.stackexchange.com/questions 4323518 / Giả
user3022875
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.