Tại sao các hồi quy không liên quan trở nên có ý nghĩa thống kê trong các mẫu lớn?


8

Tôi đang cố gắng để hiểu rõ hơn về ý nghĩa thống kê, kích thước hiệu ứng và những thứ tương tự.

Tôi có một nhận thức (có lẽ là sai) rằng ngay cả các hồi quy không liên quan thường trở nên có ý nghĩa thống kê trong các mẫu lớn . Bởi không liên quan tôi có nghĩa là không có giải thích về vấn đề chủ đề tại sao bộ hồi quy nên liên quan đến biến phụ thuộc. Do đó, sự không liên quan trong bài này là một khái niệm chủ đề thuần túy và không phải là một khái niệm thống kê.

Tôi biết rằng một biến hồi quy sẽ có ý nghĩa thống kê với một mẫu đủ lớn trừ khi hiệu ứng dân số chính xác bằng không (như được thảo luận ở đây ). Do đó, một hồi quy không liên quan xuất hiện có ý nghĩa thống kê trong một mẫu lớn có kích thước hiệu ứng khác không trong dân số.

Câu hỏi:

  1. Làm thế nào mà một hồi quy không liên quan hóa ra có ý nghĩa thống kê?
  2. Tôi có nên tìm giải thích về vấn đề chủ đề (tức là cố gắng từ chối không liên quan) hay đây là một hiện tượng thống kê?

Đây là phần tiếp theo của một bài đăng mà tôi đã cố gắng làm rõ cách chữa hiệu ứng này. Trong khi đó, ở đây tôi đang hỏi tại sao nó xảy ra ở nơi đầu tiên.


Điều này vẫn xuất hiện để nhân đôi bài viết trước của bạn, mà chính nó đã được trả lời. Một câu trả lời cho bản sao của bài đăng đó nói rằng "giá trị p là tùy ý, trong đó bạn có thể làm cho chúng nhỏ như bạn muốn bằng cách thu thập đủ dữ liệu." Không phải địa chỉ đó cả # 1 và # 2 sao?
whuber

1
Cảm ơn @whuber. Tôi đã cố gắng làm rõ rằng bài đăng này giải quyết một câu hỏi mới, khác biệt. Tôi đã hiểu điều gì xảy ra nếu thực sự có ảnh hưởng trong dân số (chủ đề của bài đăng khác và bài cũ hơn nó trùng lặp). Câu hỏi của tôi ở đây là (i) là lý do cho ý nghĩa thống kê thường xuyên của các hồi quy dường như không liên quan luôn giống nhau, tức là thực sự có hiệu ứng dân số; (ii) nếu không, thì lý do thay thế là gì; (iii) nếu có, thì các tác động trong dân số thường là do chủ đề hoặc do tình cờ. Tôi hy vọng điều này làm cho nó rõ ràng hơn.
Richard Hardy

Câu trả lời:


9

Câu hỏi:

Làm thế nào mà một hồi quy không liên quan hóa ra có ý nghĩa thống kê?

Tôi nghĩ thật hữu ích khi nghĩ về những gì xảy ra khi kích thước mẫu của bạn tiếp cận với dân số. Kiểm tra ý nghĩa có nghĩa là cung cấp cho bạn một ý tưởng về việc không tồn tại một hiệu ứng trong dân số. Đây là lý do tại sao khi làm việc với dữ liệu điều tra dân số (khảo sát dân số), kiểm tra ý nghĩa là vô nghĩa (bởi vì, bạn đang cố gắng khái quát hóa cái gì?).

Với ý nghĩ đó, "một hiệu ứng trong dân số" nghĩa là gì? Nó đơn giản có nghĩa là bất kỳ mối quan hệ giữa các biến trong dân số, bất kể nhỏ đến mức nào (có thể là chênh lệch 1 điểm hoặc 1 người), ngay cả khi mối quan hệ đó là do cơ hội và ngẫu nhiên trong vũ trụ.

Do đó, khi mẫu của bạn tiếp cận với quy mô dân số, các thử nghiệm quan trọng sẽ ngày càng ít có ý nghĩa bởi vì bất kỳ sự khác biệt nào cũng sẽ "có ý nghĩa thống kê". Những gì bạn sẽ quan tâm hơn sau đó là kích thước hiệu ứng - tương tự như "thực tế có ý nghĩa".

Tôi có nên tìm giải thích về vấn đề chủ đề (tức là cố gắng từ chối không liên quan) hay đây là một hiện tượng thống kê?

Đó là một hiện tượng - bạn nên xem kích thước hiệu ứng.


Bạn đề cập đến một cái gì đó tôi đang tìm kiếm bằng trực giác nhưng đã không thành công. Ảnh hưởng trong dân số có thể là bất kỳ mối quan hệ nào giữa các biến trong dân số, bất kể nhỏ đến mức nào (có thể là chênh lệch 1 điểm hoặc 1 người), ngay cả khi mối quan hệ đó là do cơ hội và ngẫu nhiên trong vũ trụ. Nếu những hiệu ứng này là do tình cờ, tôi không cần phải tìm bất kỳ lời giải thích vấn đề nào. Cảm ơn!
Richard Hardy

Nhân tiện, lập luận của bạn có ý nghĩa trực quan trong trường hợp một người đang thử nghiệm, ví dụ như sự bình đẳng về phương tiện hoặc liệu hiệu quả điều trị có chính xác bằng không. Nhưng những gì về tầm quan trọng của hồi quy trong hồi quy bội? Có lẽ bạn có thể nêu quan điểm của bạn trong bối cảnh hồi quy để tôi có thể dễ dàng theo dõi hơn?
Richard Hardy

1
Hmm, tôi nghĩ rằng sự tương tự có liên quan trực tiếp. Ví dụ, nếu bạn tưởng tượng tiêu thụ sô cô la không ảnh hưởng đến tuổi thọ, sau khi điều chỉnh các biến kiểm soát như số lượng tập thể dục, v.v., nhưng một người trong dân số 6 tỷ người sẽ xảy ra ngoại lệ, sẽ có một dân số " ảnh hưởng "của việc tiêu thụ sô cô la đến tuổi thọ, nhưng kích thước của hiệu ứng sẽ rất nhỏ. Hy vọng rằng ví dụ đó hữu ích, nhưng tôi gặp khó khăn khi nghĩ hệ số hồi quy sẽ khác với bất kỳ tham số nào khác.
QxV

3
Tôi hơi bối rối về việc tại sao kiểm tra ý nghĩa sẽ vô nghĩa nếu bạn lấy mẫu toàn bộ "dân số" (nếu theo dân số bạn có nghĩa là dân số thực tế). Nếu tôi muốn kiểm tra một cái gì đó về mọi người và mẫu của tôi là tất cả 7 tỷ người, thì chắc chắn tôi vẫn có thể chạy thử nghiệm có ý nghĩa và nó có thể từ chối hoặc không từ chối giả thuyết khống. Tôi không thấy lý do tại sao nó nên vô nghĩa. "Tổng quát hóa" mà bạn đề cập có thể đề cập đến ví dụ cho các thế hệ tương lai hoặc một cái gì đó. (CC @Richard.)
amip

1
@amoeba: Tôi nghĩ rằng thử nghiệm ý nghĩa thống kê chỉ có ý nghĩa đối với một mẫu chứ không phải dân số. Một khi chúng ta quan sát toàn bộ dân số, tất cả kiến ​​thức của chúng ta đều hoàn hảo: không có sự không chắc chắn về ước tính tham số hoặc tương tự. Chúng tôi có thể đo lường bất kỳ mối quan hệ chính xác. (Điều đó không có nghĩa là chúng ta sẽ có một lời giải thích vấn đề hoàn hảo cho tất cả các mối quan hệ, nhưng đó là vấn đề quan trọng.) Trong khi đó, nếu bạn khái quát cho các thế hệ tương lai, điều đó sẽ khiến dân số hiện tại chỉ là một mẫu từ {hiện tại + tương lai} dân số. Sau đó, kiểm tra ý nghĩa thống kê đã trở lại trong trò chơi.
Richard Hardy

2

Ngay cả khi kích thước mẫu của bạn không tiếp cận với dân số của bạn, các hiệu ứng nhỏ sẽ trở nên đáng kể trong các mẫu lớn. Đây là hệ quả của ý nghĩa thống kê có nghĩa là gì:

Nếu, trong dân số mà mẫu này được lấy, giả thuyết khống là đúng, thì có phải (XX%) có khả năng chúng ta sẽ có được một thống kê kiểm tra ít nhất là lớn như vậy trong một mẫu có kích thước chúng ta có không?

Nếu câu hỏi của bạn là điều gì đó về tất cả mọi người trên Trái đất, thì nếu bạn lấy một mẫu 1.000.000 (không gần 7.000.000.000) thì các hiệu ứng rất nhỏ sẽ rất đáng kể, bởi vì rất khó tìm thấy số liệu thống kê thử nghiệm như vậy trong các mẫu lớn khi null là đúng .

Có rất nhiều vấn đề với thử nghiệm quan trọng, được thảo luận ở nhiều nơi. Đây là một trong số họ. "Cách chữa" là xem xét kích thước hiệu ứng và khoảng tin cậy.


1
Cảm ơn! Tôi nghĩ rằng tôi hiểu cơ chế làm thế nào những hiệu ứng nhỏ bé đó biến thành những hiệu ứng có ý nghĩa thống kê được đưa ra một mẫu đủ lớn. Câu hỏi cốt lõi là, tại sao những hiệu ứng nhỏ bé đó có trong dân số bắt đầu? Có phải họ đến chủ yếu là do "sự ngẫu nhiên trong vũ trụ"? Hay họ đại diện cho một số quan hệ chủ đề thực tế (không phải do tình cờ) mà chúng ta có xu hướng bỏ bê khi chúng ta nghĩ về họ từ quan điểm chủ đề?
Richard Hardy

4
Tôi sẽ nói sau.
Ben Bolker

@BenBolker Bạn có thể vui lòng cung cấp một số lý do? Điều đó có thể rất hữu ích.
Richard Hardy

3
Tôi đồng ý với Ben. Hầu như bất kỳ hai biến sẽ liên quan đến một mức độ nào đó; và những cái mà chúng tôi gắn bó với các mô hình có nhiều khả năng liên quan. Chúng tôi không (và không nên) chỉ ném rác vào các mô hình.
Peter Flom

2

Tôi đã mượn một số cái nhìn sâu sắc từ @QxV để đưa ra lời giải thích về sự hiện diện của hiệu ứng dân số ngay cả khi kiến ​​thức về chủ đề cho thấy không có hiệu ứng như vậy.

yxyxyrealizedxrealizedP(yrealizedxrealized)=0

Khi một hiệu ứng dân số tồn tại, đó là vấn đề về kích thước mẫu khi chúng ta sẽ phát hiện ra nó trong mẫu và khi nào nó sẽ trở nên có ý nghĩa thống kê.


2

Ngoài các câu trả lời xuất sắc đã được đăng, tôi sẽ thử từ một quan điểm khác. Tất cả các mô hình là gần đúng, trong một số ý nghĩa ... Nhìn vào một số mô hình hồi quy và một số biến không liên quan là đáng kể. Điều gì có thể giải thích nó?

  1. Có lẽ điều đó không liên quan, sự đồng thuận khoa học ngày nay về vấn đề đó chỉ là sai . Ngoài ra:

  2. Nó có thể là một stand-in hoặc proxy cho một số biến bị bỏ qua có liên quan và tương quan với biến không liên quan.

  3. Một số biến có liên quan, được bao gồm tuyến tính trong mô hình, có thể hoạt động phi tuyến tính và biến không liên quan của bạn có thể là điểm thay thế cho phần đó của biến có liên quan.

  4. Một số tương tác giữa hai biến có liên quan là quan trọng, nhưng không được bao gồm trong mô hình. Biến không liên quan của bạn có thể là điểm thay thế cho tương tác bị bỏ qua đó.

  5. Biến không liên quan có thể chỉ tương quan rất cao với một số biến quan trọng, dẫn đến các hệ số tương quan nghịch. Điều này có thể quan trọng đặc biệt nếu có lỗi đo lường trong các biến này.

  6. Có thể có một số quan sát với đòn bẩy rất cao, dẫn đến những ước tính kỳ lạ.

Chắc chắn những người khác ... một điểm quan trọng là mô hình hồi quy tuyến tính có thể là một xấp xỉ rất tốt với một mẫu nhỏ, chỉ các hiệu ứng lớn sẽ là đáng kể. Nhưng một mẫu lớn hơn sẽ dẫn đến phương sai thấp hơn, nhưng nó không thể làm giảm độ lệch do xấp xỉ . Vì vậy, với các mẫu lớn hơn, những bất cập của mô hình trở nên rõ ràng và cuối cùng sẽ chiếm ưu thế so với phương sai.


-1

Các hồi quy không liên quan không trở nên có ý nghĩa thống kê khi tăng kích thước mẫu. Hãy thử đoạn mã sau trong R.

y <- rnorm (10000000)

x <- rnorm (10000000)

tóm tắt (lm (y ~ x))


1
Bạn đã lặp lại mã đó, giả sử, 1000 lần (hoặc hơn) và xem điều gì sẽ xảy ra?
kjetil b halvorsen

Bạn sẽ có tỷ lệ dương tính giả 5%, như mong đợi. Nhưng điều tương tự cũng thu được bất kể cỡ mẫu
David

Xem câu trả lời của tôi cho một quan điểm khác
kjetil b halvorsen

Tôi hiểu bài đăng của bạn và đối với các mối quan hệ "loại tuyến tính" thì đó là sự thật (vì nó là cho các relatinoships "thực sự tuyến tính") Tuy nhiên, trong bạn thay đổi 10000000 cho 10 trong mã của tôi, giờ đây bạn không có khả năng nhận được dương tính giả trong bài kiểm tra F
David

Cảm ơn bạn vì câu trả lời! Mặc dù chính nó, tôi nghĩ rằng nó bỏ lỡ điểm của câu hỏi. Câu hỏi được thúc đẩy bởi sự quan sát rằng chúng ta thường tìm thấy các mối quan hệ có ý nghĩa thống kê mà không có giải thích vấn đề.
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.