Hiểu hồi quy - vai trò của mô hình


46

Làm thế nào một mô hình hồi quy có thể được sử dụng nếu bạn không biết hàm bạn đang cố lấy các tham số cho?

Tôi thấy một nghiên cứu nói rằng những bà mẹ cho con bú ít gặp phải bệnh tiểu đường trong cuộc sống sau này. Nghiên cứu được lấy từ một cuộc khảo sát với khoảng 1000 bà mẹ và được kiểm soát các yếu tố linh tinh và một mô hình loglinear đã được sử dụng.

Bây giờ điều này có nghĩa là họ nghĩ rằng tất cả các yếu tố xác định khả năng bệnh tiểu đường phù hợp với một chức năng tốt (có lẽ theo cấp số nhân) chuyển dịch gọn gàng thành một mô hình tuyến tính với các bản ghi và liệu người phụ nữ cho con bú có trở nên có ý nghĩa thống kê không?

Tôi đang thiếu một cái gì đó tôi chắc chắn, nhưng làm thế quái nào họ biết mô hình?


Cảm ơn tất cả các bạn rất nhiều. Tôi muốn dành một chút thời gian suy nghĩ về câu trả lời của bạn và có lẽ, nếu bạn không phiền tôi hãy thử viết chúng theo cách của tôi cho quan điểm của bạn. Tôi thích mô tả về quá trình này đến từ loạt Taylor. Tôi đã phải tiếp thu kiến ​​thức về hồi quy một cách ngớ ngẩn và thông qua Kinh tế và Toán học cho các nhà kinh tế và mối liên hệ với Taylor là đáng chú ý bởi sự vắng mặt của nó.
Jonathan Andrew

Tôi đã hợp nhất các tài khoản của bạn; nhưng xin vui lòng, đăng ký tại đây stats.stackexchange.com/users/login để bạn không bị mất lần nữa.

Câu trả lời:


43

Nó giúp xem hồi quy như một xấp xỉ tuyến tính của dạng thực. Giả sử mối quan hệ thực sự là

y=f(x1,...,xk)

với các yếu tố giải thích cho . Sau đó, thứ tự đầu tiên Taylor xấp xỉ quanh 0 là:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

trong đó là lỗi xấp xỉ. Bây giờ biểu thị và và bạn có hồi quy:α 0 = f ( 0 , . . . , 0 ) α k = f ( 0 )εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

Vì vậy, mặc dù bạn không biết mối quan hệ thực sự, nếu nhỏ, bạn có được xấp xỉ, từ đó bạn vẫn có thể suy ra kết luận hữu ích.ε


1
Xin chào, lời giải thích rất hay nhưng tôi không quản lý để hiểu phần "sigma" trong bản mở rộng sê-ri taylor. Làm thế nào để bạn giảm phương trình này được tìm thấy ở đây: mathworld.wolfram.com/TaylorSeries.html trong "Một chuỗi Taylor của một hàm thực trong hai biến" cho bạn?
Arun

1
@Arun, lấy trong công thức (32). n=1
mpiktas

18

Mặt khác của câu trả lời, bổ sung cho câu trả lời của mpiktas nhưng không được đề cập cho đến nay, là:

"Họ không, nhưng ngay khi họ giả định một số cấu trúc mô hình, họ có thể kiểm tra nó dựa trên dữ liệu".

Hai điều cơ bản có thể sai là: Hình thức của hàm, ví dụ: nó thậm chí không tuyến tính trong các bản ghi. Vì vậy, bạn bắt đầu bằng cách vẽ một phần dư thích hợp so với các giá trị dự kiến. Hoặc sự lựa chọn phân phối có điều kiện , ví dụ: số lượng quan sát được sử dụng quá mức so với Poisson. Vì vậy, bạn sẽ kiểm tra phiên bản nhị thức âm tính của cùng một mô hình hoặc xem liệu các đồng biến phụ có tính đến biến thể bổ sung không.

Bạn cũng muốn kiểm tra các ngoại lệ, các quan sát có ảnh hưởng và một loạt các thứ khác. Một nơi hợp lý để đọc về việc kiểm tra các loại vấn đề mô hình này là ch.5 của Cameron và Trivingi 1998. (Chắc chắn có một nơi tốt hơn cho các nhà nghiên cứu định hướng dịch tễ học bắt đầu - có lẽ dân gian khác có thể đề xuất nó.)

Nếu các chẩn đoán này cho thấy mô hình không phù hợp với dữ liệu, bạn sẽ thay đổi khía cạnh liên quan của mô hình và bắt đầu lại toàn bộ quá trình.


1
+1 Đây là chìa khóa giúp tất cả không bị vẫy tay: bạn không biết, nhưng bạn thử một cái gì đó và sau đó xem mức độ phù hợp của nó và cách nó không khớp với dữ liệu của bạn.
Wayne

15

Một câu hỏi đầu tiên tuyệt vời! Tôi đồng ý với câu trả lời của mpiktas, tức là câu trả lời ngắn gọn là "họ không, nhưng họ hy vọng sẽ có một phép tính gần đúng với mô hình đúng đưa ra câu trả lời đúng".

Trong thuật ngữ dịch tễ học, sự không chắc chắn của mô hình này là một nguồn của cái gọi là " nhiễu loạn dư ". Xem trang của Steve Simon 'Thế nào là bối rối?' để có một mô tả ngắn gọn, hoặc bài báo Thống kê về Y học của Heiko Becher năm 1992 (đăng ký yêu cầu) để điều trị lâu hơn, toán học hơn, hoặc bài báo gần đây hơn của Fewell, Davey Smith & Sterne trên Tạp chí Dịch tễ học Hoa Kỳ (đăng ký lại ).

Đây là một lý do mà dịch tễ học về các hiệu ứng nhỏ là khó khăn và các phát hiện thường gây tranh cãi - nếu kích thước hiệu ứng đo được là nhỏ, khó có thể loại trừ nhiễu gây nhiễu còn lại hoặc các nguồn sai lệch khác như lời giải thích.


1
Tôi cho rằng mô hình sai chính tả - dường như là điều mà OP đang nói đến, có phần khác biệt với sự nhầm lẫn còn sót lại. Bối rối đòi hỏi một đồng biến. Bạn có thể làm hỏng một hồi quy chỉ với sai chính tả của một tiếp xúc và kết quả.
Fomite

13

Có một câu nói nổi tiếng "Về cơ bản, tất cả các mô hình đều sai, nhưng một số là hữu ích" của George Box . Khi phù hợp với các mô hình như thế này, chúng tôi cố gắng (hoặc nên) suy nghĩ về quy trình tạo dữ liệu và thế giới thực, mối quan hệ giữa phản hồi và hiệp phương sai. Chúng tôi cố gắng thể hiện các mối quan hệ này trong một mô hình phù hợp với dữ liệu. Hoặc để nó theo một cách khác, phù hợp với dữ liệu. Như một mô hình thực nghiệm được sản xuất.

Liệu nó có hữu ích hay không được xác định sau - liệu nó có đưa ra dự đoán tốt, đáng tin cậy, ví dụ, đối với phụ nữ không được sử dụng để phù hợp với mô hình? Các hệ số mô hình có thể giải thích và sử dụng khoa học? Là kích thước hiệu ứng có ý nghĩa?


3

Các câu trả lời bạn đã nhận được là những câu trả lời xuất sắc, nhưng tôi sẽ đưa ra một câu trả lời (hy vọng) bổ sung theo quan điểm của một nhà dịch tễ học. Tôi thực sự có ba suy nghĩ về điều này:

Đầu tiên, họ không. Xem thêm: Tất cả các mô hình đều sai, một số mô hình hữu ích. Mục tiêu là không tạo ra một con số duy nhất, dứt khoát được coi là "sự thật" của một chức năng cơ bản. Mục tiêu là đưa ra ước tính của hàm đó, với định lượng độ không đảm bảo xung quanh nó, đó là một xấp xỉ hợp lý và hữu ích của hàm bên dưới.

Điều này đặc biệt đúng đối với các biện pháp hiệu quả lớn. Thông báo "lấy đi" từ một nghiên cứu cho thấy rủi ro tương đối 3.0 không thực sự khác biệt nếu mối quan hệ "thật" là 2,5 hoặc 3,2. Như @onestop đã đề cập, điều này trở nên khó khăn hơn với các ước tính đo lường hiệu ứng nhỏ, bởi vì sự khác biệt giữa 0,9, 1,0 và 1,1 có thể rất lớn từ quan điểm chính sách và sức khỏe.

Thứ hai, có một quá trình ẩn trong hầu hết các bài báo Dịch tễ học. Đó là quá trình lựa chọn mô hình thực tế . Chúng tôi có xu hướng báo cáo mô hình mà chúng tôi đã kết thúc, không phải tất cả các mô hình mà chúng tôi đã xem xét (bởi vì điều đó sẽ gây mệt mỏi, nếu không có gì khác). Có một loạt các bước xây dựng mô hình, sơ đồ khái niệm, chẩn đoán, thống kê phù hợp, phân tích độ nhạy, chửi rủa máy tính và viết nguệch ngoạc trên bảng trắng liên quan đến phân tích các nghiên cứu quan sát nhỏ.

Bởi vì trong khi bạn đang đưa ra các giả định, nhiều trong số chúng cũng là các giả định bạn có thể kiểm tra.

Thứ ba, đôi khi chúng ta không. Và sau đó chúng tôi đi đến các hội nghị và tranh luận với nhau về điều đó;)

Nếu bạn quan tâm đến các loại hạt và bu lông của Dịch tễ học như một lĩnh vực và cách chúng tôi thực hiện nghiên cứu, thì nơi tốt nhất để bắt đầu có lẽ là Phiên bản thứ 3 hiện đại của Rothman, Greenland và Lash. Đây là một tổng quan vừa phải về mặt kỹ thuật và rất tốt về cách tiến hành nghiên cứu Epi.


1
+1, đây là một bổ sung tốt cho những gì ở đây. Thật tuyệt khi thấy rằng một đóng góp hữu ích vẫn có thể được thực hiện, ngay cả sau khi rất nhiều những điều tốt đẹp khác đã tồn tại.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.