Manh mối cho thấy một vấn đề rất phù hợp với hồi quy tuyến tính


12

Tôi đang học hồi quy tuyến tính bằng cách sử dụng Giới thiệu về Phân tích hồi quy tuyến tính của Montgomery, Peck và Vining . Tôi muốn chọn một dự án phân tích dữ liệu.

Tôi có suy nghĩ ngây thơ rằng hồi quy tuyến tính chỉ phù hợp khi người ta nghi ngờ rằng có mối quan hệ chức năng tuyến tính giữa các biến giải thích và biến trả lời. Nhưng không nhiều ứng dụng trong thế giới thực dường như đáp ứng tiêu chí này. Hồi quy tuyến tính là rất phổ biến.

Những khía cạnh của một dự án mà một nhà thống kê có kinh nghiệm sẽ nghĩ về nếu họ ở trong đôi giày của tôi, tìm kiếm một câu hỏi + dữ liệu rất phù hợp cho hồi quy tuyến tính.


3
Tôi đánh giá cao rằng bạn đang học một kỹ thuật và muốn biết nó sẽ hoạt động ở đâu. Nhưng đối với các nhà thống kê có kinh nghiệm (và các nhà khoa học có đầu óc thống kê) thì tình huống hoàn toàn ngược lại: có một vấn đề và dữ liệu và câu hỏi đặt ra là loại mô hình và phương pháp nào là lựa chọn tốt nhất. Bạn sẽ thấy rằng hồi quy tuyến tính như lần đầu tiên gặp phải chỉ là một hương vị; với kinh nghiệm mọi người rất vui khi chuyển sang hồi quy Poisson, hồi quy logit, v.v. và thậm chí tuyến tính trong các tham số có thể dễ dàng được kết hợp với các cấu trúc tổng quát hơn.
Nick Cox

và tất nhiên là chuỗi thời gian mdels khi các quan sát có khả năng tự tương quan
IrishStat

3
Trong thực tế, các mô hình tuyến tính được sử dụng trái và phải ngay cả khi chúng ta biết rằng mối quan hệ là phi tuyến. Hãy nghĩ về một mô hình tuyến tính như là một xấp xỉ bậc một, loại mở rộng Taylor đa biến.
Aksakal

Câu trả lời:


12

Tôi có suy nghĩ ngây thơ rằng hồi quy tuyến tính chỉ phù hợp khi người ta nghi ngờ rằng có mối quan hệ chức năng tuyến tính giữa các biến giải thích và biến trả lời. Nhưng không nhiều ứng dụng trong thế giới thực dường như đáp ứng tiêu chí này.

Đây không phải là một sự hiểu biết chính xác về "tuyến tính" trong "hồi quy tuyến tính" là gì.

yx

yx

Có một ví dụ với một yếu tố dự báo duy nhất ở đây , nhưng các mô hình đường cong thường được trang bị dưới dạng hồi quy bội, trong đó một số chức năng của một yếu tố dự báo (biến x, biến độc lập) có thể xảy ra trong hồi quy và điều này cho phép rất linh hoạt. Điều này bao gồm hồi quy đa thức, ví dụ. Xem một số thảo luận và ví dụ ở đây .

Tuy nhiên, nếu chúng ta cho phép thực tế là các yếu tố dự đoán có thể được biến đổi để phù hợp với các mối quan hệ cong, thì độ tuyến tính trong các tham số cũng tương ứng với độ tuyến tính trong các yếu tố dự đoán được chuyển đổi đó.

Ngoài ra, nhiều vấn đề gần với tuyến tính (ít nhất là trong phạm vi các giá trị được xem xét) hoặc ồn ào đến mức bất kỳ độ cong nhẹ nào đều không thể nhận thấy và một loạt các mô hình đơn giản cho mối quan hệ tăng hoặc giảm có thể xảy ra - và trong trường hợp đó, một lựa chọn tuyến tính có thể vừa đủ và đơn giản nhất để phù hợp và hiểu.

Những khía cạnh của một dự án mà một nhà thống kê có kinh nghiệm sẽ nghĩ về nếu họ ở trong đôi giày của tôi, tìm kiếm một câu hỏi + dữ liệu rất phù hợp cho hồi quy tuyến tính.

Lần duy nhất tôi có thể tìm kiếm một vấn đề để áp dụng hồi quy là khi tôi đang cố gắng tìm một ví dụ tốt cho việc giảng dạy. Khi thực sự ở vị trí làm công việc thống kê (thay vì giải thích hoặc dạy nó), tôi chọn phương pháp phù hợp với câu hỏi quan tâm (và đặc điểm của dữ liệu), thay vì chọn dữ liệu phù hợp với phương pháp.

Hãy tưởng tượng một thợ mộc, ví dụ. Người thợ mộc không nhặt một phát ngôn viên và nói "tôi có thể sử dụng cái này vào việc gì?". Thay vào đó, thợ mộc có một vấn đề cần giải quyết, và khi xem xét các đặc điểm của vấn đề ("tôi đang cố gắng làm gì?" Và "tôi đang sử dụng loại gỗ nào?", V.v ... phù hợp hơn những người khác. Đôi khi các công cụ có sẵn có thể giới hạn hoặc hướng dẫn các lựa chọn (nếu bạn không người phát ngôn, bạn có thể phải thực hiện với một thứ khác ... hoặc bạn có thể phải đi mua một phát ngôn viên).

Tuy nhiên, giả sử rằng bạn có một thống kê bỏ túi giúp bạn và bạn đang cố gắng tìm một vấn đề phù hợp với hồi quy tuyến tính. Sau đó, họ có thể đề nghị bạn xem xét các giả định hồi quy khác nhau và khi chúng quan trọng. Tôi sẽ đề cập đến một vài điều.

E(y|g(x))g(x)gx=xE(y|x*)= =một+bx*

Nếu bạn có thể sử dụng nhiều hồi quy, thậm chí đó không phải là vấn đề chính, vì người ta có thể sử dụng (ví dụ) các hàm hồi quy khối để phù hợp với các mối quan hệ khá chung.

Tôi khuyên bạn nên tránh xa dữ liệu theo thời gian trừ khi bạn hiểu các vấn đề với hồi quy giả; gắn bó với các vấn đề cắt ngang.

xx

x

Nếu bạn quan tâm đến kiểm tra giả thuyết, khoảng tin cậy hoặc khoảng dự đoán, thì nhiều giả định hồi quy thông thường có thể có vấn đề (nhưng có những lựa chọn thay thế không đưa ra các giả định đó, và trong một số trường hợp, ít nhất một số giả định có thể không dù sao cũng đặc biệt quan trọng).

Vì vậy, một điều ít nhất là cố gắng nhận thức được là những giả định đó được tạo ra trong việc tạo ra các thủ tục suy luận mà bạn đang sử dụng và tầm quan trọng của chúng trong vấn đề cụ thể của bạn (ví dụ như khi thực hiện các bài kiểm tra giả thuyết thông thường, tính quy tắc là một giả định, nhưng trong các mẫu lớn, giả định đó có thể không quan trọng, mặt khác, giả định về phương sai không đổi có thể là vấn đề nhiều hơn).

Có một số bài viết thảo luận về các giả định của hồi quy, và một số bài viết thảo luận khi nào chúng cần được thực hiện, và chúng có thể quan trọng đến mức nào, và thậm chí là xem xét thứ tự nào.


Câu trả lời hay, nhưng tôi nghĩ nó không trả lời hoàn toàn câu hỏi. Những khía cạnh của một dự án mà một nhà thống kê có kinh nghiệm sẽ nghĩ về nếu họ ở trong đôi giày của tôi, tìm kiếm một câu hỏi + dữ liệu rất phù hợp cho hồi quy tuyến tính. vẫn chưa được trả lời.
Dawny33

@ Dawny33 Tôi chắc chắn có ý định bổ sung thêm vào điều này sau - một số nội dung xuất hiện trong khi tôi đang gõ khiến tôi không thể viết câu trả lời đầy đủ mà tôi dự định ban đầu; Tôi đã có thời gian chỉ để hoàn thành câu tôi đã nói, và bây giờ có thể không quay lại nó trong một hoặc hai ngày. Quả thực tôi thậm chí không có thời gian để sửa tất cả các lỗi chính tả trong đó. (Trong khi đó, bạn không nên ngần ngại đăng câu trả lời.) Mặt khác, việc chỉ ra rằng tiền đề của câu hỏi còn thiếu sót có thể dẫn đến việc OP muốn hỏi những điều khác với dự định ban đầu (thường là khi tiền đề trung tâm thất bại)
Glen_b -Reinstate Monica

Ví dụ, tôi dự đoán một câu hỏi mới có thể phát sinh sẽ là "bạn có một ví dụ không?".
Glen_b -Reinstate Monica

@Glen_b cảm ơn. "Tuyến tính" dùng để chỉ mô hình là tuyến tính trong các tham số . Xin lỗi nếu tôi viết sai, tôi không có ý ám chỉ khác. Từ khóa là chức năng .
cwackers

@Glen_b họ có thể đề nghị bạn xem xét các giả định hồi quy khác nhau . Đồng ý lại. Tôi đã không rõ ràng về điều này, nhưng Q của tôi là về kiến ​​thức tên miền. Tôi đang tự hỏi một nhà thống kê có kinh nghiệm sẽ tìm kiếm gì trong hệ thống đang được xem xét để phân tích LR, do đó đề xuất ngây thơ của tôi về việc có các biến hồi quy liên quan tuyến tính và chức năng với phản hồi và mối quan hệ đồng thời với phản hồi là phụ gia.
cwackers

4

YYYYYX) tốt. Qua nhiều năm kinh nghiệm, bạn sẽ thấy rằng một số biến số nhất định như huyết áp có xu hướng hoạt động tốt trong mô hình tuyến tính và các biến số khác (ví dụ: đo hóa học máu) thì không.

Tất cả điều này trái ngược với các mô hình bán tổng thể chỉ giả định YY


Cảm ơn đã chỉ ra khía cạnh của việc cư xử tốt. Tôi đã nghĩ về sự biến đổi của các biến hồi quy, nhưng không phải là biến phản ứng. Tuy nhiên, tôi thấy bây giờ làm thế nào sau này có thể được sử dụng để định hình lại sự phân phối của phần dư. Cảm ơn đã điền vào một số hình ảnh. Một bài viết rất hữu ích.
cwackers

3

@Glen_b đã đưa ra một câu trả lời rất hay nhưng, như đã lưu ý, đã không hoàn thành.

Vì vậy, như câu hỏi cuối cùng của bạn:

Một nhà thống kê có kinh nghiệm, tôi nghĩ, sẽ không hỏi câu hỏi này. Như Glen lưu ý, vấn đề chỉ ra các công cụ sử dụng, không phải là cách khác.

Nếu tôi đang cố gắng học một kỹ thuật như hồi quy tuyến tính, tôi sẽ sử dụng các ví dụ đã hoạt động - nhưng các kỹ thuật có dữ liệu thực, không tạo ra dữ liệu được thiết kế để làm cho mọi thứ dễ dàng. Một cuốn sách như Mô hình hồi quy theo ví dụ có thể cung cấp hướng dẫn.

Tuy nhiên, một trong những bước đầu tiên để xem xét vấn đề hồi quy là quyết định xem liệu hồi quy tuyến tính có thực sự phù hợp hay không.


Một nhà thống kê có kinh nghiệm, tôi nghĩ, sẽ không hỏi câu hỏi này. vâng, đó là lý do tại sao tôi đủ điều kiện Q với "trong đôi giày của tôi". Cảm ơn rất nhiều cho các khuyến nghị cuốn sách. Tôi sẽ theo dõi một bản sao. Một loạt các ví dụ sẽ giúp ít nhất là một nửa câu chuyện, với các ví dụ phản biện là nửa kia.
cwackers

Ahhh, một trích dẫn! từ trang 2 của ấn bản thứ 4: Chúng tôi mời độc giả suy nghĩ về các câu hỏi (trong lĩnh vực công việc, nghiên cứu hoặc sở thích của họ) có thể được giải quyết bằng phân tích hồi quy.
cwackers

0

Nhiều câu trả lời đã chạm vào các giả định cần phải đáp ứng: độ tuyến tính trong phần dư, tính đồng nhất của phương sai trong phạm vi của yếu tố dự đoán, không có giá trị cực đoan nào có thể ảnh hưởng đến đường hồi quy và quan sát độc lập. Các lô dư khá dễ sản xuất với hầu hết các chương trình hồi quy và một số gói cung cấp một số tự động (SAS).

Một người nói về việc biến đổi y. Đây là thực tế phổ biến trong một số lĩnh vực, nhưng nó là một thực tiễn dẫn đến kết quả sai lệch và có thể không thể giải thích. Xu hướng hiển thị khi bạn cố gắng chuyển đổi kết quả thành số liệu ban đầu. Tốt hơn là chuyển sang một loại hồi quy khác có mô hình dư phù hợp với các giả định phân phối của phần dư. Xem chương 3 trong phần Giới thiệu về Phân tích dữ liệu phân loại của Agresti, nơi ông giới thiệu khái niệm về liên kết. Một số sách giáo khoa hồi quy cũng giới thiệu mô hình tuyến tính tổng quát.


Tôi không chia sẻ sự bi quan về sự biến đổi. Sau khi tất cả các chuyển đổi ban đầu là khá tùy ý. Nếu bạn biến đổi và nhận phần dư với phân phối đối xứng, biến đổi ngược của các giá trị dự đoán là trung vị dự đoán trên thang đo ban đầu. Dự đoán trung bình là khá hữu ích. Nếu bạn muốn có được phương tiện dự đoán trên thang đo ban đầu, bạn có thể sử dụng công cụ ước tính bôi nhọ.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.