Hồi quy tuyến tính có thể có ý nghĩa nếu dữ liệu không tuyến tính?


11

Tôi đã thực hiện hồi quy tuyến tính với kết quả đáng kể, tuy nhiên khi tôi kiểm tra biểu đồ phân tán cho tuyến tính, tôi không tin rằng dữ liệu là tuyến tính.

Có cách nào khác để kiểm tra tính tuyến tính mà không cần kiểm tra biểu đồ phân tán không?

Hồi quy tuyến tính có thể có ý nghĩa nếu nó không tuyến tính?

[Đã chỉnh sửa để bao gồm các biểu đồ phân tán]

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây


3
Có thể có nhiều cách hiểu về các câu hỏi và nhiều câu trả lời (nhưng về cơ bản câu trả lời là có trong mọi trường hợp, và như bằng chứng kết quả của bạn, điều đó chắc chắn là có thể trong trường hợp của bạn). Bạn có thể hiển thị các scatterplot? Sau đó, những người khác có thể hiểu ý của bạn là gì bởi dữ liệu không phải là tuyến tính và theo nghĩa nào thì kết quả quan trọng hóa ra lại có mặt.
Sextus Empiricus

5
Xem stats.stackexchange.com/search?q=anscombe+quartet để biết tập hợp các ví dụ đơn giản cổ điển. Tại stats.stackexchange.com/a/152034/919 Tôi đã đăng một thuật toán có khả năng xây dựng các ví dụ cho phù hợp với hầu hết mọi tình huống bạn có thể nghĩ tới.
whuber

Tất nhiên bỏ qua nolineararity, ngay cả khi xu hướng chung là tuyến tính có thể dẫn đến suy luận bị tổn hại trong ứng dụng. Ví dụ: nếu mối quan hệ thực sự là giảm mạnh, sau đó làm phẳng trên , thì cách hiểu tuyến tính là giảm một số lượng trung bình trên tất cả các giá trị của , trong khi mối quan hệ thực sự là giảm mạnh hơn nhiều so với phạm vi hẹp hơn nhiều và trên phạm vi còn lại ít nhiều không bị ảnh hưởng. Việc giải thích tuyến tính sẽ không tốt cho các hiệu ứng điều trị lâm sàng hoặc cho các hiệu ứng chi tiêu chính sách.X Y X Y X XYXYXYXX
Alexis

Ngoài ra: hồi quy tuyến tính không có ý nghĩa hay không, mà là các thử nghiệm về, ví dụ, , , , có thể có ý nghĩa hay không, với một mức độ độc lập. H 0 : β x = c H 0 : F = c H 0 : R 2 = cH0:β0=cH0:βx=cH0:F=cH0:R2=c
Alexis

Cảm ơn bạn đã phản hồi và xin lỗi vì phản hồi chậm - Tôi đã rời xa công nghệ! Tôi đã chỉnh sửa bài đăng để đưa vào các biểu đồ tán xạ cho những hồi quy có ý nghĩa. Bất kỳ lời khuyên về cách tiến hành sẽ được đánh giá rất cao.
IntoTheBlue

Câu trả lời:


18

Các mối quan hệ phi tuyến đơn điệu sẽ hầu như luôn hiển thị đáng kể khi mô hình hóa như mô hình tuyến tính. Nếu mối quan hệ là phi tuyến và không đơn điệu thì nó phụ thuộc vào mẫu.

y=lnxy=x3y=x2y=sinx

x[1,1]y=sinxyx

nhập mô tả hình ảnh ở đây

x[0,π]nhập mô tả hình ảnh ở đây


13
+1. Nhưng xin lưu ý rằng thuật ngữ chính xác là "đơn điệu." "Đơn điệu" có nghĩa là buồn tẻ và tẻ nhạt thông qua sự lặp lại.
whuber

22
lnxsinx

+1 Tôi cũng đề nghị xác định nghĩa đơn điệu là gì.
Đánh dấu trắng

Cảm ơn, tôi đã cập nhật bài viết để bao gồm các biểu đồ phân tán. Bất kỳ lời khuyên về cách tiến hành sẽ được đánh giá rất cao.
IntoTheBlue

(xx¯)2

3

Đúng, Aksakal đúng và hồi quy tuyến tính có thể có ý nghĩa nếu mối quan hệ thực sự là phi tuyến tính. Hồi quy tuyến tính tìm thấy một dòng phù hợp nhất thông qua dữ liệu của bạn và chỉ cần kiểm tra xem độ dốc có khác biệt đáng kể so với 0 hay không.

Trước khi cố gắng tìm một bài kiểm tra thống kê cho tính phi tuyến tính, tôi sẽ đề nghị phản ánh về những gì bạn muốn mô hình hóa trước tiên. Bạn có mong đợi một mối quan hệ tuyến tính (phi tuyến tính) giữa hai biến của bạn? Chính xác thì bạn đang cố gắng khám phá điều gì? Nếu có lý khi cho rằng có một mối quan hệ phi tuyến tính, ví dụ như giữa tốc độ xe và khoảng cách phanh, thì bạn có thể thêm các thuật ngữ bình phương (hoặc các biến đổi khác) của biến độc lập.

Ngoài ra, kiểm tra trực quan dữ liệu của bạn (scatterplot) là một phương pháp rất mạnh mẽ và là bước đầu tiên thiết yếu trong phân tích của bạn.


YX

Ngoài ra: Chào mừng bạn đến với CV, Pawel!
Alexis

2
@Alexis Bạn đúng rồi. Nhưng việc thêm một thuật ngữ bậc hai vẫn là một khuyến nghị thường thấy trong một số văn bản như là một cách nhanh chóng và bẩn thỉu để kiểm tra tính phi tuyến tính (hiểu rằng không ai cho rằng đó là cách duy nhất hoặc thậm chí là cách đầu tiên để mô hình hóa phi tuyến tính), vì vậy tôi không hoàn toàn quan tâm đến đoạn văn đó.
whuber

+1 @whuber Đáng buồn thay, tôi đã gặp nhiều nhà nghiên cứu, sinh viên và giảng viên thực hành thêm một thuật ngữ bậc hai khi kiểm tra đầu tiên ngoài nhãn cầu phân tán là "cách kiểm tra tính phi tuyến", với kết quả âm tính được hiểu là "tuyến tính là đủ ". (Các thuật ngữ bậc hai thực sự có thể hữu ích và tôi đã sử dụng chúng trong nghiên cứu của riêng mình. :) Tôi đoán quan điểm của tôi về "nhanh và bẩn" là những thứ được dạy dễ dàng, trở nên khắt khe đối với đại đa số các nhà nghiên cứu. .. Tôi nghĩ rằng hồi quy không đối xứng là "dễ dàng" như tuyến tính và là một công cụ tốt hơn để khám phá.
Alexis

@Alexis Cảm ơn bạn. Tôi nghĩ rằng bạn đã hiểu lầm tôi. Tôi không khuyên bạn nên thêm các thuật ngữ bình phương để kiểm tra tính phi tuyến tính nhưng chắc chắn có thể có các trường hợp cho các thuật ngữ bình phương (hoặc các biến đổi khác. Dữ liệu kinh tế thường được chuyển đổi log). Tôi nghĩ rằng cần phải có một sự phân biệt giữa phân tích thăm dò và giải thích. Nếu có căn cứ chứng minh để giả định một mối quan hệ bình phương thì điều này cần phải được kiểm tra. Những gì bạn đang đề xuất là một cách tiếp cận thăm dò nhiều hơn.
Pawel

-2

Tôi đồng ý với tất cả những gì Aksakal nói. Nhưng như câu hỏi đầu tiên tôi nghĩ câu trả lời là tương quan. Tương quan đo lường mức độ có mối quan hệ tuyến tính giữa các tập dữ liệu x và y.


2
y=lnx

@gung Có tôi làm. Phát biểu nào của anh ấy khiến bạn cho là không đúng? Cho phép tôi đề nghị tôi hiểu ý nghĩa của từ tuyến tính và phi tuyến tính và như trong câu trả lời của Aksakal, thật dễ dàng tìm thấy các ví dụ về các biến có mối quan hệ chính xác và phi tuyến tính. Tuy nhiên, tương quan là thước đo của mối quan hệ tuyến tính và tương quan +/- 1 có nghĩa là mối quan hệ thực sự là tuyến tính. Bất kỳ mối tương quan nào nhỏ hơn điều đó có nghĩa là mối quan hệ là (không chính xác) tuyến tính nhưng nó có thể đủ gần.
meh

1
OP "đã thực hiện hồi quy tuyến tính với kết quả quan trọng", nhưng biểu đồ tán xạ ngụ ý mối quan hệ không phải là tuyến tính. Một mối tương quan có thể cũng có ý nghĩa, trên thực tế, nếu hồi quy chỉ có 1 biến X, các giá trị p từ hồi quy & tương quan sẽ giống hệt nhau. Nhưng nếu mối quan hệ không tuyến tính mặc dù hồi quy đáng kể, nó vẫn sẽ không tuyến tính mặc dù có mối tương quan đáng kể. Do đó, một mối tương quan đáng kể không phải là bằng chứng cho thấy mối quan hệ là tuyến tính.
gung - Phục hồi Monica

1
r=1r=1r1

1
Điều này nghe có vẻ quá tinh tế hoặc thậm chí là nitpicking, nhưng (a) Tôi đồng ý rằng mối tương quan là một cách để đo lường tính tuyến tính của mối quan hệ bivariate - rốt cuộc đó là một định lý toán học - nhưng (b) là một đề xuất chung, tôi nghi ngờ rằng nó có thể được hiểu là nhiều hơn một cách cực kỳ thô thiển để đánh giá tính phi tuyến. Bằng chứng về tính phi tuyến tính có thể nổi bật trong một tập dữ liệu có tương quan mẫu tuyệt đối cao và hoàn toàn không có trong một tập dữ liệu có tương quan tuyệt đối nhỏ. (cc @gung)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.