Quyết định giữa mô hình hồi quy tuyến tính hoặc mô hình hồi quy phi tuyến tính


10

Làm thế nào người ta nên quyết định giữa việc sử dụng mô hình hồi quy tuyến tính hoặc mô hình hồi quy phi tuyến tính?

Mục tiêu của tôi là dự đoán Y.

Trong trường hợp tập dữ liệu y đơn giản , tôi có thể dễ dàng quyết định mô hình hồi quy nào sẽ được sử dụng bằng cách vẽ đồ thị phân tán.xy

Trong trường hợp đa biến thể như y . Làm thế nào tôi có thể quyết định mô hình hồi quy nào phải được sử dụng? Đó là, Làm thế nào tôi sẽ quyết định về việc đi với mô hình tuyến tính đơn giản hoặc mô hình phi tuyến tính như tứ giác, khối, v.v.x1,x2,...xny

Có bất kỳ kỹ thuật hoặc phương pháp thống kê hoặc sơ đồ đồ họa để suy luận và quyết định mô hình hồi quy nào sẽ được sử dụng?


"Mô hình phi tuyến tính" là một phạm trù khá rộng. Bạn đã có một trong tâm trí? Mục tiêu phân tích của bạn là gì?
Shadowtalker 6/2/2015

Điều này phụ thuộc vào mục tiêu của bạn. Bạn đang xây dựng một mô hình dự đoán / dự báo?
Aksakal 6/2/2015

Dự đoán là mục tiêu của tôi.
shakthydoss 6/2/2015

1
Nếu bạn theo đuổi cách tiếp cận "vẽ biểu đồ dữ liệu" nhưng đối với nhiều yếu tố dự đoán, có thêm các ô biến có thể có giá trị. Nhưng nếu mục tiêu của bạn là dự đoán, thì vấn đề là bạn chọn cách nào để git dựa trên việc xem dữ liệu, vì vậy nó sẽ trông tốt hơn trên dữ liệu bạn có so với dữ liệu khác (và có nhiều vấn đề khác đi kèm với như vậy cách tiếp cận để lựa chọn mô hình) - để đánh giá đúng khả năng dự đoán mẫu, bạn cần đánh giá mọi thứ trên một mẫu nắm giữ / xem xét một cái gì đó như xác nhận chéo.
Glen_b -Reinstate Monica 6/215

1
Bạn có thể thấy hữu ích một cuộc thảo luận liên quan mà tôi đã bắt đầu một thời gian trước đây.
Alexanderr Blekh

Câu trả lời:


10

Đây là một lĩnh vực thống kê được gọi là lựa chọn mô hình. Rất nhiều nghiên cứu được thực hiện trong lĩnh vực này và không có câu trả lời dứt khoát và dễ dàng.

X1,X2X3X32X1,X2X3X1,X2,X3X32(mô hình phức tạp). Trong xây dựng mô hình, bạn có (ít nhất) một trong hai mục tiêu chính sau:

  1. X1YX2,...Xp
  2. YY

Nếu mục tiêu của bạn là số 1, thì tôi khuyên bạn nên Kiểm tra Tỷ lệ Khả năng (LRT). LRT được sử dụng khi bạn có các mô hình lồng nhau và bạn muốn biết "dữ liệu có nhiều khả năng đến từ mô hình phức tạp hơn so với mô hình phân tích không?". Điều này sẽ cung cấp cho bạn cái nhìn sâu sắc về mô hình nào giải thích rõ hơn về mối quan hệ giữa dữ liệu của bạn.

k


Xin vui lòng, bạn có thể làm / giải thích sự khác biệt giữa các mục tiêu (1) và (2) rõ ràng hơn không? Hiện tại không có nhiều khác biệt.
ttnphns

@ttnphns Tôi đã thêm một mô tả ngắn gọn về hai mục tiêu.
TrynnaDoStat 17/2/2015

@TrynnaDoStat Chỉ cần nhầm lẫn ở đây bởi câu lệnh Chọn mô hình thực hiện dự đoán công việc tốt nhất. Theo mô hình tốt nhất bạn có nghĩa là chọn giữa mô hình tuyến tính (phân tích) và mô hình phức tạp .... phải không? Bởi vì những gì tôi biết là k-Fold, CV rời khỏi được sử dụng để kiểm tra hiệu suất mô hình trên dữ liệu chưa xem. Chúng không được sử dụng để lựa chọn mô hình. Tôi bối rối ở đây.
tushaR

1

Khi tôi tìm kiếm "mô hình linearn hoặc phi tuyến tính cho hồi quy", tôi nhận được một số liên kết dẫn đến cuốn sách này: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Cuốn sách này không thú vị, và tôi không Tôi không tin tưởng 100% (vì một số lý do).

Tôi cũng tìm thấy bài viết này: http://hunch.net/?p=524 với tiêu đề: Gần như tất cả các vấn đề tự nhiên đòi hỏi sự phi tuyến tính

Tôi cũng tìm thấy câu hỏi tương tự với lời giải thích khá hay: /programming/1148513/difference-b between-a-linear-pro Hiệu-and-a-non-Lâm-pro-

Dựa trên kinh nghiệm của tôi, khi bạn không biết sử dụng mô hình nào, hãy sử dụng cả hai và thử các tính năng khác.


0

Như bạn nói, các mô hình tuyến tính thường đơn giản hơn các mô hình phi tuyến tính, có nghĩa là chúng chạy nhanh hơn (xây dựng và dự đoán), dễ giải thích và giải thích hơn, và thường đơn giản trong các phép đo lỗi. Vì vậy, mục tiêu là tìm hiểu xem các giả định của hồi quy tuyến tính có đúng với dữ liệu của bạn không (nếu bạn không hỗ trợ tuyến tính, thì chỉ cần đi với phi tuyến tính). Thông thường, bạn sẽ lặp lại biểu đồ một biến với tất cả các biến riêng lẻ, giữ tất cả các biến khác không đổi.

Mặc dù vậy, có lẽ quan trọng hơn, bạn muốn biết liệu bạn có thể áp dụng một số loại biến đổi, tương tác biến hoặc biến giả để di chuyển dữ liệu của bạn sang không gian tuyến tính hay không. Nếu bạn có thể xác thực các giả định hoặc nếu bạn biết rõ dữ liệu của mình để áp dụng các chuyển đổi hoặc sửa đổi được thông báo có động cơ hoặc thông minh, thì bạn muốn tiến hành chuyển đổi đó và sử dụng hồi quy tuyến tính. Khi bạn có phần dư, bạn có thể vẽ chúng so với các giá trị dự đoán hoặc các biến độc lập để quyết định thêm nếu bạn cần chuyển sang các phương pháp phi tuyến tính.

Có một sự phá vỡ tuyệt vời về các giả định của hồi quy tuyến tính ở đây tại Duke . Bốn giả định chính được liệt kê và mỗi giả định được chia thành các hiệu ứng trên mô hình, cách chẩn đoán nó trong dữ liệu và các cách tiềm năng để "sửa chữa" (nghĩa là chuyển đổi hoặc thêm vào) dữ liệu để giữ giả định. Dưới đây là một đoạn trích nhỏ từ đầu tóm tắt bốn giả định được đề cập, nhưng bạn nên đến đó và đọc các phân tích.

Có bốn giả định chính trong đó biện minh cho việc sử dụng mô hình hồi quy tuyến tính cho mục đích suy luận hoặc dự đoán:

(i) tính tuyến tính và tính gây nghiện của mối quan hệ giữa các biến phụ thuộc và độc lập:

(a) Giá trị kỳ vọng của biến phụ thuộc là hàm đường thẳng của từng biến độc lập, giữ các biến khác cố định.

(b) Độ dốc của đường đó không phụ thuộc vào giá trị của các biến khác.

(c) Ảnh hưởng của các biến độc lập khác nhau đến giá trị dự kiến ​​của biến phụ thuộc là phụ gia.

(ii) tính độc lập thống kê của các lỗi (đặc biệt, không có mối tương quan giữa> lỗi liên tiếp trong trường hợp dữ liệu chuỗi thời gian)

(iii) tính đồng nhất (phương sai không đổi) của các lỗi

(a) so với thời gian (trong trường hợp dữ liệu chuỗi thời gian)

(b) so với dự đoán

(c) so với bất kỳ biến độc lập

(iv) tính quy phạm của phân phối lỗi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.