Chọn mô hình hồi quy


8

Làm thế nào một người có thể khách quan (đọc "theo thuật toán") chọn một mô hình thích hợp để thực hiện hồi quy bình phương tuyến tính nhỏ nhất đơn giản với hai biến?

Ví dụ, giả sử dữ liệu dường như hiển thị xu hướng bậc hai và một parabola được tạo ra phù hợp với dữ liệu khá tốt. Làm thế nào để chúng ta biện minh làm cho điều này hồi quy? Hoặc làm thế nào để chúng ta loại bỏ khả năng có một mô hình tốt hơn?

Điều tôi thực sự lo lắng là đây: chúng tôi chỉ có thể tiếp tục thêm các thuật ngữ đa thức cho đến khi chúng tôi có một sự phù hợp hoàn hảo cho tập dữ liệu (nội suy các điểm), không có lỗi gì. Nhưng điều này sẽ vô ích khi dự đoán hoặc ngoại suy, bởi vì sẽ không có lý do gì để nghĩ rằng "mô hình" là thực sự phù hợp. Vậy làm thế nào để một người cân bằng nhu cầu của sự chính xác và hấp dẫn trực quan?

(Ngoài ra, vui lòng thông báo cho tôi nếu điều này đã được hỏi trước đó. Tôi cho rằng nó sẽ xảy ra nhưng không tìm thấy gì.)


1
Câu hỏi tự nó thực sự đặt ra câu hỏi mà bạn cần phải tự hỏi mình, đó là lý do tại sao tôi xây dựng mô hình hồi quy này? Bạn sẽ sử dụng mô hình để làm gì? Bạn hy vọng học được gì từ mô hình? Đây là những câu hỏi lớn chắc chắn sẽ hướng dẫn các bước bạn thực hiện khi xây dựng mô hình.
JSK

Tôi nghĩ rằng con số trong trang Wikipedia cho quá mức nói lên chính nó.
nico

Câu trả lời:


1

Bạn có thể xem AIC, BIC hoặc bất kỳ biện pháp tương tự nào khác.

Bạn có thể sử dụng đôi mắt và ý nghĩa của lĩnh vực này.

Hoặc bạn có thể tránh một số vấn đề bằng cách sử dụng splines.


Cảm ơn. Tôi chỉ là người mới bắt đầu thống kê, tôi có thể hỏi liệu các biện pháp AIC, BIC là "khách quan" (như có nguồn gốc từ một cái gì đó), hay về cơ bản chúng là "tạo nên" từ kinh nghiệm thống kê?

AIC2k2ln(L)

9

Đây có thể là trường hợp bạn sẽ không thể tìm thấy một đa thức tạo thành một mô tả chính xác về mối quan hệ cho dù bạn có bao nhiêu dữ liệu.

Vấn đề này có thể mở rộng đến hầu hết các lớp mô hình.

Tuy nhiên, thông thường chúng tôi quan tâm đến việc có được một mô tả hay đủ cho mục đích nào đó (một mô hình), thay vì khám phá quá trình thực tế (có thể quá phức tạp) thúc đẩy các quan sát.

Trên thực tế, kể cả trường hợp quá trình đúng từ một số lớp giả thuyết của mô hình tiềm năng, nó có thể phản tác dụng để khám phá mô hình đúng (có thể trật tự cao, ví dụ, nhưng các điều khoản trật tự cao có thể là rất rất nhỏ). Có thể là một mô hình đơn giản hơn (tức là sai ) tốt hơn nhiều cho mục đích của chúng tôi.

Ví dụ, hãy tưởng tượng chúng tôi đang cố gắng dự đoán một vài giá trị tiếp theo trong một chuỗi hơi ồn. Bất kỳ mô hình nào chúng tôi phù hợp đều có một số lỗi trong ước tính tham số và lỗi đó sẽ được phóng to theo dự báo. Sẽ không mất nhiều thời gian để có một mô hình thứ tự thấp (nhất thiết là sai lệch) với hiệu suất lỗi dự đoán bình phương trung bình tốt hơn nhiều so với thứ tự mô hình 'đúng'.

Một công cụ phổ biến để đánh giá hiệu suất mô hình là dự đoán ngoài mẫu (không nhất thiết phải theo thời gian). Xác thực chéo là một cách phổ biến để chọn mô hình hoặc so sánh hiệu suất của mô hình.

Rob Hyndman đã viết một bài giới thiệu nhỏ rất hay ở đây .


1

Tôi thường nói rằng mọi người thường tự xếp mình theo một trong ba cách tiếp cận khác nhau:

  • người thường xuyên sử dụng các bài kiểm tra như bài kiểm tra F
  • bayesian, mà sử dụng suy luận Bayes
  • kẻ lý thuyết thông tin, sử dụng BIC và AIC, giống như các ví dụ khác được trích dẫn ở trên.

Phân tích thường xuyên có lẽ là cả đơn giản nhất và bị chỉ trích nhiều nhất cho những thiếu sót của nó. Mặt khác, lý thuyết thông tin đã trải qua một sự bùng nổ, thu hút sự chú ý của ngày càng nhiều người khi thời gian trôi qua. Tôi nghĩ bạn nên cố gắng hiểu một chút và rút ra một số ý tưởng từ mỗi trong ba cách tiếp cận. Nếu bạn không có ý tưởng về những gì dữ liệu nên chứa, thì cách tiếp cận thường xuyên là một cách tốt để bắt đầu; mặt khác Nếu bạn có một số thông tin về mô hình cơ bản, hãy xem suy luận bayesian. Và tôi sẽ luôn giữ số lượng tham số miễn phí ở mức thấp, và đó là điều mà AIC và BIC cố gắng cân bằng thông tin với các tham số.


0

Tôi sẽ sử dụng các khối vuông bị hạn chế cho phép bạn ước chừng đường cong tốt hơn. Là một sàng lọc bổ sung, có thể sử dụng AICc (hoặc BIC) để chọn số lượng nút thắt.


Nó thực sự phụ thuộc vào vấn đề cụ thể và tập dữ liệu, đôi khi một đường thẳng là khó khăn nhất để nói bất cứ điều gì mà không nhìn thấy dữ liệu.
nico
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.