Cho hai mô hình hồi quy tuyến tính, mô hình nào sẽ hoạt động tốt hơn?

Tôi đã tham gia một khóa học máy tại trường đại học của tôi. Trong một trong những câu hỏi, câu hỏi này đã được hỏi.

Mô hình 1:
$y = θ x + ϵ$ $y = \theta x + \epsilon$ Mô hình 2: $y = θ x + θ^{2} x + ϵ$ $y = \theta x + \theta^2 x + \epsilon$
Những mô hình trên sẽ phù hợp với dữ liệu tốt hơn? (giả sử dữ liệu có thể được mô hình hóa bằng hồi quy tuyến tính)

Câu trả lời đúng (theo giáo sư) là cả hai mô hình sẽ hoạt động tốt như nhau. Tuy nhiên tôi tin rằng mô hình đầu tiên sẽ phù hợp hơn.

Đây là lý do đằng sau câu trả lời của tôi. Mô hình thứ hai, có thể được viết lại như $\alpha x + \epsilon$ , $\alpha = \theta + \theta^2$ sẽ không giống như mô hình đầu tiên. Thực tế, $\alpha$ là một parabol và do đó có giá trị tối thiểu ( $-0.25$ trong trường hợp này). Bây giờ vì điều này, phạm vi $\theta$ trong mô hình thứ nhất lớn hơn phạm vi của $\alpha$ trong mô hình thứ hai. Do đó, nếu dữ liệu phù hợp nhất có độ dốc nhỏ hơn $-0.25$ , mô hình thứ hai sẽ hoạt động rất kém so với mô hình đầu tiên. Tuy nhiên, trong trường hợp độ dốc của sự phù hợp tốt nhất lớn hơn $-0.25$ , cả hai mô hình sẽ hoạt động tốt như nhau.

Vì vậy, cái đầu tiên tốt hơn, hay cả hai đều giống hệt nhau?

— kush
nguồn

Tôi nghĩ rằng bạn là chính xác. Đòi hỏi rằng một tham số

có thể biểu diễn như

(đối với một số

) không thực sự thi hành một hạn chế về những gì

's là có thể. Điều này có nghĩa là mô hình thứ hai có thể biểu thị ít mối quan hệ hơn mô hình thứ nhất, vì về cơ bản nó hiện là một vấn đề tối ưu hóa bị ràng buộc. Lý luận của bạn có vẻ vững chắc với tôi.

α

$\alpha$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

α

$\alpha$

— Matthew Drury

@MatthewDrury Tôi mới biết mình đã sai ở đâu, hãy xem câu trả lời bên dưới (và bình luận)

— kush

Tôi thấy nhận xét của bạn, nhưng đó là một số thể dục khá nghiêm trọng khi cho rằng

sẽ mất giá trị phức tạp. Tôi chắc chắn sẽ tham dự một số giờ làm việc để nói chuyện với giáo sư của bạn. Bạn cũng sẽ có được một cuộc thảo luận tốt về nó.

θ

$\theta$

— Matthew Drury

Tôi không rõ là -0,25 đến từ đâu. Bạn có thể làm rõ?

— Mad Jack

Tôi sẽ quan tâm đến việc giáo sư của bạn sẽ phù hợp với từng mô hình như thế nào với bộ dữ liệu hai điểm

. Với Mô hình 1 và

sự phù hợp là hoàn hảo, nhưng làm thế nào họ ước tính

trong Mô hình 2 để có được sự phù hợp hoàn hảo?

{(1, - 1), (2, - 2)}

$\{(1,-1),(2,-2)\}$

θ = - 1

$\theta=-1$

θ

$\theta$

— whuber

Câu trả lời:

Mô hình 2 có thể được viết như sau: Điều này có vẻ giống với mô hình 1, chỉ với ký hiệu khác nhau cho các siêu ( ). Tuy nhiên, đối với mô hình 1 chúng ta có thể viết

y = (θ + θ^{2}) x + ϵ = β x + ϵ .

$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$

θ, β

$\theta, \beta$

\hat{θ} = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$

Nhưng vì trong mô hình 2, chúng ta có mà sau đó khi bạn đề cập thực sự là phạm vi của phải thuộc về

β = θ + θ^{2},

$\beta=\theta + \theta^{2},$

\hat{β}

$\hat{\beta}$

cho

. Điều này sẽ dẫn đến sự khác biệt trong 2 mô hình.

[- 0.25, + \infty]

$[-0.25,+\infty]$

θ \in R

$\theta \in R$

Như vậy trong mô hình 2 bạn đang kìm hãm ước tính hệ số của bạn không giống như mô hình 1. Để làm điều này rõ ràng hơn, cần lưu ý rằng trong mô hình thu được thông qua việc giảm thiểu hàm tổn thất vuông $\hat{\theta}$ Tuy nhiên trong mô hình 2 ước tính thu được thông qua

\hat{θ} = \arg min_{θ \in R} (y - X θ)^{^{'}} (y - X θ) = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$

mà có thể dẫn đến một kết quả khác nhau.

\hat{β} = \arg min_{β \geq - 0.25} (y - X β)^{^{'}} (y - X β)

$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$

— Trí tuệ
nguồn

Có ý nghĩa, nó chỉ xảy ra với tôi rằng không có hạn chế về

trong mô hình thứ hai! Trong trường hợp

là tiêu cực,

có thể có giá trị phức tạp. Tuy nhiên, điều đó không thực sự ảnh hưởng đến mô hình, phải không? Tôi không có đại diện để nâng cấp, nhưng cảm ơn rất nhiều!

θ

$\theta$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

— kush

@kush Vui lòng kiểm tra phản hồi đã chỉnh sửa của tôi cũng giải thích mối quan tâm của bạn

— Wis

Không chắc chắn tôi hiểu lý do của bạn. Nếu bạn lấy:

và

y = α x + ϵ

$y = \alpha x+\epsilon$

y = θ x + ϵ

$y = \theta x + \epsilon$

và ước tính và sử dụng đơn giản tuyến tính hồi quy, bạn sẽ nhận được = . Hơn nữa, vì phương pháp này hoàn toàn giống nhau nên không có sự khác biệt trong giá trị mà bạn sẽ nhận được trong một trong hai phương trình. Giá trị cơ bản của trong phương trình đầu tiên tất nhiên sẽ khác nhau, kể từ khi , nhưng điều này không có gì để làm với phù hợp. $\alpha$ $\theta$ $\alpha$ $\theta$ $R^2$ $\theta$ $\alpha = \theta + \theta^2$

— akeenlogician
nguồn

θ

$\theta$

(- \infty, \infty)

$(- \infty, \infty)$

α

$\alpha$

(- 0.25, \infty)

$(- 0.25, \infty)$

x

$x$