Hồi quy tuyến tính so với phi tuyến


13

Tôi có một tập hợp các giá trị và liên quan đến lý thuyết theo cấp số nhân:xy

y=axb

Một cách để có được các hệ số là áp dụng logarit tự nhiên ở cả hai phía và khớp với mô hình tuyến tính:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

Một cách khác để có được điều này là sử dụng hồi quy phi tuyến, đưa ra một tập hợp các giá trị bắt đầu theo lý thuyết:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

Các thử nghiệm của tôi cho thấy kết quả tốt hơn và liên quan đến lý thuyết hơn nếu tôi áp dụng thuật toán thứ hai. Tuy nhiên, tôi muốn biết ý nghĩa thống kê và ý nghĩa của từng phương pháp.

Trong số đó là tốt hơn?


3
Xin vui lòng xem bài đăng này liên quan đến một câu hỏi tương tự. Bài viết này cũng có thể được quan tâm.
COOLSerdash

5
"cấp số nhân" thường bao hàm một cái gì đó dựa trên exp(): những gì bạn có ở đây thường được gọi là chức năng quyền lực, luật công suất hoặc luật quy mô. Tên khác không có nghi ngờ tồn tại. Không có mối liên hệ nào với quyền lực theo nghĩa kiểm định giả thuyết.
Nick Cox

Câu trả lời:


16

"Tốt hơn" là một chức năng của mô hình của bạn.

Một phần lý do cho sự nhầm lẫn của bạn là bạn chỉ viết một nửa mô hình của bạn.

Khi bạn nói , điều đó không thực sự đúng. Giá trị y quan sát của bạn không bằng a x b ; họ có một thành phần lỗi.y=axbyaxb

Ví dụ, hai mô hình bạn đề cập (không phải là mô hình duy nhất có thể bằng bất kỳ phương tiện nào) đưa ra các giả định hoàn toàn khác nhau về lỗi.

Bạn có thể có nghĩa là một cái gì đó gần hơn với E(Y|X=x)=axb.

Nhưng sau đó chúng ta nói gì về sự biến đổi của ra khỏi kỳ vọng đó ở một x cho trước ? Nó quan trọng!Yx

  • Khi bạn phù hợp với mô hình bình phương nhỏ nhất phi tuyến, bạn đang nói rằng các lỗi là phụ gia và độ lệch chuẩn của các lỗi là không đổi trên dữ liệu:

    yiN(axib,σ2)

    hoặc tương đương

    , với var ( e i ) = σ 2yi=axib+eivar(ei)=σ2

  • ngược lại khi bạn lấy nhật ký và khớp với mô hình tuyến tính, bạn đang nói rằng lỗi là phụ gia trên thang đo nhật ký và (trên thang đo nhật ký) không đổi trên dữ liệu. Điều này có nghĩa là trên thang đo của các quan sát, thuật ngữ lỗi được nhân lên và do đó, các lỗi sẽ lớn hơn khi các giá trị dự kiến ​​lớn hơn:

    yilogN(loga+blogxi,σ2)

    hoặc tương đương

    yi=axibηiηilogN(0,σ2)

    E(η)σ2

(Bạn có thể thực hiện các ô vuông nhỏ nhất mà không giả sử các phân phối chuẩn / logic bất thường, nhưng vấn đề trung tâm đang được thảo luận vẫn được áp dụng ... và nếu bạn không ở gần quy tắc, có lẽ bạn nên xem xét một mô hình lỗi khác)

Vì vậy, điều gì là tốt nhất phụ thuộc vào loại mô hình lỗi mô tả trường hợp của bạn.

yxx


9

Khi bạn phù hợp với một trong hai mô hình, bạn sẽ giả sử rằng tập hợp các phần dư (chênh lệch giữa các giá trị được quan sát và dự đoán của Y) tuân theo phân phối Gaussian. Nếu giả định đó đúng với dữ liệu thô của bạn (hồi quy phi tuyến), thì nó sẽ không đúng với các giá trị được chuyển đổi log (hồi quy tuyến tính) và ngược lại.

Mô hình nào "tốt hơn"? Một trong đó các giả định của mô hình phù hợp nhất với dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.