Phải làm gì khi hồi quy tuyến tính đưa ra các ước tính tiêu cực không thể thực hiện được


8

Tôi đang sử dụng hồi quy tuyến tính để ước tính các giá trị mà trong thực tế luôn không âm. Các biến dự đoán cũng không âm. Chẳng hạn, hồi quy số năm học và tuổi để dự đoán mức lương. Tất cả các biến trong trường hợp này luôn không âm.

Do đánh chặn tiêu cực, mô hình của tôi (được xác định bằng OLS) dẫn đến một số dự đoán phủ định (khi giá trị của biến dự đoán thấp đối với phạm vi của tất cả các giá trị).

Chủ đề này đã được đề cập ở đây và tôi cũng biết rằng việc buộc chặn ở mức 0 là không được khuyến khích , vì vậy có vẻ như tôi phải chấp nhận mô hình này là mô hình tôi phải sử dụng. Tuy nhiên, câu hỏi của tôi ở đây là về các tiêu chuẩn và quy tắc được chấp nhận khi đánh giá mô hình đó. Có bất kỳ quy tắc cụ thể ở đây? Đặc biệt:

  • Nếu tôi có ước tính âm, tôi có thể làm tròn nó thành 0 không?
  • Nếu giá trị quan sát là 100 và giá trị dự đoán là -300 và tôi biết rằng giá trị tối thiểu có thể là 0, đó là lỗi 400 hay 100? Chẳng hạn, khi tính ME và RMSE.

Nếu nó có liên quan đến cuộc thảo luận: Tôi đã sử dụng cả hồi quy tuyến tính đơn giản và hồi quy tuyến tính đa biến. Cả hai kết quả trong một số giá trị âm.


Biên tập:

Dưới đây là ví dụ về các mẫu phù hợp:

Phù hợp tuyến tính

Các hệ số của hồi quy tuyến tính là 0,0010 (x) và -540 (chặn).

Đây là những gì xảy ra khi tôi sử dụng nhật ký cho X:

Đăng nhập

Là hồi quy tuyến tính phù hợp ở đây?


3
Mô hình của bạn bị sai chính tả; bạn cần một loại mô hình khác Nếu dữ liệu của bạn không thể xuống dưới 0 và mô hình của bạn có thể, mô hình của bạn không phản ánh đúng thực tế của dữ liệu của bạn. Sự khác biệt có thể không phải là một vấn đề đủ lớn để lo lắng trong một số bối cảnh, nhưng có vẻ như đó không phải là trường hợp ở đây.
gung - Phục hồi Monica

@gung, mình đã cập nhật câu hỏi với cốt truyện.
Thứ Hai

1
@gung, tôi muốn tránh đi vào quá nhiều chi tiết vì tôi không thấy nó có liên quan, vì vậy hãy nói rằng cả X và Y là các biến như thu nhập, tuổi, lượng mưa, v.v. không thể âm.
Thứ Hai

2
Các chi tiết chắc chắn có liên quan đến loại dữ liệu X & Y là gì, và loại mối quan hệ nào giữa chúng có thể. Có một giới hạn rất thực tế đối với những gì chúng tôi có thể tư vấn cho bạn với nhiều thông tin hơn.
gung - Phục hồi Monica

1
Nếu bạn định biến đổi bất cứ thứ gì, thì đó không phải là Y. X. Ngoài ra, việc chuyển đổi X sẽ không giải quyết vấn đề của bạn trực tiếp trong mọi trường hợp. Nhưng hãy kiểm tra hồi quy Poisson, ví dụ blog.stata.com/tag/poisson-regression
Nick Cox

Câu trả lời:


5

Bạn chưa đưa ra bối cảnh, nhưng bạn đã liên kết với một bài đăng cung cấp một giải pháp. Tôi sẽ cho rằng giải pháp đó không được áp dụng ở đây.

Sau đó, một giải pháp khác là không sử dụng hồi quy tuyến tính (đơn giản hoặc nhiều) vì chúng không giải quyết được vấn đề bạn gặp phải.

Tuy nhiên, trước tiên, hãy sử dụng thu nhập của bạn như một chức năng của tuổi tác và giáo dục. Ở đây, giá trị dự đoán tiêu cực là hợp lý bởi vì bạn có thể không quan tâm đến thu nhập của trẻ sơ sinh. Tuy nhiên, ở đó, lấy nhật ký (thu nhập) cũng hợp lý, trừ khi một số người trong bộ dữ liệu của bạn không có thu nhập.

Nhưng giả sử không phải vậy. Sau đó, bạn có thể sử dụng phương pháp hồi quy tôn trọng các giới hạn trên biến phụ thuộc. Một trong số đó là hồi quy beta, yêu cầu DV nằm trong khoảng từ 0 đến 1 - vì vậy bạn có thể chia tỷ lệ DV của mình trong khoảng từ 0 đến 1 và sau đó sử dụng hồi quy beta.

Nhưng tôi thực sự muốn bạn thêm các biến thực tế của bạn vào câu hỏi.


Cảm ơn câu trả lời của bạn. Tôi đã cập nhật câu hỏi với các lô có thể hữu ích.
Thứ Hai

Bạn chưa đưa ra bối cảnh, bạn chưa nói X và Y là gì, bạn chưa nói lý do tại sao Y không thể xuống dưới 0 và vì vậy, không có cách nào để bất cứ ai giúp bạn. Tuy nhiên, các giải pháp bạn đề xuất trong câu hỏi của bạn đều là những giải pháp tồi.
Peter Flom
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.