Các giá trị âm trong dự đoán cho biến phản ứng luôn dương trong hồi quy tuyến tính


8

Tôi đang cố gắng dự đoán một biến phản hồi trong hồi quy tuyến tính phải luôn dương (giá mỗi nhấp chuột). Đó là một số tiền. Trong adwords, bạn trả tiền cho google khi nhấp vào quảng cáo và số âm sẽ có nghĩa là google trả tiền cho bạn khi mọi người nhấp: P

Các dự đoán là tất cả các giá trị liên tục. Rupquared và RMSE là khá tốt khi so sánh với các mô hình khác, thậm chí là ngoài mẫu:

  RMSE        Rsquared 
1.4141477     0.8207303

Tôi không thể hủy bỏ các dự đoán, bởi vì đó là tiền, vì vậy ngay cả một yếu tố thay đổi kích thước nhỏ cũng có thể thay đổi đáng kể chi phí.

Theo tôi hiểu, đối với mô hình hồi quy không có gì đặc biệt về số 0 và số âm, do đó, nó tìm thấy siêu phẳng hồi quy tốt nhất cho dù đầu ra có âm một phần hay không.

Đây là một nỗ lực đầu tiên, sử dụng tất cả các biến tôi có. Vì vậy, có chỗ để sàng lọc.

Có cách nào để nói với mô hình rằng đầu ra không thể âm?


6
Bạn có thể đảm bảo dự đoán tích cực bằng cách sử dụng mô hình tuyến tính tổng quát với chức năng liên kết logarit. Nhân tiện, mặc dù giá trị của bạn khá đáng khích lệ, kiểm tra tốt hơn xem liệu mô hình có tuân theo hình dạng chính của dữ liệu hay không là một biểu đồ của phần dư so với dự đoán. Âm mưu quan sát so với dự đoán cũng có thể giúp làm sáng tỏ vấn đề của bạn. R2
Nick Cox

1
@NickCox đã đưa ra một đề nghị. Tôi sẽ vẽ dữ liệu theo nhiều cách hơn là chỉ còn lại so với dự đoán. Tuy nhiên, bạn chắc chắn có thể bán lại các biến số tiền. Một phương pháp phổ biến là lấy log (chi phí) làm biến phụ thuộc. (Tôi nghĩ rằng điều này kết thúc tương đương với chức năng liên kết nhật ký, nhưng có thể dễ hiểu hơn). Nhật ký (chi phí) tất nhiên có thể là âm. Và nhật ký của các biến tiền thường hợp lý bởi vì, ví dụ, sự khác biệt giữa 0,01 và 0,02 mỗi lần nhấp là quan trọng, nhưng sự khác biệt giữa 1,01 và 10,2 mỗi lần nhấp là không.
Peter Flom

@Peter Flom Tôi nghĩ có nghĩa là 1.02 chứ không phải 10.2.
Nick Cox

1
Một ít dữ liệu mẫu sẽ giúp mọi người minh họa các giải pháp tiềm năng.
Glen_b -Reinstate Monica

Câu trả lời:


4

Tôi giả sử rằng bạn đang sử dụng công cụ ước tính OLS trên mô hình hồi quy tuyến tính này. Bạn có thể sử dụng công cụ ước lượng bình phương ràng buộc nhỏ nhất bất đẳng thức , đây sẽ là giải pháp cho vấn đề tối thiểu hóa dưới các ràng buộc bất đẳng thức. Sử dụng ký hiệu ma trận chuẩn (vectơ là vectơ cột), bài toán tối thiểu hóa được nêu là

minβ(yXβ)(yXβ)s.t.Zβ0

... trong đó là , là , là và là ma trận chứa chuỗi hồi quy ngoài mẫu của chiều dài được sử dụng để dự đoán. Chúng ta có các ràng buộc bất đẳng thức tuyến tính (và hàm mục tiêu là lồi, vì vậy các điều kiện thứ tự đầu tiên là đủ cho mức tối thiểu). n × k β k × 1 Z m × k m myn×1Xn×kβk×1Zm×kmm

Lagrangean của vấn đề này là

L=(yXβ)(yXβ)λZβ=yyyXββXy+βXXβλZβ

=yy2βXy+βXXβλZβ

Trong đó là một vectơ cột của hệ số nhân Karush -Kuhn -Tucker không âm. Các điều kiện đặt hàng đầu tiên là (bạn có thể muốn xem lại các quy tắc để phân biệt ma trận và vectơ)λm×1

Lβ=02Xy+2XXβZλ

β^R=(XX)1Xy+12(XX)1Zλ=β^OLS+(XX)1Zξ[1]

... trong đó , để thuận tiện và là công cụ ước tính chúng ta sẽ có được từ ước tính bình phương nhỏ nhất thông thường. beta OLSξ=12λβ^OLS

Phương pháp này được xây dựng đầy đủ trong Liew (1976) .


3
Tôi đã ủng hộ điều này bởi vì đó là một giải pháp hợp pháp, nhưng nó có rủi ro trong thực tế. Xét cho cùng, giải pháp rất nhạy cảm với các giá trị của : một giá trị đòn bẩy cao duy nhất sẽ điều khiển các ước tính ở xa mức phù hợp chỉ để thực thi ràng buộc. Do đó, ở mức tối thiểu, quy trình này phải đi kèm với kiểm tra mức độ phù hợp cẩn thận với dữ liệu. Z
whuber

@whuber Bạn nói đúng. Vì vậy, OP, bước cẩn thận ở đây.
Alecos Papadopoulos
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.