Dùng Regression để chiếu ngoài phạm vi dữ liệu ok? không bao giờ ổn đôi khi ok


9

Suy nghĩ của bạn về việc sử dụng hồi quy để chiếu ngoài phạm vi dữ liệu là gì? Nếu chúng ta chắc chắn rằng nó tuân theo hình dạng mô hình tuyến tính hoặc công suất, thì mô hình có thể hữu ích ngoài phạm vi dữ liệu không? Ví dụ tôi có khối lượng điều khiển bởi giá cả. Chúng tôi có thể dự kiến ​​giá ngoài phạm vi dữ liệu tôi tin. Suy nghĩ của bạn?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
Phụ thuộc vào mức độ giả định của bạn bên ngoài phạm vi dữ liệu. Dự đoán cho các x không quan sát được là toàn bộ lý do bạn thực hiện hồi quy ngay từ đầu. yx
Ben

3
Ngay cả khi bạn thực sự, thực sự, chắc chắn mối quan hệ tuyến tính tiếp tục vượt ra ngoài phạm vi của dự đoán trong mẫu của bạn của n quan sát, có một hạn trong phương sai của các phản ứng dự đoán cho một quan sát mới x * - viz ( x - ˉ x ) 2x1,Giáo dục,xnnx* - mà nên lo lắng bạn. (x*-x¯)2ΣTôin(xTôi-x¯)2
Scortchi - Phục hồi Monica

Ben tôi có xu hướng đồng ý, không dự đoán y cho toàn bộ quan điểm của X không? Khác tại sao thậm chí làm một hồi quy? Có lẽ đặt ra giới hạn về khoảng cách tôi cho phép bản thân đi xa khỏi phạm vi dữ liệu được quan sát có thể chịu trách nhiệm. Chắc chắn 10% sẽ an toàn .. không?
Johnson Jason

Thước đo yêu thích của tôi về chủ đề này là bmj.com/content/317/7155/409 .
Carlo Lazzaro

@ Ben, @ Johnson - Có lẽ là một ngụy biện. Có một cách sử dụng khác cho hồi quy. Nó có thể được sử dụng để giải thích hơn là dự đoán. Tôi nghĩ, đặc biệt trong khoa học xã hội, đây là một công dụng chính của hồi quy. Tôi đã đọc rất nhiều đối số như Chúng tôi nghĩ rằng (các biến) Kết quả có hiệu lực B, chúng tôi chạy hồi quy, thấy rằng khoảng tin cậy 95% của (các) hệ số của A không chứa 0 và chúng tôi kết luận rằng có một mối quan hệ thuộc dạng A gây ra B. Ngẫu nhiên, đây không phải là điều tôi từng làm!
meh

Câu trả lời:


13

X

H= =X(XTX)-1X

H0<HTôiTôi<1, Tôi= =1,Giáo dục,nHTôiTôi

Hnew,new= =xnewT(XTX)-1xnew

Hnew,new

Tôi không chắc bạn đang sử dụng phần mềm nào nhưng hầu như tất cả chúng sẽ trả về ma trận mũ với lệnh đúng. Vì vậy, tôi đề nghị bạn hãy xem trước khi quyết định.


Làm tốt lắm JohnK, điều này rất hữu ích. FYI Tôi đang sử dụng hồi quy Excel.
Johnson Jason

9

Các lỗi dự đoán tăng bậc hai với khoảng cách từ giá trị trung bình. Phương trình và kết quả hồi quy cho phép bạn đánh giá kích thước của lỗi trong phạm vi dữ liệu được quan sát và mô hình chỉ phù hợp trên cùng phạm vi đó.

Bên ngoài phạm vi đó rất nhiều điều có thể xảy ra. Đầu tiên, dự đoán ngày càng tồi tệ hơn do sự gia tăng của lỗi dự đoán.

Thứ hai, mô hình có thể bị hỏng hoàn toàn. Cách dễ nhất để thấy điều đó là cố gắng dự đoán một mô hình liên quan đến giá theo thời gian: Bạn không thể đưa ra dự đoán cho thời gian tiêu cực.

Thứ ba, mối quan hệ tuyến tính có thể không đầy đủ. Trong ví dụ của bạn, gần như chắc chắn có quy mô kinh tế, sẽ trở nên rất đáng chú ý nếu bạn cố gắng dự đoán xa ngoài phạm vi của các giá trị quan sát được.

Một ví dụ hài hước về hiệu ứng tương tự này xuất hiện trong một trong những tác phẩm của Mark Twain , nơi anh cố gắng mô hình hóa chiều dài của dòng sông Mississippi theo thời gian --- nó / khá gió và rút ngắn / ed mỗi năm do sự xói mòn của một số về các khúc cua cũng như các phím tắt nhân tạo --- và "dự đoán" rằng trong nhiều năm, khoảng cách giữa Cairo, Illinois và New Orleans sẽ bị thu hẹp xuống còn khoảng một dặm và ba phần tư).

Cuối cùng, lưu ý rằng phạm vi của các giá trị quan sát có thể khá phức tạp nếu bạn có nhiều hơn một biến dự đoán. (Do mối tương quan giữa các yếu tố dự đoán, bạn thường không thể lấy hộp được xác định bởi cực đại và cực tiểu trong mỗi yếu tố dự đoán.)


1
(+1) Mặc dù có thể nói rằng mô hình chỉ phù hợp trong phạm vi dữ liệu được quan sát là hơi mạnh - đó là vấn đề bạn mô tả trở nên nhiều hơn và liên quan nhiều hơn đến bạn càng xa nó.
Scortchi - Phục hồi Monica

Vì vậy, có bất kỳ công việc xung quanh khoảng cách an toàn để đi xa khỏi phạm vi dữ liệu quan sát là bao xa? Độ lệch chuẩn dưới 1 không sao?
Johnson Jason

1
@Scortchi. Điểm lấy. Trong hầu hết các tình huống, sự xuống cấp của mô hình là dần dần. Tuy nhiên, đôi khi có những ranh giới khó khăn, và cố gắng vượt qua những điều đó sẽ gây ra đau buồn.
dùng3697176

1
@JohnsonJason: Không có ý nghĩa trong việc tìm kiếm một quy tắc của ngón tay cái. Bạn có thể dễ dàng tính toán các khoảng dự đoán, giả sử mô hình của bạn có thể được ngoại suy; mức độ mà bạn có thể tin tưởng vào phép ngoại suy phụ thuộc vào kiến ​​thức của đối tượng: những gì được chấp nhận thay đổi tùy theo từng trường hợp.
Scortchi - Phục hồi Monica

1
Điểm xuất sắc (+1). Nhưng không có vấn đề logic trong việc dự đoán giá cho thời gian tiêu cực. Vấn đề thực sự là nếu bạn dự đoán giá âm trong một thời gian nhất định (thường là trong quá khứ, trong thực tế). Thông thường điều đó có nghĩa là mô hình sai về mặt chất lượng cũng như phép ngoại suy đó đang kéo dài một đường (hoặc đường cong) quá xa. Ví dụ, một hàm liên kết logarit luôn ngụ ý dự đoán tích cực.
Nick Cox

4

Bạn không thể đưa ra quyết định dựa trên dữ liệu cho các khu vực nơi bạn không có dữ liệu. Kết thúc câu chuyện. Dữ liệu rất có thể hỗ trợ hình dạng tuyến tính cho phạm vi mà dữ liệu của bạn được thu thập nhưng bạn không có lý do điều khiển dữ liệu để tin rằng hình dạng này tiếp tục là tuyến tính ngoài phạm vi của bạn. Nó có thể là bất kỳ hình dạng dưới ánh mặt trời!

Bạn có thể giả định hình dạng tuyến tính tiếp tục nằm ngoài phạm vi dữ liệu của bạn nhưng đây là giả định chủ quan không được hỗ trợ bởi dữ liệu bạn đã thu thập. Tôi sẽ đề nghị tham khảo ý kiến ​​một chuyên gia về vấn đề để xem, dựa trên chuyên môn của họ, giả định này an toàn đến mức nào.


2
Vì vậy, vấn đề thực sự của hồi quy là gì nếu chúng ta không thể dự đoán Y cho các chữ X không quan sát được
Johnson Jason

2
Tôi nghĩ vấn đề là bạn vẫn có thể dự đoán trong phạm vi, không nên dự đoán ngoài phạm vi. Có lẽ hầu hết các điểm dữ liệu mới sẽ nằm trong phạm vi, vì vậy mô hình sẽ vẫn hữu dụng trong phần lớn thời gian
Ryan Zotti
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.