Liệu nó có ý nghĩa để sử dụng một biến ngày trong một hồi quy?


16

Tôi không quen sử dụng các biến trong định dạng ngày trong R. Tôi chỉ tự hỏi liệu có thể thêm biến ngày làm biến giải thích trong mô hình hồi quy tuyến tính hay không. Nếu có thể, làm thế nào chúng ta có thể giải thích hệ số? Đó có phải là ảnh hưởng của một ngày đến biến kết quả?

Xem ý chính của tôi với một ví dụ những gì tôi đang cố gắng làm.


3
Một ngày có thể được chuyển đổi thành một số.

ấn tượng của tôi là R thực hiện nó tự động
PAC

3
Nhưng con số kết quả thường rất lớn, có thể dẫn đến các vấn đề. Tốt hơn là tự chuyển đổi, ví dụ như các bước thời gian (giờ hoặc ngày hoặc ...) kể từ khi bắt đầu đo. Điều đó cũng làm cho việc giải thích đánh chặn dễ dàng hơn.
Roland

3
Chuyển đổi thành yếu tố (để có được hiệu ứng cố định ngày) hoặc chuyển đổi thành số và bán lại để giá trị của ngày đầu tiên là 0 để có được hiệu ứng tuyến tính của ngày kể từ khi xuất phát.
Thomas

1
Đó là một câu hỏi thực sự tốt. Tôi nghĩ rằng đó là cả hai, một câu hỏi thống kê và một câu hỏi lập trình. Câu hỏi lập trình là làm thế nào để R xử lý ngày tháng khi chúng ta đặt ngày làm biến giải thích trong mô hình hồi quy và câu hỏi thống kê là về cách giải thích chính xác của hệ số.
PAC

Câu trả lời:


17

Dựa trên các nhận xét trước đó về Stack Overflow:

Vâng, nó có ý nghĩa. Ở đây tôi giải quyết câu hỏi chung và rất vui khi để các chuyên gia R điền vào các chi tiết quan trọng. Theo quan điểm của tôi, vì hiện tại đã có Xác thực chéo, chúng ta không nên tập trung quá hẹp vào phần mềm yêu thích của người đăng, mặc dù điều đó là dành cho những người cùng chí hướng.

Ngày trong bất kỳ phần mềm nào nếu không phải là số có thể được chuyển đổi thành các biến số, được biểu thị bằng năm, ngày, mili giây hoặc bất cứ thứ gì kể từ thời điểm gốc. Hệ số liên quan đến mỗi ngày có đơn vị mẫu số là bất kỳ đơn vị nào của ngày. Các đơn vị tử số phụ thuộc vào các đơn vị của phản ứng hoặc biến phụ thuộc. (Các chức năng liên kết phi danh tính làm phức tạp điều này, một cách tự nhiên.)

Tuy nhiên, nó thường có ý nghĩa nhất khi ngày được chuyển sang một nguồn gốc có ý nghĩa cho nghiên cứu. Thông thường, nhưng không nhất thiết, nguồn gốc nên là một ngày trong khoảng thời gian nghiên cứu hoặc rất gần với nó.

Có lẽ trường hợp đơn giản nhất là hồi quy tuyến tính trên một biến ngày theo năm. Dưới đây là một hồi quy của một số responsetrên datethể hiện dưới dạng số ngày như 2000 hoặc 2010 ngụ ý một đánh chặn mà là giá trị của responsenăm 0. Thiết lập sang một bên các chi tiết calendrical rằng không có năm như vậy, một đánh chặn như vậy thường là tích cực ngớ ngẩn lớn hay tiêu cực, đó là logic nhưng một sự phân tâm trong giải thích và trình bày (ngay cả với những khán giả có hiểu biết tốt).

Trong một ví dụ thực tế từ việc làm việc với các sinh viên đại học, số lượng lốc xoáy mỗi năm trong một khu vực nhất định đang tăng nhẹ theo ngày và xu hướng tuyến tính có vẻ là cú đâm đầu tiên hợp lý. Chặn từ hồi quy là một số âm lớn, gây ra nhiều bối rối cho đến khi nhận ra rằng điều này, như mọi khi, ngoại suy sang năm 0. Chuyển nguồn gốc sang năm 2000 tạo ra kết quả tốt hơn. (Trên thực tế, hồi quy Poisson đảm bảo dự đoán tích cực thậm chí còn tốt hơn, nhưng đó là một câu chuyện khác.)

Suy thoái về date - 2000hoặc bất cứ điều gì như vậy là một ý tưởng tốt. Các chi tiết thực chất của một nghiên cứu thường chỉ ra một ngày cơ sở tốt, tức là một nguồn gốc mới.

Việc sử dụng các mô hình khác và / hoặc các yếu tố dự đoán khác không làm suy yếu nguyên tắc này; nó chỉ che khuất nó

Nó cũng là một ý tưởng tốt để biểu đồ kết quả bằng cách sử dụng bất cứ ngày nào dễ nghĩ nhất. Đây có thể là ngày ban đầu; đó không phải là một mâu thuẫn, vì nó chỉ là cùng một nguyên tắc sử dụng bất cứ điều gì dễ nghĩ nhất.

Một chút suy nghĩ cho thấy nguyên tắc này chung chung hơn nhiều. Chúng ta thường tốt hơn với (tuổi - 20) hoặc một số như vậy, để tránh những dự đoán hợp lý nhưng vụng về cho tuổi 0.

EDIT 21 tháng 3 năm 2019 (bản gốc ngày 29 tháng 7 năm 2013): Những lập luận này đã được thảo luận trong bối cảnh Stata ở Cox, NJ 2015. Loài có nguồn gốc. Tạp chí Stata 15: 574-587 xem tại đây

EDIT 2 cũng 4 tháng 12 năm 2015 @whuber trong các bình luận cũng đặt ra vấn đề quan trọng của độ chính xác số. Thông thường các đơn vị thời gian là tốt và ngày kết quả hoặc thời gian ngày có thể rất lớn, gây ra các vấn đề quan trọng cho các tổng bình phương, vv và vv. Ông nêu ra một ví dụ từ R. Để chúng ta có thể thêm (ví dụ) thời gian ngày ở Stata là mili giây kể từ đầu năm 1960. Vấn đề này hoàn toàn không cụ thể đối với ngày, vì nó có thể phát sinh chung với những con số rất lớn hoặc rất nhỏ, nhưng nó cũng có giá trị gắn cờ.


1
Nói về mặt kinh tế học, ngày thường được sử dụng như một proxy cho một biến số không thể đo lường được, hoặc đơn giản là dữ liệu bạn không thể dễ dàng có được. Điều này có thể được nhìn thấy trong tỷ lệ bán hàng tăng của một sản phẩm nhất định từ một công ty mới theo thời gian khi nhận diện thương hiệu tăng lên. Vì rất có thể bạn không có số liệu để nhận diện thương hiệu, ngày có thể được sử dụng làm proxy. Điều này sẽ cung cấp cho các hệ số hồi quy khác "thực tế hơn" của bạn. ** TL: DR ** bạn nên cẩn thận khi sử dụng ngày trong hồi quy của mình mà không nghĩ đến ngày các yếu tố không được đo lường có thể tương quan với điều đó sẽ ảnh hưởng đến biến độc lập của bạn
scott

1
Lời khuyên tốt. Tôi phỏng đoán rằng (một chức năng) ngày dương lịch thường là proxy cho một số quá trình khó nắm bắt được bằng cách khác, vì vậy điểm này vượt ra ngoài phạm vi kinh tế lượng.
Nick Cox

1
Tôi thích sine và cosin như bất kỳ ai, nhưng việc lấy mẫu các vấn đề trong các ngành học dẫn đến phán quyết đó là gì?
Nick Cox

1
Nếu quan tâm, hãy xem stata-journal.com/sjsearch.html?choice=keyword&q=sory để biết các liên kết đến một số công việc của tôi về tính thời vụ.
Nick Cox

3
R1

5

Như đã nói ở trên, với tỷ lệ phù hợp, ngày là hồi quy tuyệt vời. Hiệu ứng thời gian ít có khả năng là tuyến tính hơn cả các hiệp phương thức điển hình, vì vậy tôi hầu như luôn sử dụng các hàm hồi quy theo thời gian. Một số xu hướng thời gian phức tạp đòi hỏi nhiều nút thắt (ví dụ: 7 hoặc nhiều hơn) để phù hợp. Các spline khối bị hạn chế (spline tự nhiên) cung cấp phép ngoại suy tuyến tính an toàn hơn sau khi kết thúc thời gian quan sát, mặc dù phép ngoại suy hiếm khi hoàn toàn an toàn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.