Dựa trên các nhận xét trước đó về Stack Overflow:
Vâng, nó có ý nghĩa. Ở đây tôi giải quyết câu hỏi chung và rất vui khi để các chuyên gia R điền vào các chi tiết quan trọng. Theo quan điểm của tôi, vì hiện tại đã có Xác thực chéo, chúng ta không nên tập trung quá hẹp vào phần mềm yêu thích của người đăng, mặc dù điều đó là dành cho những người cùng chí hướng.
Ngày trong bất kỳ phần mềm nào nếu không phải là số có thể được chuyển đổi thành các biến số, được biểu thị bằng năm, ngày, mili giây hoặc bất cứ thứ gì kể từ thời điểm gốc. Hệ số liên quan đến mỗi ngày có đơn vị mẫu số là bất kỳ đơn vị nào của ngày. Các đơn vị tử số phụ thuộc vào các đơn vị của phản ứng hoặc biến phụ thuộc. (Các chức năng liên kết phi danh tính làm phức tạp điều này, một cách tự nhiên.)
Tuy nhiên, nó thường có ý nghĩa nhất khi ngày được chuyển sang một nguồn gốc có ý nghĩa cho nghiên cứu. Thông thường, nhưng không nhất thiết, nguồn gốc nên là một ngày trong khoảng thời gian nghiên cứu hoặc rất gần với nó.
Có lẽ trường hợp đơn giản nhất là hồi quy tuyến tính trên một biến ngày theo năm. Dưới đây là một hồi quy của một số response
trên date
thể hiện dưới dạng số ngày như 2000 hoặc 2010 ngụ ý một đánh chặn mà là giá trị của response
năm 0. Thiết lập sang một bên các chi tiết calendrical rằng không có năm như vậy, một đánh chặn như vậy thường là tích cực ngớ ngẩn lớn hay tiêu cực, đó là logic nhưng một sự phân tâm trong giải thích và trình bày (ngay cả với những khán giả có hiểu biết tốt).
Trong một ví dụ thực tế từ việc làm việc với các sinh viên đại học, số lượng lốc xoáy mỗi năm trong một khu vực nhất định đang tăng nhẹ theo ngày và xu hướng tuyến tính có vẻ là cú đâm đầu tiên hợp lý. Chặn từ hồi quy là một số âm lớn, gây ra nhiều bối rối cho đến khi nhận ra rằng điều này, như mọi khi, ngoại suy sang năm 0. Chuyển nguồn gốc sang năm 2000 tạo ra kết quả tốt hơn. (Trên thực tế, hồi quy Poisson đảm bảo dự đoán tích cực thậm chí còn tốt hơn, nhưng đó là một câu chuyện khác.)
Suy thoái về date - 2000
hoặc bất cứ điều gì như vậy là một ý tưởng tốt. Các chi tiết thực chất của một nghiên cứu thường chỉ ra một ngày cơ sở tốt, tức là một nguồn gốc mới.
Việc sử dụng các mô hình khác và / hoặc các yếu tố dự đoán khác không làm suy yếu nguyên tắc này; nó chỉ che khuất nó
Nó cũng là một ý tưởng tốt để biểu đồ kết quả bằng cách sử dụng bất cứ ngày nào dễ nghĩ nhất. Đây có thể là ngày ban đầu; đó không phải là một mâu thuẫn, vì nó chỉ là cùng một nguyên tắc sử dụng bất cứ điều gì dễ nghĩ nhất.
Một chút suy nghĩ cho thấy nguyên tắc này chung chung hơn nhiều. Chúng ta thường tốt hơn với (tuổi - 20) hoặc một số như vậy, để tránh những dự đoán hợp lý nhưng vụng về cho tuổi 0.
EDIT 21 tháng 3 năm 2019 (bản gốc ngày 29 tháng 7 năm 2013): Những lập luận này đã được thảo luận trong bối cảnh Stata ở Cox, NJ 2015. Loài có nguồn gốc. Tạp chí Stata 15: 574-587
xem tại đây
EDIT 2 cũng 4 tháng 12 năm 2015 @whuber trong các bình luận cũng đặt ra vấn đề quan trọng của độ chính xác số. Thông thường các đơn vị thời gian là tốt và ngày kết quả hoặc thời gian ngày có thể rất lớn, gây ra các vấn đề quan trọng cho các tổng bình phương, vv và vv. Ông nêu ra một ví dụ từ R. Để chúng ta có thể thêm (ví dụ) thời gian ngày ở Stata là mili giây kể từ đầu năm 1960. Vấn đề này hoàn toàn không cụ thể đối với ngày, vì nó có thể phát sinh chung với những con số rất lớn hoặc rất nhỏ, nhưng nó cũng có giá trị gắn cờ.