Là giờ trong ngày một biến phân loại?


24

Là "giờ trong ngày" trong đó giá trị có thể là 0, 1, 2, ..., 23 là một biến phân loại? Tôi sẽ bị cám dỗ để nói không, vì 5, chẳng hạn, là 'gần' với 4 hoặc 6 hơn là 3 hoặc 7.

Mặt khác, có sự gián đoạn giữa 23 và 0.

Vì vậy, nó thường được coi là phân loại hay không? Lưu ý rằng 'giờ' là một trong những biến độc lập, không phải là biến tôi đang cố gắng dự đoán.


7
Bạn đang cố gắng để thực hiện? Nếu bạn đang lắp một mô hình, giờ là đồng biến hay phản hồi, vd?
gung - Phục hồi Monica

2
Bạn có thể sử dụng biến giả cho mỗi giờ nếu bạn có đủ mức độ tự do (nghĩa là coi là phân loại) hoặc sử dụng một vài thuật ngữ Fourier đầu tiên nếu bạn không có. Nói chung, hãy nghĩ làm thế nào để thể hiện tốt nhất một mối quan hệ tiềm năng với phản hồi - một cờ giả biến duy nhất được gắn cờ khi các cửa hàng mở có thể phục vụ.
Scortchi - Tái lập Monica

Một cái gì đó như giờ có thể được coi là "phân loại" hoặc "số" tùy thuộc vào những gì hoạt động tốt nhất. Nói chung không có câu trả lời đúng hay sai - nó phụ thuộc vào những gì hoạt động tốt nhất. Tôi khuyên bạn nên thử những thứ khác nhau và xem những gì hoạt động tốt nhất trong tình huống của bạn.
roundsapes

Câu trả lời:


29

Tùy thuộc vào những gì bạn muốn mô hình hóa, giờ (và nhiều thuộc tính khác như mùa) thực sự là các biến tuần hoàn thứ tự. Trong trường hợp các mùa, bạn có thể coi chúng là ít nhiều phân loại và trong trường hợp hàng giờ bạn cũng có thể mô hình hóa chúng liên tục.

Tuy nhiên, sử dụng hàng giờ trong mô hình của bạn ở dạng không chăm sóc chu kỳ cho bạn sẽ không có kết quả. Thay vào đó hãy cố gắng đưa ra một số loại chuyển đổi. Sử dụng hàng giờ bạn có thể sử dụng phương pháp lượng giác bằng cách

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Vì vậy, thay vào đó bạn sẽ sử dụng xhryhrcho mô hình. Xem bài này ví dụ: Sử dụng các yếu tố dự báo tròn trong hồi quy tuyến tính .


2
(+1) Bạn có thể giải thích về sự khác biệt giữa các mùa và giờ không?
Scortchi - Phục hồi Monica

Hmm, tôi nghĩ rằng các mùa có một ý nghĩa tương tự như buổi sáng, buổi trưa và buổi tối khi nói về giờ trong ngày. Imho khi chỉ có thông tin mơ hồ và độ phân giải kém (như 4 giá trị theo mùa) xem xét chúng phân loại và sử dụng các biến giả để mã hóa có vẻ hợp lý. :-)
Drey

1
Tôi nghĩ điểm mấu chốt là vì chỉ có 4 mùa, sử dụng trig. Cách tiếp cận so với một đại diện phân loại bạn chỉ dành 1 độ tự do - với số giờ trong ngày bạn dành 21 độ tự do. (Và nếu bạn không cần phải dự phòng chúng, thì xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24)v.v. có thể được thêm vào, cho đến khi có đủ các quan sát, bạn cũng có thể coi giờ trong ngày là phân loại.)
Scortchi - Tái lập Monica


1

Giờ trong ngày không được biểu thị tốt nhất dưới dạng biến phân loại, vì có thứ tự tự nhiên của các giá trị. Ví dụ, màu tóc là phân loại, bởi vì thứ tự của các loại không có ý nghĩa - {đỏ, nâu, vàng} có giá trị như {tóc vàng, nâu, đỏ}. Mặt khác, trong ngày, mặt khác, có một trật tự tự nhiên - 9 giờ sáng gần hơn 10 giờ sáng hoặc 8 giờ sáng so với 6 giờ chiều. Đó là suy nghĩ tốt nhất như là một biến số thứ tự rời rạc. Nó có thêm một đặc điểm là tuần hoàn, vì 12 giờ sáng sau 11 giờ tối và trước 1 giờ sáng.


Không có thứ tự tự nhiên cho các giá trị của các biến phân loại nhất định?
DSaxton

Có, nhưng họ được mô tả tốt hơn là thứ tự trong trường hợp đó. Các biến thông thường là các biến phân loại có trình tự tự nhiên.
Hạt nhân Wang

1
Vì vậy, làm thế nào bạn sẽ đại diện cho một biến rời rạc, thứ tự, tuần hoàn như là một công cụ dự báo trong mô hình hồi quy?
Scortchi - Tái lập Monica

0

Về mặt lý thuyết, nó phụ thuộc vào cách bạn định dạng biến tức là nó có thể là "liên tục" (được mô hình hóa với một hệ số duy nhất) hoặc phân loại (một hệ số trên "giờ" trong ngày). Bạn cũng có thể thực hiện kết hợp cả hai chức năng ví dụ mảnh.

Thực tế, vì 0 và 23 về cơ bản là cùng một "giờ" trong ngày, tôi sẽ xem xét việc phân nhóm các khoảng thời gian trong ngày thành các nhóm lớn hơn, đồng nhất và đáng tin cậy hơn. Ví dụ: trong khoảng tăng 8 giờ - 8 giờ sáng đến 4 giờ chiều, 4 giờ chiều đến 12 giờ sáng và 12-8 giờ sáng.


4
0 và 23 là giờ khác biệt. 0 và 24 sẽ là cùng một giờ.
Paul củng cố

BTW, tôi giả sử theo nhận xét của Gung rằng giờ trong ngày là một biến độc lập, không phải là biến phụ thuộc được mô hình hóa. Quan điểm của tôi là 0 và 23 không khác nhau trong thực tế - bạn có nói rằng có một sự khác biệt thống kê giữa sự kiện được mô hình hóa của bạn xảy ra vào lúc 23:59 so với 0:01 không?
Frank H.

1
Không chắc chắn những vấn đề vứt bỏ thông tin được cho là để giải quyết. Xem lợi ích của việc phá vỡ một biến dự đoán liên tục là gì? .
Scortchi - Tái lập Monica

@Scortchi - giống như bài đăng nói, bạn đang giả sử một mối quan hệ liên tục như vậy việc binning sẽ "vứt bỏ" thông tin. Nhưng nếu đó không phải là trường hợp, thì binning là sự chuyển đổi phù hợp hơn. Và điều này giả định rằng bạn có đủ dữ liệu để bắt đầu, điều mà OP chưa đề cập.
Frank H.

Áp đặt các ràng buộc đối với mối quan hệ giữa người dự đoán và phản hồi không phải là điều xấu - vì bạn là người đầu tiên trong bài đăng này đưa ra, có bao nhiêu quan sát có sẵn là một sự cân nhắc quan trọng - nhưng là điều được áp đặt bởi điều này đại diện cho giờ trong ngày - bằng phẳng từ tám đến mười lăm giờ, với một bước nhảy hoặc giảm xuống vào thứ mười sáu, v.v. - dường như là một gợi ý lạ cho cách tiếp cận chung phù hợp.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.