Khi nào tôi phải ngừng tìm kiếm một mô hình?


11

Tôi đang tìm kiếm một mô hình giữa dự trữ năng lượng và thời tiết. Tôi có giá của MWatt được mua giữa các quốc gia Châu Âu và rất nhiều giá trị về thời tiết (tệp Grib). Mỗi giờ trong khoảng thời gian 5 năm (2011-2015).

Giá / ngày

nhập mô tả hình ảnh ở đây

Đây là mỗi ngày trong một năm. Tôi có điều này mỗi giờ trong 5 năm.

Ví dụ về thời tiết

nhập mô tả hình ảnh ở đây 3Dscatterplot, bằng kelvin, trong một giờ. Tôi có 1000 giá trị mỗi dữ liệu mỗi giờ và 200 dữ liệu, như klevin, gió, địa chất, v.v.

Tôi đang cố gắng dự báo giá trung bình mỗi giờ của Mwatt.

Dữ liệu của tôi về thời tiết rất dày đặc, hơn 10000 giá trị / giờ và do đó có mối tương quan cao. Đó là một vấn đề về dữ liệu lớn, ngắn.

Tôi đã thử các phương pháp Lasso, Ridge và SVR với giá trung bình của MWatt là kết quả và dữ liệu thời tiết của tôi là thu nhập. Tôi lấy 70% làm dữ liệu đào tạo và 30% làm bài kiểm tra. Nếu dữ liệu thử nghiệm của tôi không dự báo (ở đâu đó trong dữ liệu đào tạo của tôi), tôi có một dự đoán tốt (R² = 0,89). Nhưng tôi muốn làm dự báo về dữ liệu của tôi.

Vì vậy, nếu dữ liệu kiểm tra theo trình tự thời gian sau dữ liệu đào tạo của tôi thì nó không dự đoán được gì (R² = 0,05). Tôi nghĩ đó là bình thường bởi vì đó là một serie thời gian. Và có rất nhiều sự tự kỷ.

Tôi nghĩ rằng tôi phải sử dụng mô hình serie thời gian như ARIMA. Tôi đã tính thứ tự của phương thức (serie là văn phòng phẩm) và tôi đã thử nghiệm nó. Nhưng nó không hoạt động. Tôi có nghĩa là dự báo có r² 0,05. Dự đoán của tôi về dữ liệu thử nghiệm hoàn toàn không phải trên dữ liệu thử nghiệm của tôi. Tôi đã thử phương pháp ARIMAX với thời tiết là hồi quy. Đặt nó không thêm bất kỳ thông tin.

ACF / PCF, dữ liệu thử nghiệm / đào tạo

Vì vậy, tôi đã thực hiện cắt giảm theo mùa mỗi ngày và mỗi tuần

ngày

nhập mô tả hình ảnh ở đây

Tuần theo xu hướng đầu tiên

nhập mô tả hình ảnh ở đây

Và tôi có thể có điều này nếu tôi có thể dự đoán xu hướng của giá cổ phiếu của mình: nhập mô tả hình ảnh ở đây

Màu xanh là dự đoán của tôi và màu đỏ là giá trị thực.

Tôi sẽ thực hiện một hồi quy với ý nghĩa thời tiết là thu nhập và xu hướng của stockprice là kết quả. Nhưng bây giờ, tôi không tìm thấy bất kỳ mối quan hệ.

Nhưng nếu không có tương tác, làm sao tôi biết không có gì? có lẽ chỉ là tôi không tìm thấy nó.


Câu hỏi của bạn quá rộng để có thể trả lời. Bạn đang làm người mẫu nào? "Không hoạt động" là gì? Regression và ARIMA là những mô hình hoàn toàn khác nhau, vậy chính xác thì bạn đang làm gì ..?
Tim

Tôi đang mô hình hóa sự phát triển của giá cả. Và tôi đã nhận được R² dưới 0,2 trong dự báo của mình
el Josso

1
Và chính xác vấn đề ở đây là gì? Bạn có thể giải thích về dữ liệu của bạn là gì, bạn đã thử mô hình nào, bạn có vấn đề gì và quan trọng nhất: câu hỏi của bạn ở đây là gì? Làm thế nào để bạn xác định "sự tiến hóa của giá"? Như tôi đã nói, câu hỏi của bạn quá mơ hồ và quá rộng và do đó, một ứng cử viên phải đóng cửa là không thể trả lời.
Tim

Tôi có cần thêm đồ họa không?
el Josso

Bạn có thể nếu nó giúp (trong nhiều trường hợp là như vậy) :)
Tim

Câu trả lời:


7

Bạn có thể quan tâm đến một lĩnh vực khoa học chính thức gọi là "cơ học tính toán." Trong một bài viết của James Crutchfield và David Feldman, họ đã đưa ra chương trình cơ học tính toán, theo như tôi hiểu thì đó là phân tích ranh giới giữa (1) sự không chắc chắn xác định và chi phí thông tin để suy ra các mối quan hệ xác định, (2) tính không chắc chắn và chi phí thông tin của việc phân phối xác suất và (3) độ không đảm bảo entropic và hậu quả của việc kém thông tin.

Để trả lời câu hỏi của bạn trực tiếp (mặc dù cũng khá rộng, vì bạn đã hỏi một câu hỏi rộng), làm thế nào chúng ta biết khi nào chúng ta đã học "đủ" hay "tất cả những gì chúng ta có thể" từ dữ liệu là một lĩnh vực nghiên cứu mở. Cái trước nhất thiết phải phụ thuộc vào nhu cầu của một người là nhà nghiên cứu và diễn viên trên thế giới (ví dụ, được cho bao nhiêu thời gian? Bao nhiêu sức mạnh xử lý? Bao nhiêu bộ nhớ, bao nhiêu khẩn cấp, v.v.).

Tôi không quan tâm đến lĩnh vực này, hoặc thậm chí sâu sắc với bài viết cụ thể này, nhưng họ là một số người suy nghĩ tuyệt vời. :)

Crutchfield, JP và Feldman, DP (2003). Các quy tắc không nhìn thấy, ngẫu nhiên quan sát: Mức độ hội tụ entropy . Hỗn loạn , 13 (1): 25 trận54.


1
Không chắc chắn nếu điều này 'trả lời câu hỏi OP, nhưng tôi thích quan điểm này.
horaceT

Nó không thực sự là những gì tôi đang tìm kiếm nhưng nó là một bài viết tốt.
el Josso
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.