Gán nhiều trọng lượng hơn cho các quan sát gần đây hơn trong hồi quy


9

Làm thế nào để tôi gán thêm trọng lượng cho các quan sát gần đây hơn trong R?

Tôi cho rằng đây là một câu hỏi hoặc mong muốn thường gặp nhưng tôi có một thời gian khó khăn để tìm ra chính xác làm thế nào để thực hiện điều này. Tôi đã cố gắng tìm kiếm rất nhiều cho điều này nhưng tôi không thể tìm thấy một ví dụ thực tế tốt.

Trong ví dụ của tôi, tôi sẽ có một bộ dữ liệu lớn theo thời gian. Tôi muốn nói áp dụng một số loại trọng số theo cấp số nhân của các hàng dữ liệu gần đây hơn. Vì vậy, tôi sẽ có một số loại hàm số mũ cho biết các quan sát trong năm 2015 là ___ quan trọng hơn để đào tạo mô hình so với các quan sát trong năm 2012.

Các biến số liệu của tôi chứa hỗn hợp các giá trị phân loại và số và mục tiêu của tôi là một giá trị số - nếu điều đó quan trọng.

Tôi muốn kiểm tra / dùng thử điều này bằng cách sử dụng các mô hình như GBM / Rừng ngẫu nhiên, lý tưởng nhất là trong gói CARET.

cập nhật câu hỏi

Tôi đánh giá cao phản hồi được đưa ra dưới đây về cách giảm trọng lượng theo cấp số nhân theo khoảng cách ngày giữa hai điểm.

Tuy nhiên, khi nói đến việc đào tạo mô hình này trong caret, làm thế nào chính xác các yếu tố trọng lượng trong? Giá trị trọng lượng trong mỗi hàng đào tạo là khoảng cách giữa một số điểm trong tương lai và khi điểm đó trong lịch sử xảy ra.

Các trọng lượng chỉ có tác dụng trong dự đoán? Bởi vì nếu họ tham gia vào khóa đào tạo, liệu điều đó có gây ra đủ loại vấn đề vì các nếp gấp khác nhau sẽ có trọng lượng khác nhau, cố gắng dự đoán điều gì đó có thể thực sự xảy ra tại thời điểm trước đó không?


3
Closevote vì người hỏi cần làm rõ các vấn đề thống kê. Tôi không rõ ràng rằng GBN hoặc RF phù hợp ở đây. Đề xuất này được di chuyển đến CV.com
DWin

đồng ý. Tôi sẽ thêm một ví dụ sớm. Tôi chỉ thấy loại câu hỏi này trên internet, nhưng không có ví dụ cụ thể nào về cách áp dụng / giải quyết nó.
dùng3788557

Câu trả lời:


5

Làm thế nào để tôi gán thêm trọng lượng cho các quan sát gần đây hơn trong R?

Tôi đoán bạn có dấu thời gian liên quan đến mỗi quan sát. Bạn có thể tính toán một biến timeElapsed = modelingTime - observationTime. Bây giờ bạn áp dụng một hàm số mũ đơn giản như W=K*exp(-timeElapsed/T), trong đó Klà hằng số chia tỷ lệ và Thằng số thời gian cho hàm phân rã. Whoạt động như trường hợp trọng lượng.

Theo hiểu biết tốt nhất của tôi, nhiều hàm caretcho phép weightnhư một tham số, là một cột có trọng số trường hợp được cung cấp cho quan sát tương ứng (do đó có cùng độ dài với # mũi tên).


1
Các chức năng trong caret::trainweights.
timcdlucas

Cảm ơn bạn Ujjwal - nhưng phương pháp xác định 'K' trong phương trình của bạn là gì? bất kỳ hướng dẫn hoặc thực hành tốt nhất? Ngoài ra, ý nghĩa của 'thời gian' đối với chức năng phân rã là gì?
dùng3788557

K chỉ là một hằng số tỷ lệ và nó sẽ không ảnh hưởng nhiều đến kết quả mô hình. Bạn có thể đặt thành một số giá trị để phạm vi của các giá trị trọng số trường hợp có thể gần với phạm vi 0-1. Về "khoảng thời gian", nó còn được gọi là hằng số thời gian cho hàm phân rã theo hàm mũ bậc 1 HOẶC trung bình trọn đời. Bạn có thể tra cứu nó trên wikipedia.
Ujjwal Kumar

Xin vui lòng xem cập nhật của tôi để bài viết của tôi. Điều này sẽ làm việc chính xác trong quá trình đào tạo? Mô hình đào tạo sẽ có sai lệch vì Trọng lượng chỉ có thể được áp dụng khi được sử dụng so với tập kiểm tra? Khi tập huấn được xáo trộn ngẫu nhiên, sẽ rất tệ nếu trọng lượng cao hơn được sử dụng để dự đoán giá trong quá khứ hoặc trong khoảng thời gian không ở gần đó.
dùng3788557

Không có trọng số trường hợp, đào tạo mô hình của bạn sẽ có tầm quan trọng như nhau đối với cả dữ liệu cũ và mới nhưng với trọng số trường hợp được đề xuất, nó sẽ quan trọng hơn đối với dữ liệu mới hơn, vì vậy theo nghĩa đó, nó thiên về các quan sát mới hơn, nhưng đó là những gì bạn muốn Tôi không hiểu tại sao "trọng lượng chỉ có thể được phép cho các trường hợp thử nghiệm" . Ngoài ra, làm thế nào trọng lượng cao hơn sẽ được sử dụng cho các giá trị cũ hơn khi tập huấn được xáo trộn ngẫu nhiên? khi modelTime được giữ giống nhau cho tất cả các trường hợp đào tạo. Trọng lượng trường hợp PS không áp dụng khi chỉ sử dụng một mô hình, nó chỉ áp dụng cho thời gian đào tạo.
Ujjwal Kumar

0

Dữ liệu (không phải nhà phân tích đưa ra giả định - phỏng đoán) thường có thể đề xuất hình thức của sơ đồ trọng số. Điều này được thực hiện thông qua GLS trong đó các trọng số phù hợp cho mô hình bình phương nhỏ nhất có trọng số được lấy từ sự khác biệt có ý nghĩa thống kê được tìm thấy trong phương sai lỗi. Hãy xem Phát hiện thay đổi và ngoại lệ bằng phương tiện ARIMA (thủ tục Tsay) và tại đây http://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html . Nếu bạn muốn đăng dữ liệu, vui lòng làm như vậy tại đây và tôi sẽ cố gắng và giúp đỡ thêm vì tôi có quyền truy cập thường xuyên vào phần mềm có thể khai sáng cho bạn.

Có một phiên bản R của phần mềm tôi đang sử dụng.

Bạn có thể xem Làm thế nào để đưa các biến kiểm soát vào phân tích Can thiệp với ARIMA? vì nó có ví dụ về cách xác định và sử dụng các trọng số để ổn định phương sai lỗi, do đó tin tưởng / không tin tưởng / giảm giá / trọng số / tin tưởng một số giá trị trước đó một cách hiệu quả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.