Là tự động tương quan trong một tập dữ liệu học tập có giám sát là một vấn đề?


10

Hãy tưởng tượng vấn đề sau đây. Tôi có ảnh chụp nhanh hàng tuần về dữ liệu giá của các mặt hàng K, cũng như các tính năng / dự đoán khác nhau. Tôi muốn dự đoán giá sẽ thay đổi 2 năm kể từ bây giờ.

Tôi tập hợp dữ liệu của mình như sau: mỗi hàng bao gồm các tính năng cho từng mục cho mỗi tuần và biến đầu ra được chuyển tiếp giá 2 năm. Ngày quan sát không có trong tập dữ liệu của tôi - Tôi chỉ sử dụng nó để tách tập dữ liệu thành tập huấn luyện và xác thực, tức là trong xác thực chéo (trong đó tôi loại bỏ 2 năm dữ liệu trước và sau khoảng thời gian xác thực (đó là 1 năm) để ngăn chặn dữ liệu rình mò).

Rõ ràng, các mẫu từ hai tuần liên tiếp cho cùng một mặt hàng (và thậm chí cho các mặt hàng khác nhau) sẽ có mối tương quan cao, cả về tính năng và về biến số phản hồi (vì 2 năm tới sẽ trùng lặp phần lớn, có nghĩa là lợi nhuận sẽ rất giống nhau). Những vấn đề tiềm ẩn nào có thể gây ra cho các phương pháp học tập có giám sát, ví dụ như rừng ngẫu nhiên hoặc cây tăng cường độ dốc?

Suy nghĩ của tôi là:

  1. Kích thước hiệu quả của bộ dữ liệu sẽ nhỏ hơn dự kiến. Tức là bộ dữ liệu của tôi, giả sử, 100'000 quan sát sẽ hoạt động giống như một bộ dữ liệu 100'000 / (52 * 2) ~ = 1000 quan sát, vì đó là số lượng mẫu mà phản hồi sẽ không tự tương quan. Điều đó sẽ ảnh hưởng đáng kể đến sự phức tạp của các mô hình mà tôi có thể phù hợp với dữ liệu, tức là tôi sẽ gặp vấn đề quá mức đáng kể và có kết quả kém hơn nhiều so với dự kiến.
  2. Do các tính năng ở rất gần nhau trong các tuần liên tiếp cho mỗi mục trong không gian tính năng, bộ dữ liệu của tôi sẽ bao phủ không gian tính năng tồi tệ hơn nhiều so với dự kiến, một lần nữa làm giảm kích thước "hiệu quả" của bộ dữ liệu.
  3. Chỉ sử dụng 1 năm dữ liệu để xác thực chéo sẽ xác nhận kết quả xác thực chéo cao, vì một lần nữa, số lượng mẫu hiệu quả trong bộ xác thực sẽ là ~ K thay vì 52 * K.

Là những mối quan tâm hợp lệ? Nếu có, điều đó có nghĩa là với K ~ = 100, tôi sẽ cần hàng trăm, nếu không phải hàng ngàn năm dữ liệu để có thể đào tạo một mô hình phi tuyến tính phức tạp hợp lý từ hàng trăm tính năng, ví dụ như sử dụng rừng ngẫu nhiên hoặc cây tăng cường độ dốc? Hay tôi đang quá bi quan và lập luận của tôi về "kích thước tập dữ liệu hiệu quả" ở trên là vô nghĩa?

Câu trả lời:


6

Bạn chạm vào một vấn đề có song song trong tài liệu kinh tế lượng. Nó được gọi là vấn đề dự đoán đường chân trời dài. Mặc dù rất khó để dự đoán thị trường chứng khoán và tiền tệ trong ngắn hạn, một số nghiên cứu kinh tế lượng đã chỉ ra rằng lợi nhuận dài hạn là "dễ dự đoán hơn nhiều" bằng cách sử dụng các đồng biến như tỷ suất cổ tức.

Chà, hóa ra có một lỗ hổng tinh tế trong các mô hình này. Vì cả phản hồi và các yếu tố dự đoán đều bao gồm một giai đoạn chồng chéo, chúng được tự động hóa tương quan cao trong các chân trời và các điểm dữ liệu không độc lập.

Đây là một vài bài báo tôi có thể tìm thấy trong thư viện của mình. Bài báo Berkowitz có lẽ là tàn phá nhất về chủ đề này.

Một nghiên cứu cho thấy khả năng dự đoán đường chân trời dài:

Mark, NC, & Choi, DY (1997). Dự đoán tỷ giá hối đoái thực trên các chân trời dài. Tạp chí kinh tế quốc tế, 43 (1), 29-60.

Phê bình và kiểm tra thống kê:

Berkowitz, J., & Giorgianni, L. (2001). Dự đoán tỷ giá hối đoái dài hạn?. Tạp chí Kinh tế và Thống kê, 83 (1), 81-91.

Boudoukh, J., Richardson, M., & Whitelaw, RF (2006). Huyền thoại về khả năng dự đoán đường chân trời dài. Tạp chí Nghiên cứu Tài chính, 21 (4), 1577-1605.

Richardson, M., & Smith, T. (1991). Các thử nghiệm của các mô hình tài chính với sự hiện diện của các quan sát chồng chéo. Tạp chí Nghiên cứu Tài chính, 4 (2), 227-254.


2
Cảm ơn bạn. Một cái nhìn nhanh qua các tài liệu (bao gồm cả phản ứng của Mark đối với những lời chỉ trích của Berkowitz) cho thấy câu hỏi liệu lợi nhuận dài hạn có "dễ dự đoán hơn" không hoàn toàn được giải quyết. Có vẻ như tôi không nên quá lo lắng về mối tương quan giả nếu tôi sử dụng xác thực chéo một cách chính xác, miễn là tôi vô tình giới thiệu lựa chọn tính năng từ toàn bộ dữ liệu vào mô hình. Nhưng tôi vẫn chưa rõ hơn nhiều về việc liệu cỡ mẫu có phải là vấn đề hay không.
rinspy

@rinspy Vui mừng bạn đọc lên chủ đề. Đã được một thời gian nhưng ấn tượng của tôi là Berkowitz et al có một trường hợp mạnh mẽ hơn nhiều và sự bảo vệ của Mark không thuyết phục, do đó bạn chưa thấy nhiều bài báo về "khả năng dự đoán đường chân trời dài" này và điều đó. Bây giờ trở lại câu hỏi của bạn. Tôi không chắc ý của bạn là gì khi sử dụng CV "chính xác", vui lòng giải thích.
horaceT

@rinspy Root của vấn đề là độc lập dữ liệu. Hầu như tất cả các thuật toán học máy đều dựa vào giả định cơ bản này. Nếu bạn lấy hai điểm dữ liệu đo các công cụ chồng lấp, hai điểm dữ liệu không độc lập. Thuật toán duy nhất mà tôi biết rằng không yêu cầu giả định này là học tăng cường.
horaceT

3

Hãy phác họa vấn đề của bạn như sau:

(1)f({Xt:tT})=XT+1

nghĩa là, bạn đang cố gắng học máy một hàm . Bộ tính năng của bạn là tất cả các dữ liệu có sẵn cho đến khi . Trong một ký hiệu quá tải nào đó, tôi muốn nhấn mạnh một thực tế rằng nếu chúng ta xem là một quá trình ngẫu nhiên, sẽ thuận tiện khi áp dụng thích nghi với một bộ lọc ( một luồng thông tin ngày càng tăng ) - Tôi đang đề cập đến việc lọc ở đây vì lợi ích hoàn toànf(x)TXX

Chúng ta cũng có thể xem phương trình là cố gắng ước tính ( ở đây ):1

E[XT+1|XT,XT1,..]=f({Xt:tT})

Trong trường hợp đơn giản nhất xuất hiện trong đầu tôi - hồi quy tuyến tính OLS - chúng ta có:

E[XT+1|XT,XT1,..]=Xb+e

Tôi đang đề xuất dòng suy nghĩ này để kết nối việc học thống kê và kinh tế lượng cổ điển.

Tôi đang làm như vậy bởi vì, bất kể bạn ước tính như thế nào (hồi quy tuyến tính, rừng ngẫu nhiên, GBM, ..) , bạn sẽ phải đối phó với sự ổn định của quy trình X của bạn, đó là: cách hành xử đúng lúc. Có nhiều định nghĩa về sự ổn định cố gắng mang đến cho chúng ta hương vị của thời gian - tính đồng nhất của quá trình ngẫu nhiên của bạn, tức là giá trị trung bình và phương sai của công cụ ước tính của giá trị dự kiến ​​của bạn sẽ như thế nào khi bạn tăng chân trời dự báo.E[XT+1|XT,XT1,..]E[XT+1|XT,XT1,..]

  • Trong trường hợp xấu nhất, khi không có sự đồng nhất, mỗi {X_t} được rút ra từ một biến ngẫu nhiên khác nhau.
  • Kịch bản trường hợp tốt nhất, iid.

Chúng ta đang ở giữa kịch bản trường hợp xấu nhất và tốt nhất: tự tương quan tác động đến kiểu ổn định mà quá trình ngẫu nhiên hiển thị: hàm tự động điều khiển , trong đó là khoảng cách thời gian giữa hai phép đo, đặc trưng cho các quá trình đứng yên yếu. Hàm autocorrelation là phiên bản độc lập theo quy mô của hàm autocovariance ( nguồn , nguồn )γ(h)h

Nếu hàm trung bình m (t) không đổi và hàm hiệp phương r (s, t) là hữu hạn ở mọi nơi và chỉ phụ thuộc vào chênh lệch thời gian = t - s, quá trình {X (t), t ∈ T} là được gọi là văn phòng phẩm yếu, hoặc hiệp phương sai ( nguồn )

Khung văn phòng phẩm yếu sẽ hướng dẫn bạn cách xử lý dữ liệu của bạn. Điểm mấu chốt là bạn không thể đặt tương quan tự động dưới tấm thảm - bạn phải đối phó với nó:

  • Bạn tăng mức độ chi tiết của lưới thời gian: Bạn vứt bỏ các điểm dữ liệu (ít chi tiết hơn và ít dữ liệu hơn để huấn luyện mô hình của bạn) nhưng tương quan tự động vẫn khiến bạn bị phân tán và bạn sẽ thấy rất nhiều phương sai trong xác thực chéo của bạnE[XT+1|XT,XT1,..]

  • Bạn tăng độ chi tiết của lưới thời gian: lấy mẫu, phân đoạn và xác thực chéo đều phức tạp hơn nhiều. Từ quan điểm mô hình, bạn sẽ phải đối phó với sự tương quan tự động một cách rõ ràng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.