Thực hành tốt nhất để đo lường và tránh quá mức?


9

Tôi đang phát triển hệ thống giao dịch tự động cho thị trường chứng khoán. Những thách thức lớn đã được thừa. Bạn có thể giới thiệu một số tài nguyên mô tả các phương pháp để đo lường và tránh quá mức không?

Tôi đã bắt đầu với các tập huấn luyện / xác nhận, nhưng bộ xác nhận luôn bị làm hỏng.

Ngoài ra, dữ liệu chuỗi thời gian luôn thay đổi vì thị trường luôn thay đổi. Làm thế nào để bạn đo lường điều này và xác định khả năng kết quả phù hợp trên dữ liệu không nhìn thấy?

Cảm ơn.


3
B Bảy, câu hỏi của bạn là mức độ quá cao và không cụ thể. Về cơ bản, toàn bộ lĩnh vực học máy có thể được rút ra cho câu hỏi làm thế nào để tránh bị thừa. Có một số chiến lược như xác nhận chéo, chính quy hóa hoặc sử dụng một ưu tiên thích hợp. Mỗi cuốn sách học máy tốt có thể giúp bạn điều đó (ví dụ: Duda / Hart / Cò hoặc cuốn của Đức cha). Nó cũng không rõ ý của bạn về "bộ xác nhận bị nhiễm độc". Nếu mô hình của bạn không thể đối phó với việc thay đổi dữ liệu chuỗi thời gian, điều đó có nghĩa là nó có thể quá đơn giản. Nhưng các mô hình phức tạp hơn sẽ cần nhiều hơn nữa.
fabee

@ B Seven - nếu bộ xác thực của bạn bị hỏng (tôi giả sử bằng cách lắp mô hình cho nó) thì có lẽ việc chia dữ liệu của bạn thành tập huấn luyện, kiểm tra và xác thực có thể phù hợp hơn?
richiemorrisroe

Được rồi, cái đó có lý. Vì vậy, các cách tiếp cận khác nhau để tránh làm việc quá mức trong các lĩnh vực khác nhau.
B Bảy

Câu trả lời:


5

Đối với sự phù hợp quá mức trong lựa chọn mô hình, thì một bài báo đáng đọc là

C. Ambroise và GJ McLachlan, "Lựa chọn sai lệch trong trích xuất gen trên cơ sở dữ liệu biểu hiện gen microarray", PNAS, vol. 99 không. 10 6562-6566, tháng 5 năm 2002. http://dx.doi.org/10.1073/pnas.102102699

Để thảo luận về cùng loại vấn đề phát sinh trong lựa chọn mô hình, xem

GC Cawley, NLC Talbot, "Về sự phù hợp quá mức trong lựa chọn mô hình và xu hướng lựa chọn tiếp theo trong đánh giá hiệu suất", Tạp chí nghiên cứu máy học, 11 (tháng 7): 2079−2107, 2010 http://jmlr.csail.mit. edu / giấy tờ / v11 / cawley10a.html

Cách để giải quyết vấn đề của bộ xác thực trở nên vô hiệu là sử dụng xác thực chéo lồng nhau, vì vậy phương pháp được sử dụng để đưa ra các lựa chọn về mô hình được thực hiện độc lập trong mỗi lần xác thực chéo được sử dụng để ước tính hiệu suất. Về cơ bản, ước tính hiệu suất phải ước tính hiệu suất của toàn bộ quy trình khớp mô hình (phù hợp với mô hình, lựa chọn tính năng, lựa chọn mô hình, mọi thứ).

Cách tiếp cận khác là trở thành một người Bayes. Nguy cơ của sự phù hợp quá mức được đưa ra bất cứ khi nào bạn tối ưu hóa một tiêu chí dựa trên một mẫu dữ liệu hữu hạn, vì vậy nếu bạn làm cho lề (tích hợp ra) thay vì tối ưu hóa thì việc khớp quá mức cổ điển là không thể. Tuy nhiên, bạn có vấn đề về việc chỉ định các linh mục.


Tôi đã thực hiện Xác thực chéo và bỏ qua Xác thực chéo, nhưng không tìm ra cách đo lường và giảm thiểu quá mức. Tôi nhìn vào những tờ giấy đó, nhưng chúng ở trên đầu tôi. Bạn có thể giới thiệu bất kỳ nguồn giới thiệu hơn?
B Bảy

2
để đo quá mức, bạn chỉ cần lồng xác thực chéo. Xác thực chéo bên ngoài được sử dụng để đánh giá hiệu suất và với mỗi lần xác thực chéo bên ngoài, xác thực chéo "bên trong" được sử dụng để lựa chọn tính năng và lựa chọn mô hình, v.v. Điều đó sẽ cho bạn ước tính hiệu suất không thiên vị.
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.