Cách khai thác dữ liệu mới mang tính cách mạng?


21

Đoạn trích dưới đây là từ Wizzards Market Market Wizzards của Schwager's (tháng 5 năm 2012), một cuộc phỏng vấn với người quản lý quỹ phòng hộ thành công liên tục Jaffray Woodriff:

Với câu hỏi: "Một số lỗi tồi tệ nhất mà mọi người mắc phải khi khai thác dữ liệu là gì?":

Rất nhiều người nghĩ rằng họ ổn vì họ sử dụng dữ liệu trong mẫu để đào tạo và dữ liệu ngoài mẫu để thử nghiệm. Sau đó, họ sắp xếp các mô hình dựa trên cách chúng thực hiện trên dữ liệu trong mẫu và chọn mô hình tốt nhất để kiểm tra dữ liệu ngoài mẫu. Xu hướng của con người là lấy các mô hình tiếp tục làm tốt trong dữ liệu ngoài mẫu và chọn các mô hình đó để giao dịch. Loại quy trình đó chỉ đơn giản là biến dữ liệu ngoài mẫu thành một phần của dữ liệu huấn luyện bởi vì nó chọn các mô hình hoạt động tốt nhất trong giai đoạn ngoài mẫu. Đó là một trong những lỗi phổ biến nhất mà mọi người mắc phải và là một trong những lý do tại sao việc khai thác dữ liệu vì nó thường được áp dụng mang lại kết quả khủng khiếp.

Người phỏng vấn hỏi: "Thay vào đó bạn nên làm gì?":

Bạn có thể tìm kiếm các mẫu trong đó, trung bình, tất cả các mẫu ngoài mẫu tiếp tục hoạt động tốt. Bạn biết bạn đang làm tốt nếu trung bình cho các mô hình ngoài mẫu là một tỷ lệ đáng kể của điểm trong mẫu. Nói chung, bạn thực sự nhận được ở đâu đó nếu kết quả ngoài mẫu vượt quá 50 phần trăm trong mẫu. Mô hình kinh doanh của QIM sẽ không bao giờ có hiệu quả nếu SAS và IBM đang xây dựng phần mềm mô hình dự đoán tuyệt vời.


Câu hỏi của tôi
Điều này có ý nghĩa gì không? Ý của anh ta là gì? Bạn có manh mối - hoặc thậm chí có thể đặt tên cho phương thức được đề xuất và một số tài liệu tham khảo không? Hay anh chàng này đã tìm thấy chén thánh không ai khác hiểu được? Ông thậm chí còn nói trong cuộc phỏng vấn này rằng phương pháp của ông có khả năng cách mạng hóa khoa học ...


4
Có phải anh ta không chỉ đơn giản là thảo luận về các lỗi từ một mẫu phân tách duy nhất (đào tạo và xác nhận) và ủng hộ một quy trình xác nhận chéo lồng nhau?
B_Miner

12
Tôi sẽ cảnh giác với bất cứ ai tuyên bố một số hiểu biết sâu sắc sẽ cách mạng hóa "khoa học".
Đức hồng y

2
Các nhà quản lý quỹ phòng hộ tuyên bố một "phương pháp mô hình tốt hơn" và nói một chút rác rưởi về cuộc thi? Không có gì mới ở đó.
zbicyclist

2
wow, làm thế nào câu hỏi này nhận được rất nhiều upvote? Dự đoán mẫu là một vấn đề được thảo luận vào ngày đầu tiên của bất kỳ khóa học máy giới thiệu nào. Có những người không giải quyết chính xác các dự đoán ngoài mẫu, nhưng chắc chắn không có ai có manh mối nhỏ nhất về nhiệm vụ dự đoán.
dùng4733

Giao dịch tất nhiên là một vấn đề thời gian, điều anh ta nói dường như là xác nhận chéo (tất nhiên sử dụng dữ liệu đã biết) không thể giải quyết vấn đề thay đổi cấu trúc theo thời gian!, Vì vậy không phải là một chén thánh. Nhưng những gì anh ta thực sự đang làm không thể được suy luận.
kjetil b halvorsen

Câu trả lời:


6

Điều này có ý nghĩa gì không? Từng phần.

Ý của anh ta là gì? Làm ơn hỏi anh ấy.

Bạn có manh mối - hoặc thậm chí có thể đặt tên cho phương thức được đề xuất và một số tài liệu tham khảo không?

Xác nhận chéo. http://en.wikipedia.org/wiki/Cross-validation_(statistic)

Hay anh chàng này đã tìm thấy chén thánh không ai khác hiểu được? Không.

Ông thậm chí còn nói trong cuộc phỏng vấn này rằng phương pháp của ông có khả năng cách mạng hóa khoa học ... Có lẽ ông đã quên bao gồm các tài liệu tham khảo cho tuyên bố đó ...


2
Chà, ít nhất thì anh ta đang chỉ ra một vấn đề thực sự ...

8

Không chắc chắn liệu sẽ có bất kỳ câu trả lời "thô lỗ" nào khác không, nhưng đây là của tôi.

Xác thực chéo là không có cách nào "mới". Ngoài ra, Xác thực chéo không được sử dụng khi tìm thấy giải pháp phân tích. Ví dụ: bạn không sử dụng xác thực chéo để ước tính betas, bạn sử dụng OLS hoặc IRLS hoặc một số giải pháp "tối ưu" khác.

Những gì tôi thấy là một khoảng trống rõ ràng trong trích dẫn là không liên quan đến bất kỳ khái niệm nào về việc thực sự kiểm tra các mô hình "tốt nhất" để xem liệu chúng có ý nghĩa hay không. Nói chung, một mô hình tốt có ý nghĩa ở một mức độ trực quan. Có vẻ như tuyên bố rằng CV là một viên đạn bạc cho tất cả các vấn đề dự đoán. Cũng không có cuộc thảo luận nào về việc thiết lập ở mức cao hơn của cấu trúc mô hình - chúng ta có sử dụng SVM , Cây hồi quy , Tăng tốc , Đóng bao , OLS , GLMS , GLMNS không. Chúng ta có thường xuyên biến? Nếu vậy thì thế nào? Chúng ta có nhóm các biến với nhau không? Chúng ta có muốn sự mạnh mẽ đến thưa thớt không? Chúng ta có ngoại lệ không? Chúng ta nên mô hình hóa toàn bộ dữ liệu hoặc theo từng mảnh? Có quá nhiều cách tiếp cận được quyết định trên cơ sở CV .

Và một khía cạnh quan trọng khác là những gì hệ thống máy tính có sẵn? Dữ liệu được lưu trữ và xử lý như thế nào? Có thiếu - làm thế nào để chúng ta giải thích cho điều này?

Và đây là một vấn đề lớn: chúng ta có đủ dữ liệu tốt để đưa ra dự đoán tốt không? Có các biến đã biết mà chúng ta không có trong tập dữ liệu của mình không? Là đại diện dữ liệu của chúng tôi về bất cứ điều gì chúng tôi đang cố gắng dự đoán?

KK-2

npnpnp


9
Đẹp rant. Sẽ dễ đọc hơn nhiều nếu bạn sử dụng mũ thường xuyên ...
MånsT

4

Giải thích của ông về một lỗi phổ biến trong khai thác dữ liệu có vẻ hợp lý. Giải thích của anh ấy về những gì anh ấy không có ý nghĩa gì. Anh ta có ý gì khi nói "Nói chung, bạn đang thực sự nhận được ở đâu đó nếu kết quả ngoài mẫu vượt quá 50% mẫu trong mẫu."? Sau đó, SAS và IBM nói xấu cũng không khiến anh ta trông rất thông minh. Mọi người có thể có thành công trên thị trường mà không hiểu số liệu thống kê và một phần của thành công là may mắn. Thật sai lầm khi đối xử với các doanh nhân thành công như thể họ là bậc thầy về dự báo.


1
Nó không phải là khá rõ ràng những gì có nghĩa là tuyên bố trích dẫn? Tùy thuộc vào cách sử dụng các mô hình, những gì ông nói ông làm có thể có nhiều ý nghĩa. Ví dụ, "takeaway" chính từ thử thách Netflix dường như là sức mạnh của "pha trộn mô hình" miễn là người ta có rất ít nhu cầu về khả năng diễn giải. Trong trường hợp đó, một số "trung bình" ngoài hiệu suất mẫu của các mô hình đang được xem xét có thể hoàn toàn phù hợp.
Đức hồng y

@cardinal: Bạn có thể tạo ra một câu trả lời từ những suy nghĩ rất thú vị này không? Sẽ rất tuyệt, cảm ơn bạn!
vonjd

2
@cardinal Có thể rõ ràng với bạn nhưng sau đó giải thích câu "Bạn đang thực sự nhận được ở đâu đó nếu kết quả ngoài mẫu là hơn 50 phần trăm trong mẫu". Nếu bạn đang nói rằng việc lấy trung bình giữa các mô hình có thể có hiệu quả thì tất nhiên tôi có thể đồng ý với điều đó. Boosting đã được chứng minh là hoạt động tốt trong nhiều ứng dụng. Nhưng tôi không thấy nơi nào phát ra từ nhận xét của Woodriff.
Michael R. Chernick

2
Tôi rõ ràng không biết chi tiết về những gì ông Woodriff đang tuyên bố nhưng cách giải thích của tôi dựa trên đoạn trích này là một cái gì đó ảnh hưởng đến: "[Trong các ứng dụng của tôi] nếu hiệu suất ngoài mẫu trung bình [sử dụng bất kỳ số liệu nào Tôi cho rằng có liên quan] ít nhất bằng một nửa hiệu suất trong mẫu sau khi lắp mô hình, điều đó có ý nghĩa đối với ứng dụng của tôi. " Tôi là một nhà toán học / thống kê, vì vậy tôi cần cẩn thận. Nếu tôi là một người quản lý quỹ phòng hộ đang tìm kiếm một sự công nhận bên ngoài, tôi có thể sẽ hoành tráng và tuyệt đối hơn trong nhận xét của mình.
Đức hồng y

1
@cardinal Vì vậy, lấy tỷ lệ lỗi làm thước đo hiệu suất, sau đó bạn diễn giải Woodriff để nói rằng nếu tỷ lệ lỗi trong mẫu là 5% và tỷ lệ lỗi ngoài mẫu là 10% thì phương pháp nào tốt? Tại sao không chỉ nhìn vào hiệu suất mẫu để quyết định? Tôi cho rằng tỷ lệ giữa hiệu suất mẫu trong hiệu suất mẫu cho bạn biết điều gì đó về mức độ đáng tin cậy / không đáng tin cậy trong ước tính tỷ lệ lỗi mẫu nhưng tôi không thấy nó được đưa vào đánh giá hiệu suất của bộ phân loại. Tôi vẫn không thấy nơi pha trộn mô hình đi vào nhận xét của mình.
Michael R. Chernick

4

Bạn có thể tìm kiếm các mẫu trong đó, trung bình, tất cả các mẫu ngoài mẫu tiếp tục hoạt động tốt.

Sự hiểu biết của tôi về các mẫu từ ở đây, là ông có nghĩa là điều kiện thị trường khác nhau. Một cách tiếp cận ngây thơ sẽ phân tích tất cả dữ liệu có sẵn (tất cả chúng ta đều biết nhiều dữ liệu tốt hơn), để đào tạo mô hình phù hợp với đường cong tốt nhất, sau đó chạy nó trên tất cả dữ liệu và giao dịch với nó mọi lúc.

Các nhà quản lý quỹ phòng hộ thành công hơn và các nhà giao dịch thuật toán sử dụng kiến ​​thức thị trường của họ. Như một ví dụ cụ thể, nửa giờ đầu của phiên giao dịch có thể biến động nhiều hơn. Vì vậy, họ sẽ thử các mô hình trên tất cả dữ liệu của họ nhưng chỉ trong nửa giờ đầu tiên đó và trên tất cả dữ liệu của họ, ngoại trừ nửa giờ đầu tiên đó. Họ có thể phát hiện ra rằng hai trong số các mô hình của họ làm tốt trong nửa giờ đầu tiên, nhưng tám trong số họ mất tiền. Trong khi đó, khi họ loại trừ rằng nửa giờ đầu tiên, bảy người mẫu của họ kiếm được tiền, ba người mất tiền.

Nhưng, thay vì lấy hai mô hình chiến thắng đó và sử dụng chúng trong nửa giờ đầu giao dịch, họ nói: đó là thời điểm tồi tệ trong ngày đối với giao dịch thuật toán và chúng tôi sẽ không giao dịch gì cả. Phần còn lại của ngày họ sẽ sử dụng bảy mô hình của họ. Có nghĩa là thị trường dễ dự đoán hơn với máy học vào thời điểm đó, vì vậy những mô hình đó có nhiều cơ hội đáng tin cậy hơn trong tương lai. (Thời gian trong ngày không phải là mô hình duy nhất; những người khác thường liên quan đến các sự kiện tin tức, ví dụ như thị trường có nhiều biến động ngay trước khi các số liệu kinh tế quan trọng được công bố.)

Đó là cách giải thích của tôi về những gì anh ấy đang nói; nó có thể hoàn toàn sai, nhưng tôi hy vọng nó vẫn là thực phẩm hữu ích để suy nghĩ cho ai đó.


2

Là một chuyên gia tài chính, tôi biết đủ bối cảnh rằng tuyên bố không có bất kỳ sự mơ hồ nào. Chuỗi thời gian tài chính thường được đặc trưng bởi sự thay đổi chế độ, phá vỡ cấu trúc và trôi dạt khái niệm, do đó, xác nhận chéo như được thực hiện trong các ngành công nghiệp khác không thành công trong các ứng dụng tài chính. Trong phần thứ hai, ông đề cập đến một thước đo tài chính, hoặc lợi tức đầu tư theo tỷ lệ Sharpe (lợi nhuận trong tử số), không phải MSE hoặc hàm mất mát khác. Nếu chiến lược trong mẫu tạo ra lợi nhuận 10%, thì trong giao dịch thực tế, nó có thể thực sự chỉ tạo ra 5%. Phần "cách mạng" chắc chắn là về phương pháp phân tích độc quyền của ông, không phải là trích dẫn.


Một câu hỏi cho onlyvix: Bạn có biết bất kỳ công việc nào sử dụng số liệu tài chính của bạn làm công cụ để tối ưu hóa tham số, nghĩa là trực tiếp tối ưu hóa các tham số bằng cách tối đa hóa số liệu đó, thay vì sử dụng khả năng tối đa?
kjetil b halvorsen

@kbh không phải là số liệu tài chính của tôi - tối ưu hóa cho tỷ lệ sharpe là rất phổ biến. Một ví dụ ngay trên đỉnh đầu của tôi ssrn.com/abab=962461 - không có mô hình thống kê chính xác nào được phát triển nhưng các quy tắc giao dịch được tạo ra (theo thuật ngữ rất chung) tối đa hóa lợi nhuận và giảm thiểu rủi ro.
onlyvix.blogspot.com 15/2/13
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.