Hãy để tôi thêm 2, công việc của tôi là lấy dữ liệu tốt và sạch cho một quỹ phòng hộ, tôi đã thấy khá nhiều nguồn cấp dữ liệu và nhà cung cấp dữ liệu lịch sử. Đây chủ yếu là về dữ liệu chứng khoán Mỹ.
Để bắt đầu, nếu bạn có một số tiền đừng bận tâm với việc tải xuống dữ liệu từ Yahoo, hãy lấy dữ liệu cuối ngày trực tiếp từ dữ liệu CSI , đây là lúc Yahoo lấy dữ liệu EOD của họ cũng như AFAIK. Họ có một API nơi bạn có thể trích xuất dữ liệu sang bất kỳ định dạng nào bạn muốn. Tôi nghĩ rằng đăng ký hàng năm cho dữ liệu là một vài đô la 100 đô la.
Vấn đề chính với việc tải xuống dữ liệu từ một dịch vụ miễn phí là bạn chỉ nhận được các cổ phiếu còn tồn tại, đây được gọi là Xu hướng sống sót và có thể cung cấp cho bạn kết quả sai nếu bạn xem nhiều cổ phiếu, bởi vì bạn sẽ chỉ bao gồm những cổ phiếu đã làm như vậy xa và không phải là những người đã được liệt kê.
Để chơi xung quanh với một số dữ liệu trong ngày tôi tìm hiểu về IQFeed , họ cung cấp một số API để trích xuất dữ liệu lịch sử, mặc dù chúng chủ yếu là trang phục cho các nguồn cấp dữ liệu thời gian thực. Nhưng ở đây có khá nhiều lựa chọn, một số nhà môi giới thậm chí còn cung cấp tải xuống dữ liệu lịch sử thông qua API của họ, vì vậy chỉ cần chọn chất độc của bạn.
NHƯNG thường tất cả các dữ liệu này không được sạch sẽ lắm, khi bạn thực sự bắt đầu kiểm tra lại, bạn sẽ thấy rằng một số cổ phiếu nhất định bị thiếu hoặc xuất hiện dưới dạng hai biểu tượng khác nhau hoặc chia tách cổ phiếu không được tính đúng, v.v. Và sau đó bạn nhận ra rằng lịch sử dữ liệu cổ tức cũng cần thiết và vì vậy bạn bắt đầu chạy theo vòng tròn, vá dữ liệu với nhau từ 100 nguồn dữ liệu khác nhau, v.v. Vì vậy, để bắt đầu với một nguồn cấp dữ liệu "giảm giá" sẽ làm được, nhưng ngay khi bạn chạy các backtests toàn diện hơn, bạn có thể gặp vấn đề tùy thuộc vào những gì bạn làm. Nếu bạn chỉ nhìn vào, giả sử, cổ phiếu S & P 500 điều này sẽ không có quá nhiều vấn đề và một nguồn cấp dữ liệu trong ngày "giá rẻ" sẽ làm được.
Những gì bạn sẽ không tìm thấy là dữ liệu trong ngày miễn phí. Ý tôi là bạn có thể tìm thấy một số ví dụ, tôi chắc chắn có khoảng 5 năm dữ liệu đánh dấu MSFT trôi nổi nhưng điều đó sẽ không giúp bạn tiến xa.
Sau đó, nếu bạn cần những thứ thực sự (sổ đặt hàng cấp II, tất cả các dấu hiệu như chúng đã xảy ra ở tất cả các sàn giao dịch), một lựa chọn "giá cả phải chăng", nhưng tuyệt vời là Nanex . Họ thực sự sẽ gửi cho bạn một ổ đĩa với terabyte dữ liệu. Nếu tôi nhớ đúng khoảng $ 3k-4K mỗi năm dữ liệu. Nhưng tin tôi đi, một khi bạn hiểu việc kiếm được dữ liệu tốt trong ngày khó đến mức nào, bạn sẽ không nghĩ rằng đây là rất nhiều tiền.
Không làm bạn nản lòng nhưng để có được dữ liệu tốt thì khó, thực tế là nhiều quỹ đầu cơ và ngân hàng phải chi hàng trăm ngàn đô la mỗi tháng để có được dữ liệu mà họ có thể tin tưởng. Một lần nữa, bạn có thể bắt đầu ở đâu đó và sau đó đi từ đó nhưng thật tốt khi thấy nó một chút trong bối cảnh.
Chỉnh sửa: Câu trả lời ở trên là từ kinh nghiệm của riêng tôi. Bài viết này từ Caltech về các nguồn cấp dữ liệu có sẵn sẽ cung cấp thêm thông tin chi tiết và đặc biệt khuyến nghị QuantQuote .