Các thực tiễn tốt nhất để lưu, lưu trữ và chia sẻ các mô hình học máy là gì?
Trong Python, chúng tôi thường lưu trữ biểu diễn nhị phân của mô hình, sử dụng dưa chua hoặc joblib. Mô hình, trong trường hợp của tôi, có thể lớn ~ 100Mo. Ngoài ra, joblib có thể lưu một mô hình vào nhiều tệp trừ khi bạn đặt compress=1
( /programming/33497314/sklearn-dumping-model-USE-joblib-dumps-multipl-files-which-one-is-the- corre ).
Nhưng sau đó, nếu bạn muốn kiểm soát quyền truy cập vào các mô hình và có thể sử dụng các mô hình từ các máy khác nhau, cách tốt nhất để lưu trữ chúng là gì?
Tôi có một vài lựa chọn:
- Lưu trữ chúng dưới dạng tệp và sau đó đặt chúng vào kho lưu trữ bằng Git LFS
- Lưu trữ chúng trong cơ sở dữ liệu SQL dưới dạng tệp nhị phân:
- Ví dụ: trong Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB
- Đây cũng là phương pháp được đề xuất bởi nhóm SQL Server:
- https://docs.microsoft.com/en-us/sql/advified-analytics/tutorials/walkENC-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https: //bloss.technet.microsoft.com/datapl platforminsider / 2016/10/17 / sql-server-as-a-machine-learning-model-man quản lý-system
- HDFS