Cấu trúc dự án khoa học dữ liệu / máy học Python


10

Tôi đang tìm kiếm thông tin về cách tổ chức dự án Python Machine Learning. Đối với các dự án thông thường của Python có Cookiecutter và R ProjectTemplate .

Đây là cấu trúc thư mục hiện tại của tôi, nhưng tôi đang trộn Notebook Jupyter với mã Python thực tế và nó có vẻ không rõ ràng lắm.

.
├── cache
├── data
├── my_module
├── logs
├── notebooks
├── scripts
├── snippets
└── tools

Tôi làm việc trong thư mục script và hiện đang thêm tất cả các hàm trong các tệp trong my_module, nhưng điều đó dẫn đến lỗi tải dữ liệu (đường dẫn tương đối / tuyệt đối) và các vấn đề khác.

Tôi không thể tìm thấy các thực tiễn tốt nhất hoặc các ví dụ hay về chủ đề này bên cạnh một số giải pháp cạnh tranh kaggle và một số Notebook có tất cả các chức năng cô đọng khi bắt đầu Notebook như vậy.


Xem nếu điều này giúp (không có kinh nghiệm cá nhân).
Emre

Câu trả lời:


4

Tôi không nghĩ có những thực tiễn tốt nhất trong khu vực đang phát triển này, nhưng ngoài cookiecutter, có một số ý tưởng thú vị được thể hiện trong một hướng dẫn tại hội nghị SciPy 2016: http://isaacslavitt.com/2016/07/20/ dữ liệu khoa học là phần mềm nói chuyện /

Cá nhân, tôi cố gắng giảm thiểu số lượng thư mục con trong một dự án trừ khi tôi có một cách thực sự tốt để phân biệt chúng và có lý do chính đáng để tách chúng ra. Tổ chức xấu gần như tồi tệ như không có tổ chức. Tôi nghĩ rằng cách thực hành tốt nhất có thể phụ thuộc vào trường hợp sử dụng - không phải mọi dự án đều cần cùng một lượng nồi hơi.


3

Đại học Washington đã phát hành một mẫu dự án cho các dự án trăn khoa học nhỏ (bao gồm các dự án khoa học dữ liệu) được gọi shablona. Đó có phải là nhiều hay ít những gì bạn đang tìm kiếm?

https://github.com/uwescience/shablona

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.