Cách kết nối khai thác dữ liệu với quy trình người học máy


8

Tôi muốn viết một dịch vụ khai thác dữ liệu trong Google Go để thu thập dữ liệu thông qua việc quét và API.

Tuy nhiên, vì Go thiếu hỗ trợ ML tốt, tôi muốn thực hiện công cụ ML trong Python.

Có nền tảng web tôi sẽ kết nối cả hai dịch vụ với RPC nhưng vì tôi tin rằng đây là một vấn đề phổ biến trong khoa học dữ liệu, tôi nghĩ rằng có một giải pháp tốt hơn.

Ví dụ: hầu hết các giao thức (web) thiếu tại:

  • đệm giữa các quá trình
  • phân cụm trên nhiều trường hợp

Vì vậy, (loại thư viện) nào các nhà khoa học dữ liệu sử dụng để kết nối các ngôn ngữ / quy trình khác nhau?

Bodo


Một giải pháp đi theo hướng tôi đang tìm kiếm là thông thạo .
Bodokaiser

Bạn chỉ quan tâm đến các thư viện có sẵn trong Google Go?
Hack-R

@ Hack-R nếu đó là một giao thức phức tạp hơn đòi hỏi một số logic nặng, tôi muốn thư viện sẽ có sẵn trong Go nhưng tôi thậm chí sẽ thích hơn nếu thư viện cũng có sẵn cho các ngôn ngữ khác. Bạn nghĩ gì về một hàng đợi tin nhắn như nsq .
Bodokaiser

Câu trả lời:


4

Đây Data Science Toolkitmột thư viện mạnh mẽ (hoặc bộ sưu tập các thư viện, về mặt kỹ thuật) có sẵn bằng một số ngôn ngữ. Ví dụ, tôi sử dụng triển khai được gọi RDSTKtrong R.

Trong trường hợp ngôn ngữ ưa thích của bạn, Google Go, có một danh sách các thư viện liên quan đến web ở đây trông rất hữu ích.


Điều Data Science Toolkitnày rất thú vị nhưng không phải là những gì tôi đang tìm kiếm. Tôi đang tìm kiếm một số giao thức dựa trên luồng hiệu suất cao cho phép tôi truyền dữ liệu (và bộ đệm) dữ liệu từ n công cụ khai thác dữ liệu đến m bộ xử lý dữ liệu.
Bodokaiser

2

Nếu động lực duy nhất của bạn để sử dụng Google Go là webscraping và bạn muốn thực hiện ML bằng python, tôi sẽ đề xuất ngăn xếp sau:

Yêu cầu Python để cạo dữ liệu

MongoDB cho dữ liệu lưu trữ (định dạng trang hướng của MongoDB làm cho nó trở thành một ngôi nhà tự nhiên để lưu trữ các đối tượng JSON thường được API trả về)

pymongo để giao thoa trăn và mongodb

scikit-learn để làm máy học của bạn

Tất cả điều này xảy ra trong python và bạn có thể mở rộng nó nhiều bộ xử lý bằng đa xử lý hoặc tới nhiều nút bằng django


Đây là một giải pháp python tinh khiết ?
Bodokaiser

Không, sử dụng mongodb để lưu trữ. Tôi nghĩ Mongodb được viết bằng Java nếu đó là ý bạn?
rawkintrevo

1

Tôi không phải là 100% nếu một thư viện hàng đợi tin nhắn sẽ là công cụ phù hợp cho công việc này nhưng cho đến nay nó vẫn đối với tôi như vậy.

Với thư viện nhắn tin như:

Bạn có thể kết nối các quy trình khác nhau hoạt động trên môi trường khác nhau thông qua giao thức dựa trên TCP. Khi các hệ thống này chạy phân tán, có thể kết nối nhiều nút.

Đối với nsq, chúng tôi thậm chí có một thư viện bằng Python Go!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.