Tìm kiếm ví dụ cơ sở hạ tầng / quy trình công việc / đường ống


14

Tôi đang cố gắng hiểu làm thế nào tất cả các thành phần "dữ liệu lớn" kết hợp với nhau trong trường hợp sử dụng trong thế giới thực, ví dụ: hadoop, monogodb / nosql, bão, kafka, ... Tôi biết rằng đây là một loạt các công cụ được sử dụng cho các loại khác nhau, nhưng tôi muốn biết thêm về sự tương tác của chúng trong các ứng dụng, ví dụ như suy nghĩ học máy cho một ứng dụng, webapp, cửa hàng trực tuyến.

Tôi có vistors / phiên, dữ liệu giao dịch, vv và lưu trữ đó; nhưng nếu tôi muốn đưa ra các đề xuất một cách nhanh chóng, tôi không thể chạy các bản đồ chậm / giảm việc làm cho điều đó trên một số cơ sở dữ liệu lớn về nhật ký mà tôi có. Tôi có thể tìm hiểu thêm về các khía cạnh cơ sở hạ tầng ở đâu? Tôi nghĩ rằng tôi có thể tự mình sử dụng hầu hết các công cụ, nhưng cắm chúng vào nhau dường như là một nghệ thuật của riêng nó.

Có bất kỳ ví dụ công khai / trường hợp sử dụng vv có sẵn? Tôi hiểu rằng các đường ống riêng lẻ phụ thuộc rất nhiều vào trường hợp sử dụng và người dùng, nhưng chỉ là ví dụ có thể sẽ rất hữu ích với tôi.


Bạn đã thực hiện bất kỳ nghiên cứu về điều này? Có nhiều video youtube và các bài thuyết trình trình chiếu mô tả các kiến ​​trúc khác nhau
Stanpol

1
Xin chào Stanpol, cảm ơn phản hồi của bạn - Tôi đã thực hiện một số tìm kiếm ban đầu và không thực sự tìm thấy gì ngoài AWS và công cụ cloudera - có thể nếu bạn có thể đưa cho tôi một số thuật ngữ tìm kiếm đầy hứa hẹn, tôi sẽ rất vui khi nhận nó từ đó.
chrshmmmr

Câu trả lời:


14

Để hiểu được nhiều cách khác nhau mà máy học có thể được tích hợp vào các ứng dụng sản xuất, tôi nghĩ thật hữu ích khi xem xét các dự án nguồn mở và bài viết / bài đăng trên blog từ các công ty mô tả cơ sở hạ tầng của họ.

Chủ đề chung mà các hệ thống này có là tách biệt đào tạo mô hình khỏi ứng dụng mô hình. Trong các hệ thống sản xuất, ứng dụng mô hình cần phải nhanh, theo thứ tự 100 giây, nhưng có nhiều tự do hơn về mức độ thường xuyên của các tham số mô hình được trang bị (hoặc tương đương) cần được cập nhật.

Mọi người sử dụng một loạt các giải pháp để đào tạo và triển khai mô hình:


7

Một trong những giải thích chi tiết và rõ ràng nhất về việc thiết lập một đường ống phân tích phức tạp là từ những người ở Twitch .
Họ cung cấp các động lực chi tiết của từng lựa chọn kiến ​​trúc để thu thập, vận chuyển, phối hợp, xử lý, lưu trữ và truy vấn dữ liệu của họ.
Đọc hấp dẫn! Tìm nó ở đâyở đây .


Điều đó thật tuyệt vời, chính xác là những gì tôi đang tìm kiếm! Cảm ơn rất nhiều :)
chrshmmmr

@chrshmmmr Bạn được chào đón. Đừng quên upvote / mark như được chấp nhận nếu điều này có ích!
tchakravarty

3
Các liên kết này có vẻ rất hữu ích, nhưng một lần nữa, chúng là các liên kết và tôi đoán chúng ta nên cố gắng duy trì các câu trả lời độc lập với sự ổn định của các nguồn bên ngoài. Do đó, thật tuyệt nếu bạn có thể mất khoảng hai hoặc ba phút để thêm, ví dụ, sơ đồ từ liên kết này , đăng nó cùng với một mô tả nhanh. Một cái gì đó trong dòng: "Ví dụ: đây là quy trình làm việc của một ... hệ thống. <Img>. Thông tin thêm có thể được tìm thấy trong <link>."
Rubens

1
@Rubens Tôi sẽ đề xuất một chỉnh sửa trong một chút. fgnu: Sẽ làm như vậy, chỉ cần thêm một chút danh tiếng để thực sự nâng cao câu trả lời, nhưng tôi chắc chắn sẽ tôn trọng sự đóng góp của bạn :)
chrshmmmr

@Rubens Điều đó sẽ không hơn gì việc sao chép thông tin tại liên kết. Tôi sẽ làm gì nếu có điều gì đó tôi cảm thấy sẽ thêm vào lời giải thích đã được đưa ra ở đó.
tchakravarty

3

AirbnbEtsy gần đây đã đăng thông tin chi tiết về quy trình làm việc của họ.


1

Chương 1 của Khoa học dữ liệu thực tế với R ( http://www.manning.com/zumel/ ) có sự phân tích lớn về quy trình khoa học dữ liệu, bao gồm vai trò của nhóm và cách chúng liên quan đến các nhiệm vụ cụ thể. Cuốn sách này theo các mô hình được trình bày trong chương bằng cách tham khảo các giai đoạn / nhân sự này hoặc nhiệm vụ cụ thể đó sẽ được thực hiện bởi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.