Tìm kiếm ví dụ cơ sở hạ tầng / quy trình công việc / đường ống

14

Tôi đang cố gắng hiểu làm thế nào tất cả các thành phần "dữ liệu lớn" kết hợp với nhau trong trường hợp sử dụng trong thế giới thực, ví dụ: hadoop, monogodb / nosql, bão, kafka, ... Tôi biết rằng đây là một loạt các công cụ được sử dụng cho các loại khác nhau, nhưng tôi muốn biết thêm về sự tương tác của chúng trong các ứng dụng, ví dụ như suy nghĩ học máy cho một ứng dụng, webapp, cửa hàng trực tuyến.

Tôi có vistors / phiên, dữ liệu giao dịch, vv và lưu trữ đó; nhưng nếu tôi muốn đưa ra các đề xuất một cách nhanh chóng, tôi không thể chạy các bản đồ chậm / giảm việc làm cho điều đó trên một số cơ sở dữ liệu lớn về nhật ký mà tôi có. Tôi có thể tìm hiểu thêm về các khía cạnh cơ sở hạ tầng ở đâu? Tôi nghĩ rằng tôi có thể tự mình sử dụng hầu hết các công cụ, nhưng cắm chúng vào nhau dường như là một nghệ thuật của riêng nó.

Có bất kỳ ví dụ công khai / trường hợp sử dụng vv có sẵn? Tôi hiểu rằng các đường ống riêng lẻ phụ thuộc rất nhiều vào trường hợp sử dụng và người dùng, nhưng chỉ là ví dụ có thể sẽ rất hữu ích với tôi.

— chrshmmmr
nguồn

Bạn đã thực hiện bất kỳ nghiên cứu về điều này? Có nhiều video youtube và các bài thuyết trình trình chiếu mô tả các kiến trúc khác nhau

— Stanpol

1

Xin chào Stanpol, cảm ơn phản hồi của bạn - Tôi đã thực hiện một số tìm kiếm ban đầu và không thực sự tìm thấy gì ngoài AWS và công cụ cloudera - có thể nếu bạn có thể đưa cho tôi một số thuật ngữ tìm kiếm đầy hứa hẹn, tôi sẽ rất vui khi nhận nó từ đó.

— chrshmmmr

14

Để hiểu được nhiều cách khác nhau mà máy học có thể được tích hợp vào các ứng dụng sản xuất, tôi nghĩ thật hữu ích khi xem xét các dự án nguồn mở và bài viết / bài đăng trên blog từ các công ty mô tả cơ sở hạ tầng của họ.

Chủ đề chung mà các hệ thống này có là tách biệt đào tạo mô hình khỏi ứng dụng mô hình. Trong các hệ thống sản xuất, ứng dụng mô hình cần phải nhanh, theo thứ tự 100 giây, nhưng có nhiều tự do hơn về mức độ thường xuyên của các tham số mô hình được trang bị (hoặc tương đương) cần được cập nhật.

Mọi người sử dụng một loạt các giải pháp để đào tạo và triển khai mô hình:

Xây dựng một mô hình, sau đó xuất và triển khai nó với PMML
- AirBnB mô tả đào tạo mô hình của họ về R / Python và triển khai các mô hình PMML thông qua OpenScoring.
- Mô hình là dự án liên quan đến Cascading có thể tiêu thụ PMML và triển khai các mô hình dự đoán.
Xây dựng mô hình trong MapReduce và truy cập các giá trị trong một hệ thống tùy chỉnh
- Phỏng đoán là một dự án nguồn mở từ Etsy , cho phép đào tạo mô hình với Scalding , một trình bao bọc scala dễ sử dụng hơn quanh MapReduce và triển khai thông qua Php.
- Kiji là một dự án mã nguồn mở từ WibiData , cho phép tính điểm mô hình thời gian thực (ứng dụng) cũng như tính phù hợp để duy trì dữ liệu người dùng và mô hình đào tạo về dữ liệu đó thông qua Scalding.
Sử dụng một hệ thống trực tuyến cho phép liên tục cập nhật các tham số mô hình.
- Google đã phát hành một bài báo tuyệt vời về một bộ lọc cộng tác trực tuyến mà họ đã triển khai để đối phó với các đề xuất trong Google News.

— j_houg
nguồn

7

Một trong những giải thích chi tiết và rõ ràng nhất về việc thiết lập một đường ống phân tích phức tạp là từ những người ở Twitch .
Họ cung cấp các động lực chi tiết của từng lựa chọn kiến trúc để thu thập, vận chuyển, phối hợp, xử lý, lưu trữ và truy vấn dữ liệu của họ.
Đọc hấp dẫn! Tìm nó ở đây và ở đây .

— tchakravarty
nguồn

Điều đó thật tuyệt vời, chính xác là những gì tôi đang tìm kiếm! Cảm ơn rất nhiều :)

— chrshmmmr

@chrshmmmr Bạn được chào đón. Đừng quên upvote / mark như được chấp nhận nếu điều này có ích!

— tchakravarty

3

Các liên kết này có vẻ rất hữu ích, nhưng một lần nữa, chúng là các liên kết và tôi đoán chúng ta nên cố gắng duy trì các câu trả lời độc lập với sự ổn định của các nguồn bên ngoài. Do đó, thật tuyệt nếu bạn có thể mất khoảng hai hoặc ba phút để thêm, ví dụ, sơ đồ từ liên kết này , đăng nó cùng với một mô tả nhanh. Một cái gì đó trong dòng: "Ví dụ: đây là quy trình làm việc của một ... hệ thống. <Img>. Thông tin thêm có thể được tìm thấy trong <link>."

— Rubens

1

@Rubens Tôi sẽ đề xuất một chỉnh sửa trong một chút. fgnu: Sẽ làm như vậy, chỉ cần thêm một chút danh tiếng để thực sự nâng cao câu trả lời, nhưng tôi chắc chắn sẽ tôn trọng sự đóng góp của bạn :)

— chrshmmmr

@Rubens Điều đó sẽ không hơn gì việc sao chép thông tin tại liên kết. Tôi sẽ làm gì nếu có điều gì đó tôi cảm thấy sẽ thêm vào lời giải thích đã được đưa ra ở đó.

— tchakravarty

3

Airbnb và Etsy gần đây đã đăng thông tin chi tiết về quy trình làm việc của họ.

— Trey
nguồn

1

Chương 1 của Khoa học dữ liệu thực tế với R ( http://www.manning.com/zumel/ ) có sự phân tích lớn về quy trình khoa học dữ liệu, bao gồm vai trò của nhóm và cách chúng liên quan đến các nhiệm vụ cụ thể. Cuốn sách này theo các mô hình được trình bày trong chương bằng cách tham khảo các giai đoạn / nhân sự này hoặc nhiệm vụ cụ thể đó sẽ được thực hiện bởi.

— d8aninja
nguồn