Nghiên cứu trường hợp dữ liệu lớn hoặc ví dụ trường hợp sử dụng


13

Tôi đã đọc rất nhiều blog \ bài viết về cách các loại ngành công nghiệp khác nhau đang sử dụng Phân tích dữ liệu lớn. Nhưng hầu hết các bài viết này không đề cập đến

  1. Những loại dữ liệu các công ty sử dụng. Kích thước của dữ liệu là gì
  2. Những loại công cụ công nghệ họ đã sử dụng để xử lý dữ liệu
  3. Vấn đề họ gặp phải là gì và cái nhìn sâu sắc mà họ có được dữ liệu đã giúp họ giải quyết vấn đề như thế nào.
  4. Cách họ chọn công cụ \ công nghệ phù hợp với nhu cầu của họ.
  5. Kiểu mẫu nào họ xác định được từ dữ liệu & loại mẫu nào họ đang tìm kiếm từ dữ liệu.

Tôi tự hỏi nếu ai đó có thể cung cấp cho tôi câu trả lời cho tất cả những câu hỏi này hoặc một liên kết mà ít nhất là trả lời một số câu hỏi. Tôi đang tìm kiếm ví dụ thế giới thực.

Sẽ thật tuyệt nếu ai đó chia sẻ cách ngành công nghiệp tài chính sử dụng Big Data Phân tích.

Câu trả lời:


14

Các cửa hàng tin tức có xu hướng sử dụng "Dữ liệu lớn" khá lỏng lẻo. Các nhà cung cấp thường cung cấp các nghiên cứu trường hợp xung quanh các sản phẩm cụ thể của họ. Không có nhiều thứ để triển khai nguồn mở, nhưng chúng được đề cập. Chẳng hạn, Apache sẽ không dành nhiều thời gian để xây dựng một nghiên cứu trường hợp trên hadoop, nhưng các nhà cung cấp như Cloudera và Hortonworks có thể sẽ làm được.

Dưới đây là một ví dụ điển hình từ Cloudera trong lĩnh vực tài chính.

Trích dẫn nghiên cứu:

Một tập đoàn dịch vụ tài chính toàn cầu lớn sử dụng Cloudera và Datameer để giúp xác định hoạt động giao dịch giả mạo. Các nhóm trong nhóm quản lý tài sản của công ty đang thực hiện phân tích đặc biệt về nguồn cấp dữ liệu hàng ngày về giá cả, vị trí và thông tin đặt hàng. Có phân tích đặc biệt cho tất cả các dữ liệu chi tiết cho phép nhóm phát hiện sự bất thường trên các loại tài sản nhất định và xác định hành vi đáng ngờ. Người dùng trước đây chỉ dựa vào các công cụ bảng tính để bàn. Giờ đây, với Datameer và Cloudera, người dùng có một nền tảng mạnh mẽ cho phép họ sàng lọc nhiều dữ liệu nhanh hơn và tránh các tổn thất tiềm năng trước khi bắt đầu.

.

Một ngân hàng bán lẻ hàng đầu đang sử dụng Cloudera và Datameer để xác thực tính chính xác và chất lượng dữ liệu theo yêu cầu của Đạo luật Dodd-Frank và các quy định khác. Tích hợp dữ liệu cho vay và chi nhánh cũng như dữ liệu quản lý tài sản, sáng kiến ​​chất lượng dữ liệu của ngân hàng có trách nhiệm đảm bảo mọi hồ sơ đều chính xác. Quá trình này bao gồm việc tuân theo dữ liệu của hơn 50 kiểm tra chất lượng và kiểm tra chất lượng dữ liệu. Kết quả của các kiểm tra được theo xu hướng theo thời gian để đảm bảo rằng dung sai cho tham nhũng dữ liệu và miền dữ liệu không thay đổi bất lợi và hồ sơ rủi ro được báo cáo cho các nhà đầu tư và cơ quan quản lý là thận trọng và tuân thủ các yêu cầu quy định. Kết quả được báo cáo thông qua bảng điều khiển chất lượng dữ liệu cho Giám đốc rủi ro và Giám đốc tài chính,

Tôi đã không thấy bất kỳ nghiên cứu liên quan đến tài chính nào khác tại Cloudera, nhưng tôi đã không tìm kiếm rất nhiều. Bạn có thể xem thư viện của họ ở đây.

Ngoài ra, Hortonworks có một nghiên cứu tình huống về Chiến lược giao dịch , nơi họ đã thấy giảm 20% thời gian cần thiết để phát triển một chiến lược bằng cách tận dụng K-mean, Hadoop và R.

Mỗi màu cho biết một nhóm chiến lược có xác suất lãi và lỗ tương tự

hệ thống giao dịch đã được cải thiện như thế nào bằng cách sử dụng Hadoop (Nền tảng dữ liệu Hortonworks) và thuật toán k-mean

Họ không trả lời tất cả các câu hỏi của bạn. Tôi khá chắc chắn rằng cả hai nghiên cứu này bao gồm hầu hết trong số họ. Tôi không thấy bất cứ điều gì về lựa chọn công cụ cụ thể. Tôi tưởng tượng các đại diện bán hàng có liên quan nhiều đến việc đưa sản phẩm tổng thể vào cửa, nhưng chính các nhà khoa học dữ liệu đã tận dụng các công cụ mà họ cảm thấy thoải mái nhất. Tôi không có nhiều cái nhìn sâu sắc về khu vực đó trong không gian dữ liệu lớn.


1
Cảm ơn bạn. Điều này rất hữu ích. Tôi biết đó là một không gian lỗi và không có ai trả lời đúng. Tôi rất quan tâm để biết làm thế nào một người chọn công cụ dữ liệu lớn và công nghệ phù hợp với nhu cầu của họ. Tôi không đánh dấu đây là câu trả lời đúng cho đến bây giờ nhưng nó chắc chắn xứng đáng nhận được nhiều phiếu UP. Chúc mừng :)
Brown_DOUNDite

6

Dịch vụ tài chính là một người sử dụng lớn của Dữ liệu lớn và nhà đổi mới cũng vậy. Một ví dụ là giao dịch trái phiếu thế chấp. Để trả lời câu hỏi của bạn cho nó:

Những loại dữ liệu các công ty sử dụng. Kích thước của dữ liệu là gì?

  • Lịch sử lâu dài của mỗi thế chấp được ban hành trong nhiều năm qua và thanh toán theo tháng đối với chúng. (Hàng tỷ hàng)
  • Lịch sử lâu dài của lịch sử tín dụng. (Hàng tỷ hàng)
  • Chỉ số giá nhà. (Không lớn bằng)

Những loại công cụ công nghệ họ đã sử dụng để xử lý dữ liệu?

Nó thay đổi. Một số sử dụng các giải pháp nội bộ được xây dựng trên cơ sở dữ liệu như Netezza hoặc Teradata. Những người khác truy cập dữ liệu thông qua các hệ thống được cung cấp bởi các nhà cung cấp dữ liệu. (Corelogic, Experian, v.v.) Một số ngân hàng sử dụng các công nghệ cơ sở dữ liệu cột như KDB hoặc 1010data.

Vấn đề họ gặp phải là gì và cái nhìn sâu sắc mà họ có được dữ liệu đã giúp họ giải quyết vấn đề như thế nào.

Vấn đề chính là xác định khi nào trái phiếu thế chấp (chứng khoán được thế chấp) sẽ trả trước hoặc vỡ nợ. Điều này đặc biệt quan trọng đối với trái phiếu thiếu sự bảo lãnh của chính phủ. Bằng cách đào sâu vào lịch sử thanh toán, hồ sơ tín dụng và hiểu giá trị hiện tại của ngôi nhà, có thể dự đoán khả năng vỡ nợ. Thêm một mô hình lãi suất và mô hình trả trước cũng giúp dự đoán khả năng trả trước.

Cách họ chọn công cụ \ công nghệ phù hợp với nhu cầu của họ.

Nếu dự án được thúc đẩy bởi CNTT nội bộ, thường thì nó dựa trên một nhà cung cấp cơ sở dữ liệu lớn như Oracle, Teradata hoặc Netezza. Nếu nó được điều khiển bởi các bên, thì nhiều khả năng họ sẽ đi thẳng đến nhà cung cấp dữ liệu hoặc hệ thống "Tất cả trong" của bên thứ 3.

Kiểu mẫu nào họ xác định được từ dữ liệu & loại mẫu nào họ đang tìm kiếm từ dữ liệu.

100,000,000beTôingworththmộttmộtmobạnnt,ormộtStôiTôitttôiemộtS


Bạn đã thấy bất kỳ trường hợp nào mà các kỹ thuật học máy đang được sử dụng cho mô hình trả trước. Tức là mạng lưới thần kinh, rừng ngẫu nhiên, GBM?
Josh

5

Kaggle có một bản tóm tắt ngắn về các ứng dụng:

Revolution Analytics đã xuất bản nhiều nghiên cứu điển hình chung, bảng dữ liệu và sách trắng:

Đối với các ứng dụng trong khoa học và kỹ thuật, bạn có thể tham khảo các nghiên cứu điển hình của Nutonia :

Phân tích nói với khách hàng tiềm năng về các ứng dụng trong thương mại:

Thời báo Tài chính đã xuất bản một tập truyện về các ứng dụng kinh doanh dữ liệu lớn:

McKinsey đã phác thảo các ứng dụng vào năm 2011:

Các công ty tư vấn khác thực hiện các báo cáo tương tự.

Gartner đã tạo ra Hype Chu kỳ cho dữ liệu lớn:

nhập mô tả hình ảnh ở đây

Chưa kể các nghiên cứu trường hợp và sách trắng của các công ty khác muốn quảng bá sản phẩm của họ.


1

Hãy xem O'Reilly báo cáo dữ liệu miễn phí . Bạn có thể tìm thấy các báo cáo về Ngân hàng và Fintech, Thể thao, Thời trang, Âm nhạc, Sức khỏe, Dầu khí, v.v.

Hãy nhớ rằng báo cáo McKinsey đã đề cập trước đó là một báo cáo cổ điển và phải đọc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.