Các công cụ phần mềm khai thác dữ liệu và thống kê để xử lý các bộ dữ liệu lớn


27

Hiện tại tôi phải phân tích khoảng 20 triệu hồ sơ và xây dựng các mô hình dự đoán. Cho đến nay tôi đã thử dùng Statistica, SPSS, RapidMiner và R. Trong số các Statistica này có vẻ phù hợp nhất để xử lý khai thác dữ liệu và giao diện người dùng RapidMiner cũng rất tiện dụng nhưng có vẻ như Statistica, RapidMiner và SPSS chỉ phù hợp với các bộ dữ liệu nhỏ hơn .

Bất cứ ai có thể đề nghị một công cụ tốt cho các bộ dữ liệu lớn?

Cảm ơn bạn!


6
Bạn có thể vui lòng cụ thể hơn một chút không? Những gì bạn thực sự muốn dữ liệu của tôi và làm thế nào để bạn có kế hoạch để làm điều đó? Tôi đã sử dụng R để phân tích các bản ghi kích thước tương tự như của bạn và đó không phải là một trải nghiệm tồi.
suncoolsu

Câu hỏi này sẽ được hẹn hò nhanh chóng. Nó có thể là tốt để có một roundup nửa năm (wiki) cho các công cụ mới nhất như vậy.
vòng lặp

Câu trả lời:


19

Tôi sẽ nhận xét thứ hai @suncoolsu: Thứ nguyên của bộ dữ liệu của bạn không phải là tiêu chí duy nhất giúp bạn hướng tới một phần mềm cụ thể. Ví dụ, nếu bạn chỉ dự định thực hiện phân cụm không giám sát hoặc sử dụng PCA, có một số công cụ chuyên dụng đối phó với các tập dữ liệu lớn, như thường gặp trong các nghiên cứu về bộ gen.

Bây giờ, R (64 bit) xử lý dữ liệu lớn khá tốt, và bạn vẫn có tùy chọn để lưu trữ đĩa sử dụng thay vì truy cập RAM, nhưng thấy cran tác Xem hiệu suất cao và song song với R Computing . Tiêu chuẩn GLM sẽ dễ dàng chứa 20.000 obs. (nhưng cũng xem speedglm ) trong thời gian hợp lý, như được hiển thị bên dưới:

> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
   user  system  elapsed
  0.361   0.018    0.379

Để đưa ra một minh họa cụ thể hơn, tôi đã sử dụng R để xử lý và phân tích dữ liệu di truyền lớn (800 cá thể x 800 nghìn SNP , trong đó mô hình thống kê chính là GLM phân tầng với một số đồng biến (2 phút), điều đó có thể thực hiện được nhờ R hiệu quả và Mã C có sẵn trong gói snpMatrix (so sánh, cùng loại mô hình mất khoảng 8 phút bằng phần mềm C ++ chuyên dụng ( plink ). Tôi cũng đã làm việc trên một nghiên cứu lâm sàng (12k bệnh nhân x 50 biến quan tâm) và R phù hợp với nhu cầu của tôi Cuối cùng, theo như tôi biết, gói lme4 là phần mềm duy nhất cho phép phù hợp với mô hình hiệu ứng hỗn hợp với các tập dữ liệu lớn và không cân bằng (như trường hợp đánh giá giáo dục quy mô lớn).

Stata / SE là một phần mềm khác có thể xử lý tập dữ liệu lớn . SAS và SPSS là phần mềm dựa trên tệp, vì vậy họ sẽ xử lý khối lượng dữ liệu lớn. Một đánh giá so sánh về phần mềm cho cơ sở dữ liệu có sẵn trong Công cụ khai thác dữ liệu: Cái nào là tốt nhất cho CRM . Để hình dung, cũng có rất nhiều lựa chọn; có thể một khởi đầu tốt là Đồ họa của các bộ dữ liệu lớn: trực quan hóa một triệu ( được xem xét trong JSS bởi P Murrell) và tất cả các chủ đề liên quan trên trang web này.


@chl: Bạn đã tìm thấy một giải pháp tính toán song song hiệu quả cho R 64-bit chưa? Khi tôi nhìn lần cuối (cuối mùa hè này), những cái phi thương mại duy nhất dường như chỉ hoạt động trong 32-bit R.
whuber

1
@whuber Không. Tôi đã phải chuyển sang 64 bit vào năm ngoái để quản lý các bộ dữ liệu di truyền lớn, nhưng các mô hình thống kê mà chúng tôi sử dụng không gọi là song song hóa (theo như tôi biết). Tôi nghĩ rằng có một ràng buộc OpenMP cho R nhưng không điều tra thêm. Tôi biết Revolution Analytics đã nỗ lực theo nghĩa này ( j.mp/d7dFb5 ), nhưng vẫn trong 32 bit (đây có lẽ là những gì bạn đã đề cập). Trong khi đó, tôi đã tìm thấy R / song song ( rabul.org ), nhưng tôi không biết nó đáng tin cậy / trưởng thành như thế nào.
chl

@chl Tôi đã thử tất cả nhưng không thể làm cho bất kỳ ai trong số họ làm việc.
whuber

@Whuber: bạn đang ở trên windows hay hộp * nix (mac, linux, ...)
user603

2
Tôi sẽ khuyên bạn nên cài đặt ubfox (google 'tải xuống ubfox') và chạy các ứng dụng chỉ dành cho windows của bạn từ trong ubfox thông qua hộp ảo ( youtube.com/watch?v=KXgKnd-u2R4 ). Các trình soạn thảo R và latex chạy trên Ubuntu như một nét duyên dáng.
dùng603

8

Hầu hết các thuật toán trên quy mô Apache Mahout vượt quá 20 triệu bản ghi, ngay cả với dữ liệu chiều cao. Nếu bạn chỉ cần xây dựng một mô hình dự đoán, có những công cụ cụ thể như Vowpal Wợi (http://hunch.net/~vw/) có thể dễ dàng mở rộng tới hàng tỷ bản ghi trên một máy.


Tuyệt vời ... tôi đã không nhận ra điều đó!
chl

7

Có gói RHIPE (tích hợp R-Hadoop). Có thể làm cho nó rất dễ dàng (với ngoại lệ) để phân tích lượng lớn dữ liệu trong R.


Bạn có thành công với nó? Nếu có, cho loại ứng dụng?
chl

Vâng, RHIPE là tuyệt vời. Một số bạn bè của tôi sử dụng nó để phân tích dữ liệu lưu lượng truy cập internet. Một trong những mục tiêu của họ là mô hình hóa các nỗ lực đột nhập. Dữ liệu là rất lớn trong những trường hợp như vậy, petabyte là phổ biến!
suncoolsu

4

Thật khó để đưa ra một câu trả lời tốt mà không biết bạn đang nghĩ đến loại mô hình nào.

Để hồi quy tuyến tính, tôi đã sử dụng thành công gói biglm trong R.


4

Vì bạn đang xây dựng các mô hình dự đoán từ các bộ dữ liệu lớn, bạn có thể được hưởng lợi từ BigQuery của Google (phiên bản được lưu trữ của công nghệ từ tài liệu nghiên cứu của Google về phân tích dữ liệu lớn với Drillac). Ví dụ, bạn có thể xuất kết quả truy vấn dưới dạng CSV để nhập vào phân loại dự đoán.

BigQuery có một WebUI cho phép bạn chạy các truy vấn và xuất kết quả. Phiên bản beta (v1) của BigQuery có máy khách R và phiên bản sản xuất (v2) cuối cùng cũng sẽ có máy khách R.


3

Chúng tôi đã đào tạo các quan sát 3,5M và 44 tính năng sử dụng R 64 bit trên phiên bản EC2 với ram 32 GB và 4 lõi. Chúng tôi sử dụng rừng ngẫu nhiên và nó hoạt động tốt. Lưu ý rằng chúng tôi phải xử lý trước / thao tác dữ liệu trước khi đào tạo.


3

Công cụ khai thác doanh nghiệp SAS phiên bản 6.2 sẽ không gặp vấn đề gì khi xử lý 20 triệu quan sát và một loạt các mô hình có thể phù hợp với tình huống của bạn. Vấn đề với SAS thường là chi phí tuy nhiên. Dưới đây là tóm tắt về những gì SAS EM có thể làm: SAS EM 6.2: Có gì mới



0

RHIPE là một giải pháp tuyệt vời, và tôi có lẽ sẽ chọn giải pháp này, nếu gặp vấn đề này! Nhưng bạn đã xem xét NCSS chưa? Theo tôi biết, phiên bản 10 mới nhất có thể xây dựng các mô hình này. Các ver đầy đủ. là rất tốn kém, nhưng trên một số dịch vụ máy tính để bàn từ xa, bạn có thể chạy ứng dụng chỉ với một khoản phí nhỏ nhưng tôi không biết .. thay vì kiểm tra xem

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.