Tôi sẽ nhận xét thứ hai @suncoolsu: Thứ nguyên của bộ dữ liệu của bạn không phải là tiêu chí duy nhất giúp bạn hướng tới một phần mềm cụ thể. Ví dụ, nếu bạn chỉ dự định thực hiện phân cụm không giám sát hoặc sử dụng PCA, có một số công cụ chuyên dụng đối phó với các tập dữ liệu lớn, như thường gặp trong các nghiên cứu về bộ gen.
Bây giờ, R (64 bit) xử lý dữ liệu lớn khá tốt, và bạn vẫn có tùy chọn để lưu trữ đĩa sử dụng thay vì truy cập RAM, nhưng thấy cran tác Xem hiệu suất cao và song song với R Computing . Tiêu chuẩn GLM sẽ dễ dàng chứa 20.000 obs. (nhưng cũng xem speedglm ) trong thời gian hợp lý, như được hiển thị bên dưới:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Để đưa ra một minh họa cụ thể hơn, tôi đã sử dụng R để xử lý và phân tích dữ liệu di truyền lớn (800 cá thể x 800 nghìn SNP , trong đó mô hình thống kê chính là GLM phân tầng với một số đồng biến (2 phút), điều đó có thể thực hiện được nhờ R hiệu quả và Mã C có sẵn trong gói snpMatrix (so sánh, cùng loại mô hình mất khoảng 8 phút bằng phần mềm C ++ chuyên dụng ( plink ). Tôi cũng đã làm việc trên một nghiên cứu lâm sàng (12k bệnh nhân x 50 biến quan tâm) và R phù hợp với nhu cầu của tôi Cuối cùng, theo như tôi biết, gói lme4 là phần mềm duy nhất cho phép phù hợp với mô hình hiệu ứng hỗn hợp với các tập dữ liệu lớn và không cân bằng (như trường hợp đánh giá giáo dục quy mô lớn).
Stata / SE là một phần mềm khác có thể xử lý tập dữ liệu lớn . SAS và SPSS là phần mềm dựa trên tệp, vì vậy họ sẽ xử lý khối lượng dữ liệu lớn. Một đánh giá so sánh về phần mềm cho cơ sở dữ liệu có sẵn trong Công cụ khai thác dữ liệu: Cái nào là tốt nhất cho CRM . Để hình dung, cũng có rất nhiều lựa chọn; có thể một khởi đầu tốt là Đồ họa của các bộ dữ liệu lớn: trực quan hóa một triệu ( được xem xét trong JSS bởi P Murrell) và tất cả các chủ đề liên quan trên trang web này.