Ứng dụng bảng tính có thể xử lý dữ liệu lớn OS X


2

Tôi đã làm việc với Excel khá lâu cho một số phân tích thống kê mà tôi thường xuyên làm. Tuy nhiên, kích thước của dữ liệu mà tôi đang làm việc đã lớn hơn nhiều so với cuối. Bố cục của cơ sở dữ liệu được đề cập khá đơn giản, thường chỉ có ba hàng bao gồm dấu thời gian UNIX và giá trị EST, giá trị số độc quyền và cuối cùng là trung bình của các hàng có dấu thời gian +/- 1000 dấu thời gian của hàng đó ( AVERAGEIFS()công thức nhỏ ). Công thức đó và chuyển đổi EST là các công thức duy nhất trong bảng.

Tôi đang bắt đầu làm việc với các tệp có hơn 500.000 hàng. Chạy công thức trung bình xuống toàn bộ hàng mất mãi mãi. Kết quả cuối cùng là việc sản xuất các biểu đồ đáng in. Tôi đang tìm kiếm một tiện ích UNIX CL hoặc ứng dụng bảng tính / cơ sở dữ liệu riêng biệt có thể xử lý lượng dữ liệu này mà không làm tan CPU hoặc khiến tôi phải chờ một giờ. Có gì ngoài đó không?

TL; DR: Bảng excel đơn giản với hơn nửa triệu hàng đang trở nên quá chậm để làm việc. OS X thay thế?


Câu hỏi tương tự của bạn đã được trả lời trong SO: stackoverflow.com/a/11387240/1236131
andy holaday

Xin đừng lãng phí thời gian của chúng tôi với các câu hỏi trong hai lĩnh vực. Hỏi nó trong một. Nếu đó là chỗ sai, hãy gắn cờ và yêu cầu người điều hành di chuyển nó.
Julian Knight

@JulianKnight Nếu bạn nhìn vào chi tiết cụ thể của một trong hai câu hỏi, chúng vốn đã khác nhau. Cảm ơn bạn đã gợi ý tuy nhiên.
Peter Kazazes

Hmm, tôi đã nhìn vào câu hỏi khác nhưng trong thực tế, câu trả lời chắc chắn có liên quan. Tôi chỉ nghĩ rằng sẽ tốt hơn nếu chỉ có một câu hỏi như thế này được trả lời trước và sau đó tiếp tục với một câu hỏi khác nếu cần làm rõ thêm hoặc cần một câu hỏi hơi khác.
Julian Knight

Câu trả lời:


1

Tôi sẽ xem liệu bạn có thể làm điều này trong cơ sở dữ liệu truyền thống (SQL hoặc tương tự) hoặc trong một cái gì đó như bảng điều khiển R. Nếu vấn đề nằm ở âm mưu chứ không phải tính toán, tôi sẽ thử thực hiện một số loại lọc (không chắc bạn có loại dữ liệu nào, hoặc nó được trải ra như thế nào, nhưng trong mọi trường hợp bạn không cần 500k + điểm dữ liệu trên biểu đồ) để loại bỏ nhiều điểm dữ liệu không cần thiết cho cốt truyện. Điều đó sẽ làm cho âm mưu đi nhanh hơn (và bạn có thể sử dụng R hoặc gnuplot cho âm mưu thực tế nếu Excel quá chậm)


Gần đây tôi đã thực hiện một số công việc ở R vì hiệu quả của nó. Vấn đề duy nhất mà tôi gặp phải khi tìm kiếm một sự thay thế cho excel là tìm kiếm một bảng tính hoặc cơ sở dữ liệu thay thế có thể xử lý các công thức mảng.
Peter Kazazes

1
Tôi đồng ý với câu trả lời - bạn cần chuyển sang cơ sở dữ liệu. Một cái gì đó như MySQL hoặc Postgres sẽ thực hiện công việc. Tất nhiên, điều này có nghĩa là bạn cũng sẽ cần học một số SQL. Công thức bạn đang sử dụng chắc chắn có thể được thay thế bằng một số SQL. Sau khi bạn đã thiết lập và có một chuyến đi, bạn luôn có thể quay lại và hỏi một câu hỏi hơi khác về SQL cần thiết!
Julian Knight

Ít có khả năng hữu ích nhưng đáng nói đến là Google Refine. Nó xử lý các tập dữ liệu lớn một cách dễ dàng nhưng tập trung hơn vào cải tiến và phân đoạn dữ liệu. Tuy nhiên, nó không hỗ trợ xử lý Python
Julian Knight

@JulianKnight, tôi nghĩ google tinh chỉnh rất tuyệt, nhưng đây là trường hợp sử dụng không tốt cho nó (theo ý kiến ​​của tôi). Nó có nghĩa là nhiều hơn để phân tích cú pháp và sửa đổi dữ liệu hơn là chỉ tính toán.
soandos

@soandos: Tôi đồng ý về Tinh chỉnh, tôi chỉ muốn đề cập đến trong trường hợp nó trở nên hữu ích. Tôi chưa từng nhìn R trước đây, trông rất thú vị, đặc biệt là GUI Red-R. Bây giờ tôi cũng quan tâm đến IPython vì tôi đã biết Python, đây có thể là một công cụ hữu ích với tôi.
Julian Knight
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.