Là người dùng say mê R, bash, Python, asciidoc, (La) TeX, sofwtare mã nguồn mở hoặc bất kỳ công cụ un * x nào, tôi không thể cung cấp câu trả lời khách quan. Hơn nữa, vì tôi thường tranh luận về việc sử dụng MS Excel hoặc bảng tính dưới bất kỳ hình thức nào (tốt, bạn thấy dữ liệu của mình hoặc một phần của dữ liệu đó, nhưng còn gì nữa không?), Tôi sẽ không đóng góp tích cực cho cuộc tranh luận. Tôi không phải là người duy nhất, vd
- Nghiện bảng tính , từ P. Burns.
- Độ chính xác và chính xác của MS Excel , một bài đăng trong danh sách gửi thư R năm 2004
- L. Knusel, Về tính chính xác của phân phối thống kê trong Microsoft Excel 97 , Phân tích dữ liệu và thống kê tính toán, 26: 375 mộc377, 1998. ( pdf )
- BD McCullough & B. Wilson, Về tính chính xác của quy trình thống kê trong Microsoft Excel 2000 và Excel XP , Phân tích dữ liệu và thống kê tính toán , 40: 713 Lỗi721, 2002.
- M. Altman, J. Gill & MP McDonald, Các vấn đề số trong tính toán thống kê cho nhà khoa học xã hội , Wiley, 2004. [ví dụ, trang 12 Phép14]
Một đồng nghiệp của tôi đã mất tất cả các macro của anh ấy vì thiếu khả năng tương thích ngược, v.v. Một đồng nghiệp khác đã cố gắng nhập dữ liệu di truyền (khoảng 700 đối tượng có kiểu gen trên 800.000 điểm đánh dấu, 120 Mo), chỉ để "nhìn vào chúng". Excel thất bại, Notepad cũng bỏ cuộc ... Tôi có thể "nhìn chúng" bằng vi và nhanh chóng định dạng lại dữ liệu bằng một số tập lệnh sed / awk hoặc perl. Vì vậy, tôi nghĩ rằng có nhiều cấp độ khác nhau để xem xét khi thảo luận về tính hữu ích của bảng tính. Hoặc bạn làm việc trên các tập dữ liệu nhỏ và chỉ muốn áp dụng các công cụ thống kê cơ bản và có thể nó ổn. Sau đó, tùy thuộc vào bạn để tin tưởng vào kết quả hoặc bạn luôn có thể yêu cầu mã nguồn, nhưng có thể đơn giản hơn để thực hiện kiểm tra nhanh tất cả các quy trình nội tuyến với điểm chuẩn NIST. Tôi không nghĩ rằng nó tương ứng với một cách thống kê tốt chỉ đơn giản vì đây không phải là một phần mềm thống kê thực sự (IMHO), mặc dù là một bản cập nhật của danh sách nói trên, các phiên bản mới hơn của MS Excel dường như đã chứng minh sự cải thiện về độ chính xác của nó phân tích thống kê, xem Keeling và Pavur, Một nghiên cứu so sánh về độ tin cậy của chín gói phần mềm thống kê ( CSDA 2007 51: 3811).
Tuy nhiên, khoảng một hoặc 10 bài báo (trong y sinh, tâm lý học, tâm thần học) bao gồm đồ họa được tạo bằng Excel, đôi khi không xóa nền xám, đường đen ngang hoặc huyền thoại tự động (Andrew Gelman và Hadley Wickham chắc chắn hạnh phúc như tôi khi nhìn thấy nó). Nhưng nói chung, nó có xu hướng là "phần mềm" được sử dụng nhiều nhất theo một cuộc thăm dò gần đây trên FlowingData, khiến tôi nhớ đến một cuộc nói chuyện cũ của Brian Ripley (người đồng tác giả gói MASS R, và viết một cuốn sách tuyệt vời về nhận dạng mẫu , trong số những người khác):
Chúng ta đừng tự đùa: phần mềm được sử dụng rộng rãi nhất cho thống kê là Excel (B. Ripley qua Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Bây giờ, nếu bạn cảm thấy nó cung cấp cho bạn một cách nhanh chóng và dễ dàng hơn để hoàn thành số liệu thống kê của bạn, tại sao không? Vấn đề là vẫn còn những điều không thể thực hiện (hoặc ít nhất, nó khá khó khăn) trong một môi trường như vậy. Tôi nghĩ về bootstrap, hoán vị, phân tích dữ liệu khám phá đa biến, để đặt tên cho một số ít. Trừ khi bạn rất thành thạo VBA (không phải là ngôn ngữ lập trình hay ngôn ngữ lập trình), tôi không nghĩ rằng ngay cả các thao tác nhỏ trên dữ liệu cũng được xử lý tốt hơn theo R (hoặc Matlab hoặc Python, cung cấp cho bạn công cụ phù hợp để xử lý với ví dụ như cái gọi là data.frame). Trên hết, tôi nghĩ rằng Excel không thúc đẩy các thực tiễn rất tốt cho nhà phân tích dữ liệu (nhưng nó cũng áp dụng cho bất kỳ "cliquodrom" nào, xem cuộc thảo luận trên Medstats về sự cần thiết phải duy trì hồ sơ xử lý dữ liệu,Tài liệu phân tích và chỉnh sửa dữ liệu ) và tôi thấy bài đăng này trên Chỉ số thực tế tương đối minh họa cho một số cạm bẫy của Excel. Tuy nhiên, nó áp dụng cho Excel, tôi không biết nó dịch sang GDocs như thế nào.
Về việc chia sẻ công việc của bạn, tôi có xu hướng nghĩ rằng Github (hoặc Gist cho mã nguồn) hoặc Dropbox (mặc dù EULA có thể làm nản lòng một số người) là những lựa chọn rất tốt (lịch sử sửa đổi, quản lý cấp nếu cần, v.v.). Tôi không thể khuyến khích việc sử dụng một phần mềm về cơ bản lưu trữ dữ liệu của bạn ở định dạng nhị phân. Tôi biết nó có thể được nhập vào R, Matlab, Stata, SPSS, nhưng theo ý kiến của tôi:
- dữ liệu chắc chắn phải ở định dạng văn bản, có thể được đọc bởi một phần mềm thống kê khác;
- phân tích phải có khả năng tái tạo, nghĩa là bạn nên cung cấp một kịch bản hoàn chỉnh cho phân tích của mình và nó sẽ chạy (chúng tôi tiếp cận trường hợp lý tưởng gần đây ...) trên một hệ điều hành khác bất cứ lúc nào;
- phần mềm thống kê của riêng bạn nên triển khai các thuật toán được thừa nhận và cần có một cách dễ dàng để cập nhật nó để phản ánh các thực tiễn tốt nhất hiện tại trong mô hình thống kê;
- hệ thống chia sẻ bạn chọn phải bao gồm các cơ sở hợp tác và phiên bản.
Đó là nó.