Có một số bạn sử dụng bảng tính Google Docs để tiến hành và chia sẻ công việc thống kê của mình với những người khác không?


15

Tôi biết hầu hết các bạn có lẽ cảm thấy rằng Google Docs vẫn là một công cụ nguyên thủy. Nó không phải là Matlab hay R và thậm chí là Excel. Tuy nhiên, tôi gặp khó khăn trước sức mạnh của phần mềm dựa trên web này chỉ sử dụng khả năng hoạt động của trình duyệt (và tương thích với nhiều trình duyệt hoạt động rất khác nhau).

Mike Lawrence, hoạt động trong diễn đàn này, đã chia sẻ một bảng tính với chúng tôi bằng Google Docs, thực hiện một số thứ khá lạ mắt với nó. Cá nhân tôi đã sao chép một khung kiểm tra giả thuyết khá kỹ lưỡng (bao gồm nhiều bài kiểm tra tham số và không tham số) ban đầu được thực hiện trong Excel trong Google Docs.

Tôi quan tâm nếu bất kỳ ai trong số các bạn đã dùng thử Google Docs và đã đẩy nó đến giới hạn của nó trong các ứng dụng thú vị. Tôi cũng muốn nghe về các lỗi hoặc sai sót bạn gặp phải với Google Docs

Tôi đang chỉ định câu hỏi này "cho wiki cộng đồng" biểu thị rằng không có câu trả lời tốt nhất cho vấn đề này. Nó là một cuộc khảo sát nhiều hơn bất cứ điều gì.


Bạn có thể liên kết đến bảng tính Mike Lawrence cung cấp?
Andy W


1
Các tài liệu của Google, khi được kiểm tra chính thức, đã thực hiện một cách thảm hại trên hầu hết các tính toán thống kê (khi nó có thể thực hiện chúng). Xem Kellie B. Keeling và Robert J. Pavur (2011): Độ chính xác thống kê của phần mềm bảng tính, Nhà thống kê người Mỹ, 65: 4, 265-273
whuber

Câu trả lời:


12

Công dụng chính của tôi cho bảng tính google là với các biểu mẫu google, để thu thập dữ liệu và sau đó dễ dàng nhập nó vào R. Đây là một bài đăng tôi đã viết về nó nửa năm trước:

Bảng tính Google + biểu mẫu google + R = Dễ dàng thu thập và nhập dữ liệu để phân tích

Ngoài ra, nếu bạn hợp tác, công cụ lựa chọn của tôi là DropBox. Tôi đã viết một bài về nó vài tháng trước:

Đồng bộ hóa các tệp trên các máy tính bằng DropBox

Bây giờ tôi đã sử dụng nó được khoảng nửa năm cho một dự án với 5 đồng tác giả và nó là vô giá (đồng bộ hóa các tệp dữ liệu từ 3 người đóng góp, mọi người đều có thể thấy phiên bản mới nhất của sản phẩm tôi đang sản xuất và mọi người đang tìm kiếm tại cùng tệp .docx cho bài viết).

Cả hai bài viết cung cấp hướng dẫn bằng video và hướng dẫn bằng lời nói.


Cảm ơn phản hồi của bạn. Đây là loại bình luận chính xác mà tôi quan tâm. Bạn đã thực sự tận dụng việc chia sẻ và nhập thành phần của tài liệu Google. Tốt cho bạn. Tôi sẽ đọc tài liệu của bạn để tìm hiểu thêm về nó.
Sympa

Gaetan thân mến, tôi rất vui vì câu trả lời của bạn - cảm ơn bạn vì những lời tốt đẹp. Tốt nhất, Tal.
Tal Galili

19

Là người dùng say mê R, bash, Python, asciidoc, (La) TeX, sofwtare mã nguồn mở hoặc bất kỳ công cụ un * x nào, tôi không thể cung cấp câu trả lời khách quan. Hơn nữa, vì tôi thường tranh luận về việc sử dụng MS Excel hoặc bảng tính dưới bất kỳ hình thức nào (tốt, bạn thấy dữ liệu của mình hoặc một phần của dữ liệu đó, nhưng còn gì nữa không?), Tôi sẽ không đóng góp tích cực cho cuộc tranh luận. Tôi không phải là người duy nhất, vd

Một đồng nghiệp của tôi đã mất tất cả các macro của anh ấy vì thiếu khả năng tương thích ngược, v.v. Một đồng nghiệp khác đã cố gắng nhập dữ liệu di truyền (khoảng 700 đối tượng có kiểu gen trên 800.000 điểm đánh dấu, 120 Mo), chỉ để "nhìn vào chúng". Excel thất bại, Notepad cũng bỏ cuộc ... Tôi có thể "nhìn chúng" bằng vi và nhanh chóng định dạng lại dữ liệu bằng một số tập lệnh sed / awk hoặc perl. Vì vậy, tôi nghĩ rằng có nhiều cấp độ khác nhau để xem xét khi thảo luận về tính hữu ích của bảng tính. Hoặc bạn làm việc trên các tập dữ liệu nhỏ và chỉ muốn áp dụng các công cụ thống kê cơ bản và có thể nó ổn. Sau đó, tùy thuộc vào bạn để tin tưởng vào kết quả hoặc bạn luôn có thể yêu cầu mã nguồn, nhưng có thể đơn giản hơn để thực hiện kiểm tra nhanh tất cả các quy trình nội tuyến với điểm chuẩn NIST. Tôi không nghĩ rằng nó tương ứng với một cách thống kê tốt chỉ đơn giản vì đây không phải là một phần mềm thống kê thực sự (IMHO), mặc dù là một bản cập nhật của danh sách nói trên, các phiên bản mới hơn của MS Excel dường như đã chứng minh sự cải thiện về độ chính xác của nó phân tích thống kê, xem Keeling và Pavur, Một nghiên cứu so sánh về độ tin cậy của chín gói phần mềm thống kê ( CSDA 2007 51: 3811).

Tuy nhiên, khoảng một hoặc 10 bài báo (trong y sinh, tâm lý học, tâm thần học) bao gồm đồ họa được tạo bằng Excel, đôi khi không xóa nền xám, đường đen ngang hoặc huyền thoại tự động (Andrew Gelman và Hadley Wickham chắc chắn hạnh phúc như tôi khi nhìn thấy nó). Nhưng nói chung, nó có xu hướng là "phần mềm" được sử dụng nhiều nhất theo một cuộc thăm dò gần đây trên FlowingData, khiến tôi nhớ đến một cuộc nói chuyện cũ của Brian Ripley (người đồng tác giả gói MASS R, và viết một cuốn sách tuyệt vời về nhận dạng mẫu , trong số những người khác):

Chúng ta đừng tự đùa: phần mềm được sử dụng rộng rãi nhất cho thống kê là Excel (B. Ripley qua Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Bây giờ, nếu bạn cảm thấy nó cung cấp cho bạn một cách nhanh chóng và dễ dàng hơn để hoàn thành số liệu thống kê của bạn, tại sao không? Vấn đề là vẫn còn những điều không thể thực hiện (hoặc ít nhất, nó khá khó khăn) trong một môi trường như vậy. Tôi nghĩ về bootstrap, hoán vị, phân tích dữ liệu khám phá đa biến, để đặt tên cho một số ít. Trừ khi bạn rất thành thạo VBA (không phải là ngôn ngữ lập trình hay ngôn ngữ lập trình), tôi không nghĩ rằng ngay cả các thao tác nhỏ trên dữ liệu cũng được xử lý tốt hơn theo R (hoặc Matlab hoặc Python, cung cấp cho bạn công cụ phù hợp để xử lý với ví dụ như cái gọi là data.frame). Trên hết, tôi nghĩ rằng Excel không thúc đẩy các thực tiễn rất tốt cho nhà phân tích dữ liệu (nhưng nó cũng áp dụng cho bất kỳ "cliquodrom" nào, xem cuộc thảo luận trên Medstats về sự cần thiết phải duy trì hồ sơ xử lý dữ liệu,Tài liệu phân tích và chỉnh sửa dữ liệu ) và tôi thấy bài đăng này trên Chỉ số thực tế tương đối minh họa cho một số cạm bẫy của Excel. Tuy nhiên, nó áp dụng cho Excel, tôi không biết nó dịch sang GDocs như thế nào.

Về việc chia sẻ công việc của bạn, tôi có xu hướng nghĩ rằng Github (hoặc Gist cho mã nguồn) hoặc Dropbox (mặc dù EULA có thể làm nản lòng một số người) là những lựa chọn rất tốt (lịch sử sửa đổi, quản lý cấp nếu cần, v.v.). Tôi không thể khuyến khích việc sử dụng một phần mềm về cơ bản lưu trữ dữ liệu của bạn ở định dạng nhị phân. Tôi biết nó có thể được nhập vào R, Matlab, Stata, SPSS, nhưng theo ý kiến ​​của tôi:

  • dữ liệu chắc chắn phải ở định dạng văn bản, có thể được đọc bởi một phần mềm thống kê khác;
  • phân tích phải có khả năng tái tạo, nghĩa là bạn nên cung cấp một kịch bản hoàn chỉnh cho phân tích của mình và nó sẽ chạy (chúng tôi tiếp cận trường hợp lý tưởng gần đây ...) trên một hệ điều hành khác bất cứ lúc nào;
  • phần mềm thống kê của riêng bạn nên triển khai các thuật toán được thừa nhận và cần có một cách dễ dàng để cập nhật nó để phản ánh các thực tiễn tốt nhất hiện tại trong mô hình thống kê;
  • hệ thống chia sẻ bạn chọn phải bao gồm các cơ sở hợp tác và phiên bản.

Đó là nó.


@Gaetan Ngoài câu trả lời của tôi, tôi đã đưa ra +1 cho câu hỏi vì tôi nghĩ nó rất phù hợp để tranh luận về thực tiễn thống kê và quản lý dự án.
chl

Một bình luận cho downvote sẽ được đánh giá rất cao.
chl

@chl: mặc dù tôi không đánh giá thấp câu trả lời này, tôi nghĩ tôi hiểu tại sao người ta lại đánh giá thấp nó. Thông tin bạn đã cung cấp là chính xác, rất rất quan trọng và kích thích tư duy. TUY NHIÊN, hầu hết trong số đó (ngoại trừ hai đoạn cuối) không trả lời câu hỏi. Lý tưởng nhất, người ta sẽ viết từ chối trách nhiệm lớn này ở nơi khác và đưa ra một liên kết đến nó.
Boris Gorelik

@chl: bất chấp những gì tôi đã nói trong bình luận của mình, tôi thích câu trả lời của bạn và bỏ phiếu cho nó
Boris Gorelik

@bgbg Cảm ơn bình luận của bạn. Có lẽ tôi đã không trả lời câu hỏi CW. Tuy nhiên, tôi không bao giờ có ý định đưa ra một câu trả lời hoàn toàn khiêu khích. OP đã hỏi về "lỗi và lỗ hổng" tiềm năng trong GDocs: Tôi cung cấp minh họa về những gì tôi biết từ Excel, thừa nhận thực tế tôi không biết nó sẽ dịch sang GDocs như thế nào. Tôi cũng hiểu một phần của câu hỏi là "lợi ích của việc sử dụng GDocs để phân tích dữ liệu là gì" và tôi chỉ đưa ra một số lập luận chống lại việc sử dụng bảng tính cho các dự án quy mô lớn hoặc phân tích ở cạnh chảy máu (tôi vẫn thừa nhận tại bắt đầu rằng điều này sẽ được thiên vị).
chl

10

"Tôi cũng thích thú khi nghe về các lỗi hoặc sai sót bạn gặp phải với Google Docs."

Tôi sẽ chỉ trả lời phần đó của câu hỏi ban đầu. Những khám phá của tôi với Bảng tính Google Docs (GSheets) đã được quan tâm với các chức năng toán học và thống kê. Cuối cùng, đánh giá của tôi là Bảng tính Google về mặt kém hơn nhiều so với năm 2012 so với Excel năm 1997.

Chứng kiến: Google Sheets rõ ràng đánh giá erfc (x) bằng erfc (x) = 1-erf (x) cho các đối số mà erf (x) gần bằng 1. Họ đánh giá độ lệch chuẩn hoặc phương sai qua trung bình bình phương trừ đi bình phương của mức trung bình; đó là thực hành số xấu. Các hàm kết hợp và xác suất rời rạc như poisson (n, x) = pow (x, n) * exp (-x) / n! được đánh giá theo từng yếu tố, gây ra tràn không cần thiết. Giai thừa được đánh giá bằng cách sử dụng từng yếu tố gần đúng của Stirling, gây ra tràn không cần thiết. Phân phối Poisson tích lũy được đánh giá bằng cách thực hiện tổng hữu hạn, do đó, thuộc tính chuẩn hóa bị mất trong vòng đấu giá; điều tương tự cũng đúng với phân phối nhị thức tích lũy. Phân phối bình thường tích lũy hoàn toàn sai lầm; nó đi ra ngoài phạm vi [0,1]. Có sự mất độ chính xác chung liên quan đến việc triển khai các chức năng tương tự trong các gói khác. Các mô tả về các chức năng cơ bản như làm tròn thường bị cắt xén và không thể hiểu được; giải thích là một trò chơi đoán.

Tôi đã ghi lại những vấn đề này trong hai bộ bài đăng trên diễn đàn sản phẩm Google Docs:

(2011-11-13 trở đi) Normdist ném giá trị âm vẫn https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 trở lên) Lỗi và các vấn đề khác với các chức năng thống kê và toán học trong GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1) Nói cách khác, dường như các nhà thống kê ( nhiều! ) Tại Google không có cách nào tham gia vào dự án này.
Đức hồng y

Phần duy nhất của Google Docs tôi đã sử dụng là trình chỉnh sửa, rất hữu ích khi cộng tác chỉnh sửa trong thời gian thực . Tôi không nghĩ rằng git và bạn bè giải quyết vấn đề đó!
kjetil b halvorsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.