Excel làm bàn làm việc thống kê


52

Có vẻ như rất nhiều người (bao gồm cả tôi) thích phân tích dữ liệu khám phá trong Excel. Một số hạn chế, chẳng hạn như số lượng hàng được cho phép trong bảng tính, là một vấn đề khó khăn nhưng trong hầu hết các trường hợp, không thể sử dụng Excel để xử lý dữ liệu.

Tuy nhiên, một bài báo của McCullough và Heiser thực tế hét lên rằng bạn sẽ nhận được kết quả sai - và có thể cũng bị thiêu trong địa ngục - nếu bạn cố gắng sử dụng Excel.

Là giấy này đúng hay là sai lệch? Các tác giả có vẻ như họ ghét Microsoft.


5
Một phân tích gần đây về độ chính xác của phần mềm bảng tính để tính toán thống kê xuất hiện trong [Kellie B. Keeling và Robert J. Pavur (2011): Độ chính xác thống kê của phần mềm bảng tính, The Statistician, 65: 4, 265-273] (hiện đang tải xuống miễn phí tại amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Kết quả là hỗn hợp và có lẽ một chút ngạc nhiên. Đáng chú ý là sự cải thiện rất lớn trong tính toán phân phối giữa Excel 2007 và Excel 2010 (có vẻ chính xác hơn so với Rhoặc SAS).
whuber

Câu trả lời:


45

Sử dụng công cụ phù hợp cho công việc phù hợp và khai thác điểm mạnh của các công cụ mà bạn quen thuộc.

Trong trường hợp của Excel, có một số vấn đề nổi bật:

  • Vui lòng không sử dụng bảng tính để quản lý dữ liệu, ngay cả khi dữ liệu của bạn sẽ vừa với một. Bạn chỉ đang yêu cầu rắc rối, rắc rối khủng khiếp. Hầu như không có sự bảo vệ nào đối với các lỗi đánh máy, bán buôn trộn lẫn dữ liệu, cắt bớt các giá trị dữ liệu, v.v., v.v.

  • Nhiều chức năng thống kê thực sự bị hỏng. Phân phối t là một trong số đó.

  • Đồ họa mặc định là khủng khiếp.

  • Nó thiếu một số đồ họa thống kê cơ bản, đặc biệt là hình hộp và biểu đồ.

  • Trình tạo số ngẫu nhiên là một trò đùa (nhưng mặc dù điều đó vẫn hiệu quả cho mục đích giáo dục).

  • Tránh các hàm cấp cao và hầu hết các bổ trợ; họ là c ** p. Nhưng đây chỉ là một nguyên tắc chung của điện toán an toàn: nếu bạn không chắc chức năng đang làm gì, đừng sử dụng nó. Bám sát các cấp độ thấp (bao gồm các hàm số học, xếp hạng, exp, ln, hàm trig và - trong giới hạn - các hàm phân phối bình thường). Không bao giờ sử dụng một bổ trợ tạo ra một đồ họa: nó sẽ rất tệ. (NB: thật dễ dàng để tạo ra các ô xác suất của riêng bạn từ đầu. Chúng sẽ chính xác và có khả năng tùy biến cao.)

Tuy nhiên, có lợi cho nó như sau:

  • Tính toán số cơ bản của nó là chính xác như phao chính xác kép có thể được. Chúng bao gồm một số hữu ích, chẳng hạn như đăng nhập gamma.

  • Thật dễ dàng để bọc một điều khiển xung quanh các hộp đầu vào trong một bảng tính, giúp có thể tạo các mô phỏng động một cách dễ dàng.

  • Nếu bạn cần chia sẻ một tính toán với những người không thống kê, hầu hết sẽ có một chút thoải mái với bảng tính và không có gì với phần mềm thống kê, bất kể nó có thể rẻ đến mức nào.

  • Thật dễ dàng để viết các macro số hiệu quả, bao gồm cả việc chuyển mã Fortran cũ, khá gần với VBA. Hơn nữa, việc thực hiện VBA là hợp lý nhanh chóng. (Ví dụ: tôi có mã tính toán chính xác các phân phối phi trung tâm từ đầu và ba triển khai khác nhau của Biến đổi Fourier nhanh.)

  • Nó hỗ trợ một số mô phỏng hiệu quả và các tiện ích bổ sung Monte-Carlo như Crystal Ball và @Risk. (Nhân tiện, họ sử dụng RNG của riêng họ - Tôi đã kiểm tra.)

  • Tính trực tiếp của việc tương tác trực tiếp với (một bộ nhỏ) dữ liệu là vô song: nó tốt hơn bất kỳ gói thống kê nào, Mathicala, v.v. Khi được sử dụng như một máy tính khổng lồ với vô số lưu trữ, một bảng tính thực sự xuất hiện.

  • EDA tốt , sử dụng các phương pháp mạnh mẽ và chống chịu, không dễ dàng, nhưng sau khi bạn đã thực hiện một lần, bạn có thể thiết lập lại nhanh chóng. Với Excel, bạn có thể tái tạo hiệu quả tất cả các phép tính (mặc dù chỉ một số ô) trong sách EDA của Tukey, bao gồm cả đánh bóng trung bình của các bảng n-way (mặc dù nó hơi cồng kềnh).

Trong câu trả lời trực tiếp cho câu hỏi ban đầu, có một sự thiên vị trong bài báo đó: nó tập trung vào tài liệu mà Excel yếu nhất và một nhà thống kê có thẩm quyền ít có khả năng sử dụng. Tuy nhiên, đó không phải là một chỉ trích của bài báo, bởi vì những cảnh báo như thế này cần phải được phát đi.


7
@whuber Một tổng quan đẹp và tiện dụng về ưu và nhược điểm!
chl

4
+1 đẹp và cân đối. Tôi đặc biệt thích quan điểm về "tính trực tiếp của việc tương tác trực tiếp" mà tôi nghĩ là điểm bán hàng lớn nhất của Excel (hoặc thực sự là của bảng tính). Lập trình khai báo cho đại chúng - điều này giải thích tại sao một số người nghĩ rằng 80% logic kinh doanh của thế giới được viết bằng Excel (đáng để chỉ ra cho các lập trình viên và nhà thống kê tranh luận về R v SAS hoặc Java v C ++, v.v.).
ars

2
Tôi nghe nói rằng Microsoft đã thuê một số nhà phân tích số vài năm trước để sửa các hàm bị hỏng trong Excel. Bạn có biết liệu các vấn đề với Excel vẫn còn ở phiên bản 2007 hay 2010 không?
John D. Cook

2
@Zach Chẳng hạn, sử dụng Excel 2002, tính toán =TINV(2*p,df)các giá trị của p thay đổi từ 0,01 xuống gần như 0 và so sánh chúng với các giá trị chính xác. (Tôi đã kiểm tra với df trong khoảng từ 2 đến 32.) Các lỗi bắt đầu trong hình có ý nghĩa thứ sáu và sau đó phát nổ khi p ở khoảng 1.E-5 hoặc thấp hơn. Mặc dù các giá trị này của p là nhỏ, chúng là các giá trị thực tế để kiểm tra vì chúng rất quan trọng đối với các phép thử đa so sánh và cho các giá trị điện toán liên quan đến phân phối t, chẳng hạn như t không trung tâm.
whuber

2
Tôi nghĩ rằng điểm đầu tiên của bạn cần phải có các ngôi sao và mũi tên gọi nó ra. Bảng tính không cung cấp dấu vết kiểm toán, điều này rất quan trọng nếu bạn có ý định thực hiện công việc mà ai đó thực sự dựa vào. Ngược lại, R không cung cấp trực tiếp một dấu vết kiểm toán, nhưng vì nó chấp nhận các lệnh và bạn có thể lưu các lệnh để nhập, tiền xử lý, xử lý, biểu đồ, v.v., trong một tệp riêng biệt, bạn có thể có một dấu vết về những gì bạn đã làm lấy Biểu đồ số 1 và bạn có thể tạo lại từ đầu, trong trường hợp bạn đột nhiên có lý do để đặt câu hỏi.
Wayne

18

Một bài viết thú vị về việc sử dụng Excel trong cài đặt Tin sinh học là:

Nhận dạng nhầm: Lỗi tên gen có thể vô tình được đưa vào khi sử dụng Excel trong tin sinh học, BMC Bioinformatics, 2004 ( link ).

Bài viết ngắn này mô tả vấn đề chuyển đổi loại tự động trong Excel (cụ thể là chuyển đổi ngày và dấu phẩy động). Ví dụ, tên gen Sept2 được chuyển đổi thành ngày 2 tháng 9. Bạn thực sự có thể tìm thấy lỗi này trong cơ sở dữ liệu trực tuyến .

Sử dụng Excel để quản lý lượng dữ liệu trung bình đến lớn là nguy hiểm. Những sai lầm có thể dễ dàng len vào mà không cần người dùng nhận thấy.


6
Đây là khía cạnh xa và xa của Excel làm tôi bực mình nhất. Lưu trữ dữ liệu cần các loại dữ liệu rõ ràng, không định dạng.
Matt Parker

3
Trên thực tế, đây là điều gì đó về phần mềm MS nói chung làm tôi khó chịu: nó thay đổi đầu vào của bạn thành những gì nó tin rằng bạn thực sự có ý nghĩa và bạn thường không thấy nó xảy ra.
Carlos Accioly

@csgillespie (+1) Thật tuyệt khi nghe về Excel từ góc độ này!
chl

6
Lỗi yêu thích của tôi xảy ra khi Excel sử dụng để cắt ngắn các trường trong khi xuất sang các định dạng khác. Trong một tập tin về nồng độ thuốc trừ sâu trong đất, nó đã chuyển đổi giá trị từ 1.000.050 (cực kỳ độc hại) thành 50 (gần như không quan trọng) bằng cách cắt bỏ chữ số ban đầu!
whuber

@Matt chỉ gây phẫn nộ nếu bạn đang "lưu trữ" dữ liệu trong Excel. Đây là một tính năng tuyệt vời khi sử dụng Excel hoàn toàn làm mặt trước để báo cáo và tạo biểu đồ.
Loại ẩn danh

11

Chà, câu hỏi liệu bài báo đúng hay sai lệch sẽ dễ dàng: bạn chỉ cần sao chép một số phân tích của họ và xem liệu bạn có nhận được câu trả lời tương tự không.

McCullough đã sử dụng các phiên bản khác nhau của MS Excel trong một số năm nay và dường như MS không thấy phù hợp để sửa lỗi mà ông đã chỉ ra nhiều năm trước trong các phiên bản trước.

Tôi không thấy vấn đề với việc chơi xung quanh với dữ liệu trong Excel. Nhưng thành thật mà nói, tôi sẽ không thực hiện các phân tích "nghiêm túc" của mình trong Excel. Vấn đề chính của tôi sẽ không phải là sự thiếu chính xác (mà tôi đoán sẽ rất hiếm khi xảy ra sự cố) nhưng không thể theo dõi và sao chép các phân tích của tôi một năm sau đó khi người đánh giá hoặc sếp của tôi hỏi tại sao tôi không làm X - bạn có thể lưu lại làm việc và các ngõ nhỏ của bạn trong mã R đã nhận xét, nhưng không phải là một cách có ý nghĩa trong Excel.


2
(+1) Bạn đang lặp lại cuộc thảo luận trên Medstats về sự cần thiết phải lưu bản ghi chỉnh sửa và phân tích dữ liệu ( j.mp/dAyGGY )! Cám ơn.
chl

Lưu "công việc và ngõ nhỏ" của bạn không khó thực hiện với Excel hơn với R. Đó chỉ là vấn đề thực sự làm việc đó. Vấn đề chính với Excel liên quan đến sức mạnh của nó: quá dễ dàng để thay đổi một cái gì đó vô tình. Nhưng đối với EDA - trọng tâm của OP - chúng tôi hiếm khi tiết kiệm mọi thứ chúng tôi làm. EDA, sau tất cả, được cho là tương tác.
whuber

1
có thể giữ một bản ghi có thể lặp lại của các phương thức của bạn nếu bạn thực hiện nó trong VB, nhưng tiêu điểm GUI của Excel không khuyến khích hành vi đó.
James

7

Ngẫu nhiên, một câu hỏi xung quanh việc sử dụng bảng tính Google đưa ra ý kiến ​​tương phản (do đó, thú vị) về điều đó, Có phải một số bạn sử dụng bảng tính Google Docs để tiến hành và chia sẻ công việc thống kê của mình với người khác không?

Tôi có một bài báo cũ dường như không quá bi quan, nhưng nó chỉ được trích dẫn một chút trong bài báo mà bạn đề cập: Keeling và Pavur, Một nghiên cứu so sánh về độ tin cậy của chín gói phần mềm thống kê (CSDA 2007 51: 3811). Nhưng bây giờ, tôi tìm thấy bạn trên ổ cứng của tôi. Ngoài ra còn có một vấn đề đặc biệt trong năm 2008, xem phần Đặc biệt trên Microsoft Excel 2007 và gần đây hơn trong Tạp chí Phần mềm Thống kê: Về Độ chính xác Số của Bảng tính .

Tôi nghĩ rằng đây là một cuộc tranh luận lâu dài và bạn sẽ tìm thấy các bài viết / ý kiến ​​khác nhau về độ tin cậy của Excel cho tính toán thống kê. Tôi nghĩ có nhiều cấp độ thảo luận khác nhau (bạn dự định thực hiện loại phân tích nào, bạn có dựa vào người giải quyết nội bộ không, có các thuật ngữ phi tuyến tính nhập vào một mô hình nhất định, v.v.) và có thể phát sinh các nguồn không chính xác về số là kết quả của lỗi máy tính phù hợp hoặc các vấn đề lựa chọn thiết kế ; điều này được tóm tắt trong

M. Altman, J. Gill & MP McDonald, Các vấn đề số trong tính toán thống kê cho nhà khoa học xã hội , Wiley, 2004.

Bây giờ, để phân tích dữ liệu khám phá, có nhiều lựa chọn thay thế khác nhau cung cấp khả năng hiển thị trực quan, đồ họa đa biến và động, ví dụ GGobi - nhưng xem các chủ đề liên quan trên wiki này.

Nhưng, rõ ràng điểm đầu tiên bạn đưa ra một vấn đề khác (IMO), đó là việc sử dụng bảng tính để xử lý tập dữ liệu lớn: đơn giản là không thể nhập tệp csv lớn vào Excel (Tôi đang nghĩ về dữ liệu genomic, nhưng nó áp dụng cho các loại dữ liệu chiều cao khác). Nó đã không được xây dựng cho mục đích đó.


Tôi thích sắc thái về "các cấp độ thảo luận khác nhau."
whuber

7

Các bài báo và những người tham gia khác chỉ ra những điểm yếu về kỹ thuật. Whuber làm tốt công việc phác thảo ít nhất một số điểm mạnh của nó. Cá nhân tôi làm công việc thống kê sâu rộng trong Excel (kiểm tra giả thuyết, hồi quy tuyến tính và đa biến) và yêu thích nó. Tôi sử dụng Excel 2003 với sức chứa 256 cột và 65.000 hàng có thể xử lý chỉ khoảng 100% bộ dữ liệu tôi sử dụng. Tôi hiểu Excel 2007 đã mở rộng dung lượng đó thêm một lượng lớn (hàng trong hàng triệu).

Như Whuber đề cập, Excel cũng đóng vai trò là nền tảng khởi đầu cho vô số phần mềm bổ trợ khá nổi bật, tất cả đều khá mạnh mẽ và dễ sử dụng. Tôi đang nghĩ về Crystal Ball và @Risk cho Monte Carlo Simulation; XLStat cho tất cả xung quanh các số liệu thống kê và phân tích dữ liệu mạnh mẽ; Những gì tốt nhất để tối ưu hóa. Và danh sách được tiếp tục. Giống như Excel tương đương với IPod hoặc IPad với hàng trăm Ứng dụng đáng kinh ngạc. Cấp các ứng dụng Excel không hề rẻ. Nhưng, đối với những gì họ có khả năng làm, họ thường là những món hời khá lớn.

Đối với tài liệu mô hình có liên quan, thật dễ dàng để chèn một hộp văn bản nơi bạn có thể viết một cuốn sách về phương pháp luận, nguồn của bạn, v.v ... Bạn cũng có thể chèn bình luận vào bất kỳ ô nào. Vì vậy, nếu bất cứ điều gì Excel thực sự tốt để tạo điều kiện cho tài liệu nhúng.


1
Cảm ơn các điểm bổ sung và chia sẻ quan điểm của bạn.
whuber

điểm tuyệt vời, tốt để nghe ai đó sử dụng nó đúng cách và có lợi.
Loại ẩn danh

6

Excel không tốt cho thống kê, nhưng nó có thể là tuyệt vời để phân tích dữ liệu khám phá. Hãy xem video này cho một số kỹ thuật đặc biệt thú vị. Khả năng của Excel có thể tô màu dữ liệu của bạn một cách có điều kiện và thêm các biểu đồ thanh trong ô có thể cung cấp cái nhìn sâu sắc về cấu trúc dữ liệu thô của bạn.


6

Một nguồn tham khảo tốt khác cho lý do tại sao bạn có thể không muốn sử dụng excel là:

Nghiện bảng tính

Nếu bạn thấy mình trong một tình huống mà bạn thực sự cần sử dụng excel (một số bộ phận tiếp nhận nhấn mạnh), thì tôi sẽ đề nghị sử dụng plugin Rexcel . Điều này cho phép bạn giao diện bằng Excel, nhưng sử dụng chương trình R làm công cụ tính toán. Bạn không cần biết R để sử dụng nó, bạn có thể sử dụng trình đơn và hộp thoại thả xuống, nhưng bạn có thể làm nhiều hơn nữa nếu bạn làm như vậy. Vì R đang thực hiện các tính toán nên chúng đáng tin cậy hơn rất nhiều so với Excel và bạn có các biểu đồ và ô vuông tốt hơn và các biểu đồ khác bị thiếu trong excel. Nó thậm chí hoạt động với việc cập nhật ô tự động trong excel (mặc dù điều đó có thể khiến mọi thứ thực sự chậm nếu bạn có nhiều phân tích phức tạp để tính toán lại mỗi lần). Nó không khắc phục tất cả các vấn đề từ trang nghiện bảng tính, nhưng nó là một cải tiến lớn so với việc sử dụng excel thẳng.


1

Excel có thể tuyệt vời cho cả phân tích dữ liệu khám phá và phân tích hồi quy tuyến tính với các plugin phù hợp. Có một số sản phẩm thương mại, mặc dù hầu hết trong số chúng đều mong muốn về chất lượng đầu ra mà chúng tạo ra (chúng không tận dụng tối đa các tùy chọn biểu đồ của Excel hoặc khả năng liên kết với các ứng dụng Office khác) và nói chung, chúng không tốt như chúng có thể để hiển thị và trình bày dữ liệu. Họ cũng có xu hướng không hỗ trợ một phương pháp mô hình hóa có kỷ luật, trong đó (trong số những thứ khác) bạn giữ một bản kiểm toán được ghi chép đầy đủ cho công việc của bạn. Đây là một plugin MIỄN PHÍ, "RegressIt", giải quyết nhiều vấn đề sau: http://regressit.com. Nó cung cấp hỗ trợ rất tốt cho phân tích khám phá (bao gồm khả năng tạo các ô chuỗi thời gian song song và ma trận phân tán với tối đa 50 biến), giúp dễ dàng áp dụng các phép biến đổi dữ liệu như độ trễ, ghi nhật ký và phân biệt (thường không được áp dụng một cách thích hợp bởi những người sử dụng hồi quy ngây thơ), nó cung cấp đầu ra biểu đồ và biểu đồ rất chi tiết hỗ trợ thực hành phân tích dữ liệu tốt nhất và nó duy trì một bảng tính kiểm toán tạo điều kiện so sánh mô hình bên cạnh cũng như ghi lại các mô hình nào được trang bị theo thứ tự nào. Nó bổ sung tốt cho bất cứ điều gì khác mà bạn có thể đang sử dụng, nếu bạn đang xử lý dữ liệu đa biến và ít nhất một số công việc của bạn đang được thực hiện trong môi trường Excel.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.