Excel có đủ cho khoa học dữ liệu không?


12

Tôi đang trong quá trình chuẩn bị để dạy một khóa học giới thiệu về khoa học dữ liệu bằng ngôn ngữ lập trình R. Đối tượng của tôi là sinh viên đại học chuyên ngành kinh doanh. Một sinh viên đại học thông thường không có bất kỳ kinh nghiệm lập trình máy tính nào, nhưng đã học một vài lớp sử dụng Excel.

Cá nhân tôi rất thoải mái với R (hoặc các ngôn ngữ lập trình khác) vì tôi học chuyên ngành khoa học máy tính. Tuy nhiên, tôi có cảm giác rằng nhiều sinh viên của tôi sẽ cảm thấy cảnh giác khi học một ngôn ngữ lập trình bởi vì nó có vẻ khó đối với họ.

Tôi có chút quen thuộc với Excel và tôi tin rằng mặc dù Excel có thể hữu ích cho khoa học dữ liệu đơn giản, nhưng học sinh cần phải học một ngôn ngữ lập trình nghiêm túc cho khoa học dữ liệu (ví dụ: R hoặc Python). Làm thế nào để tôi thuyết phục bản thân và các sinh viên rằng Excel không đủ cho một sinh viên kinh doanh nghiêm túc nghiên cứu khoa học dữ liệu và rằng họ cần phải học một số chương trình?

Chỉnh sửa để trả lời bình luận

Dưới đây là một số chủ đề mà tôi sẽ đề cập:

  • Xử lý dữ liệu và làm sạch dữ liệu
  • Cách thao tác bảng dữ liệu, ví dụ: chọn tập hợp con của hàng (bộ lọc), thêm biến mới (biến đổi), sắp xếp hàng theo cột
  • SQL tham gia bằng cách sử dụng gói dplyr
  • Cách vẽ các ô (sơ đồ phân tán, sơ đồ thanh, biểu đồ, v.v.) bằng cách sử dụng gói ggplot2
  • Cách ước tính và giải thích các mô hình thống kê như hồi quy tuyến tính, hồi quy logistic, cây phân loại và hàng xóm gần nhất k

Vì tôi không biết rõ về Excel, tôi không biết liệu tất cả các tác vụ này có thể được thực hiện dễ dàng trong Excel hay không.


Không biết những gì trên giáo trình của bạn, câu hỏi này không thể được trả lời. Đã nói rằng, bạn nên xem Power Pivot / Mô hình dữ liệu trong Excel. Bạn có thể dễ dàng xử lý các bộ dữ liệu nhiều gigabyte với hàng triệu hàng trong Excel hiện nay và rất nhanh.
Gaius

@Gaius Tôi đã thêm một số chi tiết về những gì tôi muốn dạy trong khóa học
Tôi thích Mã

Điểm 1-4 của bạn được hỗ trợ tốt bởi Hỗ trợ Mô hình Dữ liệu.office.com/ en
Gaius

AzureML cũng hoạt động với R btw
Gaius

4
Về điểm cuối cùng của bạn - hãy xem cuốn sách "Dữ liệu thông minh" của John Foreman - amazon.com/Data-Smart-Science-Transform-In information / dp / ám
Gregory Demin

Câu trả lời:


10

Trước hết hãy kiểm tra bài này . Nó có nhiều lý do tại sao Excel kém hơn các giải pháp khác, liên quan đến các nhiệm vụ khoa học dữ liệu. Excel cũng không thể xử lý các bộ dữ liệu lớn (hàng trăm nghìn bản ghi - không đề cập đến bất cứ điều gì trong vùng lân cận của Dữ liệu lớn ), dữ liệu hình ảnh và âm thanh.

Excel tốt cho các tác vụ đơn giản liên quan đến bảng tính; nó nhấn mạnh nhiều hơn vào việc trình bàydễ sử dụng , trong khi có hỗ trợ tối thiểu để thực sự phân tích dữ liệu. Trừ khi tất cả những gì bạn muốn làm là tính toán các biện pháp thống kê đơn giản (trung bình, trung bình, v.v.) hoặc xây dựng một mô hình rất đơn giản (ví dụ hồi quy tuyến tính), Excel không hiệu quả. Điều đó đang được nói, 99% công việc mà một công ty phải giải quyết liên quan đến dữ liệu đủ đơn giản để có thể quản lý được thông qua Excel.

Tuy nhiên, Khoa học dữ liệu chủ yếu đề cập đến hồi quy, phân loại và các mô hình phức tạp mà excel không được trang bị để xử lý! Nếu sinh viên của bạn muốn có một cái nhìn về khoa học dữ liệu, bạn cần dạy họ một công cụ hữu ích cho họ (R, python, v.v.). Các ngôn ngữ này cũng có các thư viện với hàng tấn mô hình được xây dựng để "chơi cùng".

Một lý do thực sự lớn khác mà tôi sẽ đi với các tùy chọn sau là chúng là nguồn mở . Cá nhân tôi cảm thấy rằng phần mềm nguồn mở nên được ưu tiên từ quan điểm giáo dục đến các giải pháp độc quyền (đây cũng là lý do tại sao tôi đề xuất python và R trên Matlab)!


Tôi đồng ý với tất cả những điều trên, nhưng anh ấy đã nói họ là chuyên gia kinh doanh. Tại sao không dạy R mà còn đảm bảo trình diễn plugin R / Excel?
CalZ

1
"Excel cũng không thể xử lý các bộ dữ liệu lớn (hàng trăm nghìn bản ghi" <- vâng, nó có thể, một cách dễ dàng. Và nó có thể hoạt động như một ứng dụng khách cho các back-end nghiêm trọng như AzureML và PowerBI. Tôi không phải là một fanboy của Excel " "rất nhiều nhưng điều đó khiến tôi thấy những người được cho là" điều khiển dữ liệu ", những người thậm chí không biết các công cụ cơ bản.
Gaius

1
Điều gì sẽ xảy ra nếu đó là một tập dữ liệu hàng triệu cộng với hàng ngàn cột, trên cùng một máy "cơ bản" (16 gb rams, i7 ecc), giải pháp nào sẽ mở nó nhanh hơn? Tôi không cố gắng chê bai Excel, chỉ là một sự tò mò trung thực. Quá hiểu biết tôi thậm chí không thể mở tập dữ liệu như vậy trong Excel. RStudio đọc nó không có vấn đề gì trên cùng một PC.
RLave

7

Tôi vừa hoàn thành chương trình Thạc sĩ về Phân tích Kinh doanh và đã phải đối mặt với cùng một vấn đề mà bạn đang mô tả. May mắn thay, tôi là một người kỹ thuật và có thể tự dạy R và Python, nhưng tôi đã bị mắc kẹt trong việc dạy phần còn lại của lớp học cách sử dụng R và Python. Các lớp tôi đã sử dụng R / Python đã bị vô hiệu hóa do sự thiếu hiểu biết về kỹ thuật của các sinh viên và quá nhiều thời gian dành cho việc mở R / Python. Các lớp học đã đi theo con đường khác là rất ấn tượng và không thực tế. Tôi muốn làm cho một dự án lớp một cái gì đó mà cuối cùng không thể thực hiện được trong Excel vì những hạn chế của nó nhưng giáo viên sẽ không chấp nhận bất kỳ công cụ nào khác.

Nó có thể không phải là điều bạn có thể làm ngay lập tức nhưng tôi thực sự khuyên bạn nên thử và yêu cầu bộ phận yêu cầu một khóa học lập trình trước khi tham gia khóa học của bạn. Khoa học dữ liệu và phân tích kinh doanh IMHO phải là con đường bằng cấp kỷ luật đòi hỏi một chút về Khoa học máy tính, nhưng cho đến khi các chương trình trưởng thành và hệ thống đại học trở nên tốt hơn, điều đó có thể không xảy ra trong một thời gian.


Bạn đã đề cập rằng bạn "muốn làm cho một dự án lớp một cái gì đó mà cuối cùng không thể thực hiện được trong Excel vì những hạn chế của nó." Bạn đã cố gắng làm gì mà không thể thực hiện được trong Excel?
Tôi thích Mã

3

Tôi nghĩ rằng bạn cần dạy cho họ một ngôn ngữ Khoa học dữ liệu phổ biến như Python hoặc R. Excel sẽ không giúp họ trong một công việc thực sự và không thực tế cho các mục đích khoa học dữ liệu. Tôi có thể nói rằng Python sẽ có giá trị nhất đối với chúng trong thời gian dài và với các gói như scikit-learn, hồi quy và phân loại của bạn có thể được thể hiện trong rất ít dòng mã mà chúng có thể đọc và hiểu dễ dàng hơn. Không phải lúc nào cũng dễ hiểu R đang làm gì khi chỉ đọc nó.

Một lời khuyên khác: Đừng lãng phí thời gian buộc học sinh của bạn phải thiết lập IDE và tải xuống các gói cần thiết, nếu bạn sử dụng python tạo môi trường ảo cho chúng với tất cả các gói cần thiết và thiết lập IDE như pycharm (chúng có thể có được điều này và hầu hết các IDE khác theo giấy phép sinh viên / học thuật) khi đó có thể phát triển và chạy mã của họ thông qua UI thay vì bảng điều khiển mà họ có thể thấy khó xử và khó hiểu. Nếu bạn đi xuống tuyến R thì hãy chắc chắn rằng bạn có một IDE như RStudio được thiết lập cho chúng và đảm bảo tất cả các cài đặt bao gồm và gói được bao gồm trong mã ví dụ của bạn hoặc được mô tả đầy đủ.


"Excel sẽ không giúp họ trong một công việc thực sự" chắc chắn đó là nếu đó là những gì tất cả các đồng nghiệp của họ đang sử dụng. Những công việc thực tế trong kinh nghiệm của bạn không sử dụng Excel?
Gaius

3
Bất kỳ vai trò Khoa học dữ liệu nào làm việc với số lượng lớn dữ liệu, bao gồm cả tôi. Những công việc DS nào bạn nghĩ sẽ sử dụng Excel làm công cụ chính của họ, không được quan tâm?
Dan Carter

Tôi thấy từ hồ sơ của bạn rằng bạn là một sinh viên? Oh. Đây là những sinh viên kinh doanh tham gia một khóa học trong DS. Trong công việc kinh doanh của họ, họ hoàn toàn sẽ sử dụng Excel làm công cụ chính.
Gaius

1
Chắc chắn, bạn đã đúng, họ có thể sẽ sử dụng Excel trong vai trò loại doanh nghiệp, tuy nhiên như OP nói rõ: họ đã tham gia các khóa học bao gồm Excel. Kết hợp điều này với thực tế là Excel không phù hợp với ngành Khoa học dữ liệu công nghiệp hoặc học thuật và rõ ràng việc dạy họ 'Excel cho Khoa học dữ liệu' sẽ không giúp họ trong một công việc thực tế, như tôi đã nói. Bạn không thể dạy một người đàn ông (hoặc phụ nữ) câu cá, bằng cách dạy họ nói tiếng Pháp.
Dan Carter

Vậy nếu họ đã tham gia các khóa học trên Excel thì sao? Đừng đối xử như những kẻ ngu ngốc không có khả năng học R. Chúng ta không nói chuyện Haskell hay LISP ở đây!
Emre

2

Làm thế nào để tôi thuyết phục bản thân và các sinh viên rằng Excel không đủ cho một sinh viên kinh doanh nghiêm túc nghiên cứu khoa học dữ liệu

Tạo trong R một data.frame khổng lồ (vài hàng mln và hàng trăm cột), lưu nó dưới dạng .xlsx.

Cho họ thấy sự khác biệt về thời gian khi tải nó bằng R và trong Excel trên cùng một máy. So sánh các hoạt động thống kê cơ bản giữa hai trên cùng một tập dữ liệu, thậm chí các lô.

Điểm không. 2-4 trên danh sách yout cũng có thể được thực hiện trong Excel, chỉ cần RẤT NHIỀU hơn, chỉ cho họ một vài ví dụ về cách lọc đơn giản (và nhanh hơn) dplyr, so với Excel cơ bản, một lần nữa trên một tập dữ liệu khổng lồ sẽ làm nổi bật Sự khác biệt.

Điểm thưởng nếu bạn có thể đưa ra một bộ dữ liệu làm hỏng PC của bạn với Excel.

Ngoài ra, tôi sẽ liệt kê phần "sử dụng miễn phí" của R (hoặc Python). Ví dụ, so với SAS, nếu bạn chỉ muốn thử một giải pháp (nghĩa là một số cụm), bạn tải thư viện và dùng thử, không cần phải trả thêm tiền, chỉ để thử.

Đối với tôi đó là vẻ đẹp của nó, bạn có thể dùng thử miễn phí bất cứ thứ gì bạn cần và thường là chìa khóa trong DS, hãy tưởng tượng nếu bạn phải trả tiền cho mỗi thư viện bạn cài đặt.


1

Excel và Khoa học dữ liệu - nghe có vẻ rất lạ đối với tôi. Có thể là Excel và Analysis Phân tích dữ liệu '.

Dù sao, tôi nghĩ rằng một sự thỏa hiệp tốt giữa Excel và R là: KNIME ( http://www.knime.org/knime-analytics-pl platform ). Nó miễn phí trên máy tính để bàn và dễ dàng hơn nhiều để bắt đầu. Bạn có thể nhập / xuất sang Excel nhưng cũng có thể sử dụng R, Python hoặc Java nếu các nút ~ 1.000 bỏ lỡ một số chức năng mà bạn cần. Vì quy trình công việc được tạo ra một cách trực quan, việc hiển thị chúng cho những người không biết bất kỳ ngôn ngữ lập trình nào cũng dễ dàng hơn nhiều - đó là một lợi thế ở một số công ty.


0

Tôi nghĩ vấn đề là bạn đang cố gắng thuyết phục sinh viên của mình rằng bằng cách tham gia lớp học của bạn, họ có thể làm khoa học dữ liệu tương tự như trình độ khoa học dữ liệu hiện đại, tức là những thứ lạ mắt như xử lý hình ảnh, nhận diện khuôn mặt. Bạn nghe câu nói này hầu hết thời gian, "bằng cách tham gia lớp học này, bạn sẽ ..." Điều bạn cần dạy cho họ là tình yêu dành cho dữ liệu và sự can đảm để xem qua một loạt dữ liệu, loay hoay với họ để hy vọng thực hiện một số ý nghĩa trong số họ. Thời điểm họ có thể làm điều đó, bạn có thể gọi họ là nhà khoa học dữ liệu và bạn nên cảm thấy tự hào về bản thân vì giờ đây đã có một thế hệ nhà khoa học dữ liệu mới. Sau đó, nếu họ rất nghiêm túc về khoa học dữ liệu, họ có thể tiếp tục tham gia các khóa học cường độ cao khác liên quan đến toán học, thống kê và khoa học máy tính (kinh nghiệm lập trình như bạn đã nói). Tôi đã ở trong tình huống tương tự như các sinh viên của bạn. Tôi không có nền tảng CS nhưng muốn thâm nhập vào khoa học dữ liệu và AI bằng cách tham gia một số lớp học trực tuyến với những lời hứa hấp dẫn. Cuối cùng tôi đã lãng phí hàng tấn tiền nhưng vẫn thấy mình thất vọng vô cùng (ồ, tôi cần học lớp này để biết thuật toán này, ồ bây giờ họ đang nói về mạng lưới thần kinh nên tôi phải đăng ký lớp khác, v.v.) ; DR. Công cụ chỉ chiếm 1% trong số các vấn đề bạn có. Với nền tảng của bạn, bạn sẽ không gặp vấn đề gì trong việc tìm ra các nhiệm vụ trên trong Excel trong một tuần. oh họ đang nói về mạng lưới thần kinh bây giờ vì vậy tôi phải đăng ký lớp khác, v.v.) TL; DR. Công cụ chỉ chiếm 1% trong số các vấn đề bạn có. Với nền tảng của bạn, bạn sẽ không gặp vấn đề gì trong việc tìm ra các nhiệm vụ trên trong Excel trong một tuần. oh họ đang nói về mạng lưới thần kinh bây giờ vì vậy tôi phải đăng ký lớp khác, v.v.) TL; DR. Công cụ chỉ chiếm 1% trong số các vấn đề bạn có. Với nền tảng của bạn, bạn sẽ không gặp vấn đề gì trong việc tìm ra các nhiệm vụ trên trong Excel trong một tuần.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.