Các nhà khoa học dữ liệu có sử dụng Excel không?


37

Tôi sẽ coi mình là một nhà khoa học dữ liệu hành trình. Giống như hầu hết (tôi nghĩ), tôi đã tạo ra các biểu đồ đầu tiên của mình và thực hiện các tổng hợp đầu tiên của mình ở trường trung học và đại học, sử dụng Excel. Khi tôi học đại học, học phổ thông và ~ 7 năm kinh nghiệm làm việc, tôi nhanh chóng chọn ra những công cụ mà tôi coi là công cụ tiên tiến hơn, như SQL, R, Python, Hadoop, LaTeX, v.v.

Chúng tôi đang phỏng vấn cho vị trí nhà khoa học dữ liệu và một ứng cử viên tự quảng cáo mình là "nhà khoa học dữ liệu cao cấp" (một thuật ngữ rất ồn ào ngày nay) với hơn 15 năm kinh nghiệm. Khi được hỏi bộ công cụ ưa thích của anh ta là gì, anh ta trả lời rằng đó là Excel.

Tôi lấy điều này làm bằng chứng rằng anh ta không có kinh nghiệm như lý lịch của anh ta sẽ yêu cầu, nhưng không chắc chắn. Rốt cuộc, chỉ vì nó không phải là công cụ ưa thích của tôi, không có nghĩa nó không phải là người khác. Các nhà khoa học dữ liệu có kinh nghiệm sử dụng Excel? Bạn có thể cho rằng thiếu kinh nghiệm từ một người chủ yếu sử dụng Excel không?


Hầu hết các quảng cáo việc làm khoa học dữ liệu yêu cầu các kỹ năng cụ thể, như R, Hadoop, bất cứ điều gì. Bạn đã bỏ qua đề cập đến điều này trong quảng cáo của bạn? Trừ khi Nhà khoa học dữ liệu mới của bạn sẽ làm việc trong một bong bóng, sau đó anh ta hoặc cô ta sẽ phải làm việc với nhóm và có thể cần phải làm việc với phần mềm nhóm tiêu chuẩn ...
Spacesman

1
tốt nếu họ sẽ không sử dụng \LaTeX{}thì tôi sẽ không thuê họ. đùa thôi ...
aeroNotAuto

1
@Spacesman: Tôi đã cung cấp câu chuyện cho bối cảnh giai thoại nhưng tôi thực sự quan tâm đến quan điểm của mọi người về excel hơn là tôi đang thuê các mẹo. Nhóm của chúng tôi được tự do sử dụng bất kỳ công cụ nào chúng tôi thích.
JHowIX

1
Vâng, xem ở đây . Đối với các trò đùa khiếm khuyết, xem ở đây quá .
Dirk Eddelbuettel

1
Bất kể năm nào được chỉ định, tôi mong đợi một danh sách Pro / Con gồm ít nhất ba công cụ từ một nhà khoa học dữ liệu. Họ cần thể hiện năng lực để điều tra, lựa chọn trọng lượng và truyền đạt nghị quyết. Thậm chí, hoặc đặc biệt, trong một cuộc phỏng vấn, tôi mong đợi được thấy sự tham gia thực sự và khả năng mở rộng qua một câu hỏi phỏng vấn có khả năng lớn, nhưng hiện đang thiếu.
Dave

Câu trả lời:


28

Hầu hết những người không có kỹ thuật thường sử dụng Excel để thay thế cơ sở dữ liệu. Tôi nghĩ đó là sai nhưng có thể chịu đựng được. Tuy nhiên, một người được cho là có kinh nghiệm trong phân tích dữ liệu chỉ đơn giản là không thể sử dụng Excel làm công cụ chính của mình (không bao gồm nhiệm vụ rõ ràng là lần đầu tiên nhìn vào dữ liệu). Đó là bởi vì Excel không bao giờ dành cho loại phân tích đó và do hậu quả của việc này, rất dễ mắc lỗi trong Excel (điều đó không có nghĩa là không dễ mắc lỗi khác khi sử dụng các công cụ khác, nhưng Excel làm cho tình hình trở nên trầm trọng hơn.)

Để tóm tắt những gì Excel không có và là điều bắt buộc đối với mọi phân tích:

  1. Khả năng sinh sản. Một phân tích dữ liệu cần phải được tái sản xuất.
  2. Kiểm soát phiên bản. Tốt cho sự hợp tác và cũng tốt cho khả năng tái sản xuất. Thay vì sử dụng xls, hãy sử dụng csv (vẫn rất phức tạp và có nhiều trường hợp cạnh, nhưng hiện tại trình phân tích cú pháp csv khá tốt.)
  3. Kiểm tra. Nếu bạn không có bài kiểm tra, mã của bạn bị hỏng. Nếu mã của bạn bị hỏng, phân tích của bạn tồi tệ hơn vô dụng.
  4. Bảo trì.
  5. Độ chính xác. Số chính xác, phân tích ngày chính xác, trong số những người khác thực sự thiếu Excel.

Nhiêu tai nguyên hơn:

Nhóm lợi ích rủi ro bảng tính châu Âu - Câu chuyện kinh dị

Bạn không nên sử dụng bảng tính cho công việc quan trọng (ý tôi là vậy)

Excel của Microsoft có thể là phần mềm nguy hiểm nhất trên hành tinh

Phá hủy dữ liệu của bạn bằng Excel với thủ thuật kỳ lạ này!

Bảng tính Excel rất khó để lấy đúng


Để xem xét dữ liệu và phân tích nhanh chóng, có công cụ nào được các chuyên gia chấp nhận rộng rãi như so sánh nhưng tốt hơn Excel không? Tôi là một nhà khoa học dữ liệu người mới và tôi hầu như đã sử dụng SQL (Postgre), nhưng một cái gì đó như Excel có thể hoạt động nhanh hơn nếu bạn chỉ đang thử mọi thứ.
sudo

1
Ngoài ra, tôi phải phàn nàn rằng CSV không phải là một tiêu chuẩn. Bạn thực sự phải chắc chắn rằng bất cứ điều gì đang mở nó đều đồng ý với bất cứ điều gì được tạo ra. OpenOffice thực hiện đúng và cho phép bạn chọn nhiều tùy chọn CSV khi bạn tải thay vì giả định bất cứ điều gì về định dạng.
sudo

@sudo Các công cụ phụ thuộc vào ngôn ngữ lập trình bạn chọn, phần lớn là sở thích cá nhân. Chỉ cần đưa ra một vài ví dụ, R trong lịch sử là một lựa chọn tốt, Python đã trở nên phổ biến để phân tích dữ liệu trong những năm gần đây, Julia là một người mới rất hứa hẹn trong lĩnh vực này. Hầu hết các ngôn ngữ lập trình cung cấp các thư viện trưởng thành cung cấp cho bạn các cấu trúc (ví dụ: các tệp dữ liệu) đặc biệt phù hợp để phân tích dữ liệu và tất cả chúng đều tốt hơn Excel. CSV đã được chuẩn hóa nhưng có những chi tiết được triển khai khác nhau, nhưng đó không phải là một vấn đề lớn trong công việc hàng ngày của bạn.
Robert Smith

Tôi sử dụng Python để xử lý ánh sáng, nhưng nó không thực sự phục vụ mục đích của Excel. Ví dụ: trong Excel, bạn có thể sử dụng các công cụ như bộ lọc tự động và biểu đồ tương tác. Tôi thường xuất dữ liệu của mình sang CSV để những người cấp cao của tôi xem xét trong Excel hoặc một cái gì đó.
sudo

@sudo Sau đó, bạn muốn gấu trúc. Pandas cung cấp rất nhiều phương pháp để thao tác dữ liệu của bạn. Điều đó bao gồm tập hợp con dựa trên chỉ mục, cột hoặc điều kiện, đó là cách linh hoạt và mạnh mẽ hơn so với bộ lọc tự động. Sau đó, bạn có thể vẽ kết quả ( df.plot()) và xuất kết quả của bạn sang csv ( df.to_csv('output.csv')). Hãy nhớ rằng phân tích dữ liệu thường đòi hỏi nhiều hơn so với lọc và vẽ. Do đó, cần tập trung vào tính chính xác, vì vậy bạn cần tách rời phần trình bày khỏi phân tích. Thực hiện phân tích của bạn bằng Python (hoặc ngôn ngữ khác), chia sẻ đầu ra của bạn trong csv nếu đó là những gì bạn muốn.
Robert Smith

15

Các nhà khoa học dữ liệu có kinh nghiệm sử dụng Excel?

Tôi đã thấy một số nhà khoa học dữ liệu có kinh nghiệm, những người sử dụng Excel - do sở thích của họ hoặc do đặc thù môi trường CNTT và kinh doanh tại nơi làm việc của họ (ví dụ: nhiều tổ chức tài chính sử dụng Excel làm công cụ chính của họ, ít nhất là để mô hình hóa). Tuy nhiên, tôi nghĩ rằng hầu hết các nhà khoa học dữ liệu có kinh nghiệm nhận ra nhu cầu sử dụng các công cụ, tối ưu cho các nhiệm vụ cụ thể và tuân thủ phương pháp này.

Bạn có thể cho rằng thiếu kinh nghiệm từ một người chủ yếu sử dụng Excel không?

Không, bạn không thể. Đây là hệ quả từ những suy nghĩ nêu trên của tôi. Khoa học dữ liệu không tự động ngụ ý dữ liệu lớn - có rất nhiều công việc khoa học dữ liệu mà Excel có thể xử lý khá tốt. Phải nói rằng, nếu một nhà khoa học dữ liệu (thậm chí có kinh nghiệm) không có kiến ​​thức (ít nhất là cơ bản) về các công cụ khoa học dữ liệu hiện đại, bao gồm cả những công cụ tập trung dữ liệu lớn, thì điều đó có phần đáng lo ngại. Điều này là do thử nghiệm đã ăn sâu vào bản chất của khoa học dữ liệu do phân tích dữ liệu khám phá là một điều thiết yếu và thậm chí, là một phần quan trọng của nó. Do đó, một người, không có nhu cầu khám phá các công cụ khác trong miền của họ, có thể xếp hạng thấp hơn trong số các ứng cử viên phù hợp với vị trí khoa học dữ liệu (tất nhiên, điều này khá mờ nhạt, vì một số người học rất nhanh vật liệu mới, cộng với,

Do đó, kết luận, tôi nghĩ rằng câu trả lời tốt nhất mà một nhà khoa học dữ liệu có kinh nghiệm có thể phải đặt ra cho câu hỏi liên quan đến công cụ ưa thích của họ là: Công cụ ưa thích của tôi là công cụ tối ưu, đó là công cụ phù hợp nhất với nhiệm vụ trong tay.


5
Tôi sẽ không bao giờ có lỗi với ai đó vì không biết Hadoop nhưng ngay cả trong các tình huống dữ liệu nhỏ tôi cảm thấy như R là vượt trội. Đơn giản là có một phép màu của những điều bạn có thể làm với R mà bạn không thể làm với Excel. Nó liên quan đến tôi, cá nhân này đã không "phát hiện" rằng trong hơn 15 năm qua của mình
JHowIX

@JHowIX: Bạn có quen thuộc với cụm từ "đủ tốt" không? Tôi cũng là một fan hâm mộ lớn của R và thích nó hơn nhiều công cụ, bao gồm Excel, bất cứ ngày nào. Tuy nhiên, thực tế là R có thể làm được nhiều hơn không có nghĩa là Excel (hoặc bất kỳ công cụ nào khác phù hợp với một nhiệm vụ) kém hơn trong bối cảnh công việc cụ thể. Vì vậy, trong khi mối quan tâm của bạn là hợp lệ (tôi đề cập đến điều đó bằng cách sử dụng từ "làm phiền"), có thể người đó chưa có cơ hội / cần phải làm điều đó. Hãy nhớ rằng, bạn đang nói về thời gian, khi R tồn tại, nhưng phổ biến chủ yếu trong giới hàn lâm và khoa học dữ liệu (được gọi là phân tích dữ liệu hoặc như vậy) không nóng như ngày nay.
Alexanderr Blekh

13

Tôi nghĩ rằng hầu hết mọi người đang trả lời mà không có kiến ​​thức tốt về excel. Excel (từ năm 2010) có cơ sở dữ liệu trong cột nhiều bộ nhớ, được gọi là trụ điện (cho phép nhập từ csv / cơ sở dữ liệu, v.v.), cho phép nó lưu trữ hàng triệu hàng (không phải tải trên bảng tính) . Nó cũng có một công cụ ETL gọi là truy vấn sức mạnh cho phép bạn đọc dữ liệu từ nhiều nguồn khác nhau (bao gồm cả hadoop). Và nó có một công cụ trực quan (power view & power map). Rất nhiều Khoa học dữ liệu đang thực hiện tổng hợp và phân tích top-n, tại đó công suất trục vượt trội. Thêm vào đó là bản chất tương tác của các công cụ này - bất kỳ người dùng nào cũng có thể dễ dàng kéo và thả thứ nguyên để chia nhỏ kết quả. Tôi hy vọng bạn có thể thấy các lợi ích. Vì vậy, có bạn không thể học máy,


Hấp dẫn. Tôi đã quen với những thứ chậm chạp và lỗi đó là Excel 1998-2008. Hãy thử những cái mới hơn.
sudo

Tôi ước tôi có thể chứng thực câu trả lời của seanv507 một triệu lần. Hầu hết các câu trả lời ở đây cho thấy rất nhiều người không biết các phiên bản excel gần đây mạnh đến mức nào. Và xin lưu ý rằng khi bạn sử dụng các công cụ phân tích dữ liệu mới (Ví dụ: Truy vấn nguồn, trục điện, DAX), bạn không còn bị giới hạn ở 1, 048, 576 hàng dữ liệu và một loạt các giới hạn khác mà không có các công cụ này
maze55555

Những người không có nền tảng kinh doanh không sử dụng excel. Giai đoạn. Và xem xét sinh viên tốt nghiệp kinh doanh thường không đi vào khoa học dữ liệu, bạn có thể hiểu được sự thiếu hiểu biết.
NoName

5

Trong cuốn sách Data Smart, John Foreman giải quyết các vấn đề khoa học dữ liệu phổ biến (phân cụm, vịnh ngây thơ, phương pháp tập hợp, ...) bằng Excel. Thật vậy, thật tốt khi có một số kiến ​​thức về Python hoặc R nhưng tôi đoán Excel vẫn có thể hoàn thành phần lớn công việc!


2
Thật ra, tôi đã khá ngạc nhiên khi đọc cuốn sách mà bạn có thể làm rất nhiều với Excel. Và nó có tích hợp tiến hóa và các bộ giải phi tuyến tính khác! Một lợi ích tuyệt vời của Excel là công việc của bạn, đặc biệt nếu bạn vào mã có thể tái tạo, có thể truy cập được cho nhiều người hơn mã R hoặc Python.
Victor Ma

5

Tôi ngạc nhiên khi có nhiều người gắn bó với sự mát mẻ của nghề nghiệp hơn là công việc thực tế phải làm. Excel là công cụ tuyệt vời, với PowerpOLL miễn phí, Powerquery, nó có thể làm được rất nhiều. (những thứ này không có sẵn trên OS X). Và nếu bạn biết VBA, bạn có thể làm một số thứ hay ho. Và sau đó, nếu bạn bổ sung kiến ​​thức về python, bạn có thể kết hợp các bước đầu tiên của việc trích xuất và thao tác dữ liệu với python và sau đó sử dụng excel, đặc biệt nếu bạn là người trực quan. Với excel bạn thực sự có thể kiểm tra dữ liệu tổng hợp trước khi đưa vào bất kỳ quy trình nào khác hoặc trực quan hóa. Nó là một công cụ phải có.


4

Excel chỉ cho phép dữ liệu rất nhỏ và không có bất kỳ thứ gì đủ hữu ích và linh hoạt cho việc học máy hoặc thậm chí chỉ là âm mưu. Tất cả những gì tôi sẽ làm trong Excel, là nhìn chằm chằm vào một tập hợp con của dữ liệu cho cái nhìn đầu tiên về các giá trị để đảm bảo tôi không bỏ lỡ bất cứ điều gì có thể nhìn thấy bằng mắt.

Vì vậy, nếu công cụ yêu thích của anh ấy là Excel, điều này có thể gợi ý anh ấy hiếm khi xử lý việc học máy, thống kê, kích thước dữ liệu lớn hơn hoặc bất kỳ âm mưu nâng cao nào. Một người như thế này tôi sẽ không gọi là Nhà khoa học dữ liệu. Tất nhiên tiêu đề không quan trọng và nó phụ thuộc rất nhiều vào yêu cầu của bạn.

Trong mọi trường hợp, đừng đưa ra đánh giá bằng tuyên bố kinh nghiệm hoặc CV. Tôi đã xem CV và biết những người đằng sau nó.

Đừng giả sử. Kiểm tra anh! Bạn nên đủ tốt để thiết lập một bài kiểm tra. Nó đã được chỉ ra rằng các cuộc phỏng vấn một mình gần như vô dụng để xác định các kỹ năng (chúng chỉ thể hiện tính cách). Thiết lập một bài kiểm tra học tập có giám sát rất đơn giản và cho phép anh ta sử dụng bất kỳ công cụ nào anh ta muốn.

Và nếu bạn muốn sàng lọc mọi người trong một cuộc phỏng vấn trước, hãy hỏi anh ta về những hiểu biết rất cơ bản nhưng quan trọng về thống kê hoặc học máy. Một cái gì đó mà mỗi nhân viên hiện tại của bạn biết.


2

Trước tiên hãy để tôi làm rõ rằng tôi đang bắt đầu hành trình của mình vào khoa học dữ liệu từ quan điểm của một lập trình viên và nhà phát triển cơ sở dữ liệu. Tôi không phải là một chuyên gia khoa học dữ liệu 10 năm cũng không phải là một vị thần thống kê. Tuy nhiên, tôi làm nhà khoa học dữ liệu và bộ dữ liệu lớn cho một công ty làm việc với các khách hàng khá lớn trên toàn thế giới.

Từ kinh nghiệm của tôi, nhà khoa học dữ liệu sử dụng bất kỳ công cụ nào họ cần để hoàn thành công việc. Excel, R, SAS, Python và nhiều hơn nữa là tất cả các công cụ trong hộp công cụ dành cho nhà khoa học dữ liệu tốt. Tốt nhất có thể sử dụng nhiều công cụ để phân tích và xử lý dữ liệu.

Do đó, nếu bạn thấy mình so sánh R với Python, thì có khả năng bạn đã làm sai tất cả trong thế giới khoa học dữ liệu. Nhà khoa học dữ liệu tốt sử dụng cả hai khi nó có ý nghĩa để sử dụng cái này hơn cái kia. Điều này cũng áp dụng cho Excel.

Tôi nghĩ rằng thật khó để tìm thấy bất cứ ai sẽ có kinh nghiệm trong rất nhiều công cụ và ngôn ngữ khác nhau trong khi mọi thứ đều tuyệt vời. Tôi cũng nghĩ rằng sẽ rất khó để tìm thấy nhà khoa học dữ liệu cụ thể không chỉ có thể lập trình các thuật toán phức tạp mà còn biết cách sử dụng chúng theo quan điểm thống kê.

Hầu hết các nhà khoa học dữ liệu tôi từng làm việc có khoảng 2 hương vị. Những người có thể lập trình và những người không thể. Tôi hiếm khi làm việc với nhà khoa học dữ liệu có thể lấy dữ liệu bằng Python, thao tác với dữ liệu giống như Pandas, khớp mô hình với dữ liệu trong R và sau đó trình bày nó cho quản lý vào cuối tuần.

Ý tôi là, tôi biết chúng tồn tại. Tôi đã đọc nhiều blog khoa học dữ liệu từ những kẻ phát triển web scrappers, đẩy nó vào Hadoop, kéo nó ra khỏi Python, lập trình những thứ phức tạp và chạy nó qua R để khởi động. Chúng tồn tại. Họ đang ở ngoài kia. Tôi đã không chạy vào quá nhiều có thể làm tất cả điều đó. Có lẽ đó chỉ là khu vực của tôi?

Vì vậy, điều đó có nghĩa là chỉ chuyên về một điều xấu? Không. Rất nhiều bạn bè của tôi chỉ chuyên về một ngôn ngữ chính và giết nó. Tôi biết nhiều kẻ dữ liệu chỉ biết R và giết nó. Tôi cũng biết nhiều người chỉ sử dụng Excel để phân tích dữ liệu vì đó là điều duy nhất mà hầu hết các nhà khoa học không có dữ liệu có thể mở và sử dụng (đặc biệt là trong các công ty B2B). Câu hỏi bạn thực sự cần trả lời là liệu điều này có phải là MỘT điều bạn cần cho vị trí này không? Và quan trọng nhất, họ có thể học những điều mới?

PS

Khoa học dữ liệu không chỉ giới hạn ở "BIG DATA" hoặc NoQuery.


Xin chào Glen, cảm ơn ý kiến ​​của bạn. Hãy xem liên kết sau đây. Đó là từ Swami Chandrasekaran, người đã lãnh đạo nhóm Watson tại IBM, vì vậy theo tôi, một nhà khoa học dữ liệu khá có kinh nghiệm. Ông đã lập trình về cơ bản là điều thứ ba mà một nhà khoa học dữ liệu cần biết, sau "Nguyên tắc cơ bản" và Thống kê. Theo lộ trình của anh ấy, một khi bạn biết cách lập trình, bạn sẽ có 15% để trở thành một nhà khoa học dữ liệu. Dựa trên điều này, tôi có thể không đồng ý một chút với tuyên bố rằng các nhà khoa học dữ liệu thực sự có hương vị "không lập trình". nirvacana.com/47ts/becoming-a-data-scientist
JHowIX

Vâng, tôi chỉ nói rằng dựa trên kinh nghiệm. Hầu hết các khóa học thống kê và khoa học dữ liệu thậm chí không bao gồm lập trình ngoài những gì bạn cần cho các chương trình thống kê phổ biến. Do đó, hầu hết những người tôi gặp trong thế giới thống kê đều không giỏi lập trình. Nó giống như một suy nghĩ lại khi họ bước vào thế giới thực và nhận ra điều đó có ích.
Glen Swan

1

Excel có thể là một công cụ tuyệt vời để phân tích dữ liệu khám phá, nó thực sự phụ thuộc vào nhu cầu của bạn và tất nhiên nó cũng có những hạn chế như bất kỳ công cụ nào, nhưng excel chắc chắn xứng đáng có một vị trí trong hội trường khoa học dữ liệu nổi tiếng.

Đáng nhớ là trong thực tế, hầu hết người dùng sẽ khám phá một tập dữ liệu bị giảm nhiều (dù được tạo từ truy vấn SQL).

Excel rất mạnh để khám phá dữ liệu khi bạn sử dụng đối tượng "bảng" kết hợp với các bảng trụ, trực quan hóa là tất cả 1-2 lần nhấp tối đa và rất nhiều biểu đồ excel trong powerpoint trông tuyệt vời, trừ khi bạn muốn tạo ra thứ gì đó rất riêng biệt, ví dụ như trong bối cảnh điện toán khoa học. Bản chất tương tác có nghĩa là bạn có thể khám phá nhanh chóng.

Lợi ích của đối tượng "bảng" là khi bạn chuyển đổi dữ liệu hơn nữa trong excel để cho phép bạn khám phá các bản phân phối mới, tất cả các bảng trụ đều ghi nhớ biến.

Trường hợp excel yếu là danh sách công thức bị hạn chế, ví dụ, một câu lệnh SQL hoặc trạng thái python linh hoạt hơn một chuỗi các hàm if vô tận.

Nó thực sự phụ thuộc vào nhu cầu của bạn nhưng excel chắc chắn xứng đáng có một vị trí trong hội trường khoa học dữ liệu của sự nổi tiếng.

Giai thoại thú vị, nhóm làm việc trên thuật toán newsfeed của Facebook hoàn toàn có thể được nhìn thấy đang chơi với excel và rất nhiều bảng tính.


0

Tôi dạy một khóa Phân tích kinh doanh bao gồm SQL và Excel. Tôi dạy trong một trường kinh doanh để học sinh của tôi không có khả năng kỹ thuật nhất, đó là lý do tại sao tôi không sử dụng thứ gì đó như R, Pandas hoặc Weka. Điều đó đang được nói, Excel là một công cụ đủ mạnh để sử dụng cho một số phân tích dữ liệu. Nó nhận được phần lớn sức mạnh này từ khả năng hoạt động như một giao diện người dùng cho Dịch vụ phân tích máy chủ SQL (một thành phần trong SQL Server để phân tích dữ liệu) bằng cách sử dụng bổ trợ khai thác dữ liệu.

SSAS cho phép bạn xây dựng các cây quyết định, thực hiện hồi quy tuyến tính và logistic, và thậm chí tạo các mạng bayes hoặc mạng nơ ron. Tôi đã thấy rằng sử dụng Excel làm giao diện người dùng là một cách tiếp cận ít đe dọa hơn để thực hiện các loại phân tích này vì tất cả chúng đều đã sử dụng Excel trước đây. Cách sử dụng SSAS mà không cần Excel là thông qua một phiên bản chuyên dụng của Visual Studio và đó không phải là công cụ thân thiện với người dùng nhất hiện có. Khi bạn kết hợp nó với một vài công cụ Excel khác như Power Query và Power Pivot, bạn có thể thực hiện một số phân tích dữ liệu khá phức tạp.

Tiết lộ đầy đủ, có lẽ tôi sẽ không sử dụng lại khi tôi dạy phiên bản mới của khóa học vào năm tới (chúng tôi chia nó thành hai khóa học để người ta có thể tập trung nhiều hơn vào phân tích dữ liệu). Nhưng đó chỉ là vì trường đại học có thể có đủ giấy phép cho Alterx, thứ thậm chí còn dễ sử dụng và mạnh mẽ hơn nhưng là $ 4-85k / người dùng / năm nếu bạn không thể nhận được nó miễn phí bằng cách nào đó. Nói những gì bạn sẽ về Excel, nhưng nó đánh bại mức giá đó.


0

Excel có thể là một công cụ tuyệt vời. Chắc chắn, tùy thuộc vào những gì bạn làm, nó có thể không phù hợp với dự luật nhưng nếu có, nó sẽ gần như là ngu ngốc khi loại bỏ nó. Mặc dù phải mất một thời gian để thiết lập đường ống dẫn của bạn, nhưng trong Excel, bạn có thể bắt đầu chạy khá nhiều: UI tích hợp, khả năng mở rộng dễ dàng thông qua VBA ngay cả với Python (ví dụ: https://www.xlwings.org ). Nó có thể không lý tưởng khi nói đến những thứ như kiểm soát phiên bản nhưng có nhiều cách để làm cho nó hoạt động với Git (ví dụ: https://www.xltrail.com/blog/auto-export-vba-commit-hook ).


-2

Cá nhân này hoạt động với 'Dữ liệu lớn' và chủ yếu sử dụng Excel? Nghiêm túc?!?! Excel chỉ xử lý tối đa 1, 048, 576 hàng dữ liệu trong một bảng tính. Đối với các tập dữ liệu ngoài nó cần một plugin. Ngoài ra các bảng trụ trong Excel có các hạn chế nghiêm trọng đối với phân tích có thể được thực hiện bằng cách sử dụng chúng.

Những loại nhiệm vụ phân tích dữ liệu nào sẽ cần phải được thực hiện trong công việc mà bạn đang tuyển dụng?

Tôi đề nghị bạn tiến hành các cuộc phỏng vấn bao gồm các bài kiểm tra về loại nhiệm vụ sẽ cần phải được thực hiện trong công việc đang được xem xét. Không vi phạm tính bảo mật, quyền riêng tư hoặc bảo vệ dữ liệu, tác vụ lập trình hoặc phân tích dữ liệu được đặt làm một phần của cuộc phỏng vấn nên bao gồm một tập hợp con (giả danh) của một tập dữ liệu liên quan đến bài đăng đang được phỏng vấn. Nếu không, bạn có thể sẽ tuyển một người được nói rõ trong một cuộc phỏng vấn dựa trên cuộc trò chuyện nhưng không thực sự có năng lực trong việc thực hiện công việc thực tế.


Không ai nói 'dữ liệu lớn'. Họ nói 'nhà khoa học dữ liệu'. Không phải tất cả dữ liệu là "dữ liệu lớn". Tôi đã làm việc với các nhà khoa học dữ liệu có kinh nghiệm, những người đã sử dụng tất cả R, Python, SQL và Excel trên một dự án. Không phải tất cả các phân tích dữ liệu là lập trình hoặc kịch bản. Như đã nói ở nơi khác, công việc mơ hồ spec => các loại nhà khoa học dữ liệu khác nhau.
smci
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.