Một nhà khoa học dữ liệu là gì?


181

Gần đây đã tốt nghiệp chương trình tiến sĩ về thống kê, tôi đã có vài tháng qua bắt đầu tìm kiếm công việc trong lĩnh vực thống kê. Hầu như mọi công ty tôi xem xét đều có một bài đăng công việc với tiêu đề công việc là " Nhà khoa học dữ liệu ". Trong thực tế, nó cảm thấy như đã qua lâu là những ngày nhìn thấy các chức danh công việc của Nhà khoa học thống kê hoặc Thống kê . Là một nhà khoa học dữ liệu thực sự thay thế những gì là một nhà thống kê hoặc là những tiêu đề đồng nghĩa với tôi tự hỏi?

Vâng, hầu hết các bằng cấp cho các công việc cảm thấy như những thứ sẽ đủ điều kiện dưới danh hiệu thống kê. Hầu hết các công việc đều muốn có bằng tiến sĩ về thống kê ( ), hiểu rõ nhất về thiết kế thử nghiệm ( ), hồi quy tuyến tính và anova ( ), mô hình tuyến tính tổng quát ( ) và các phương pháp đa biến khác như PCA ( ) , cũng như kiến ​​thức trong môi trường tính toán thống kê như R hoặc SAS ( ). Âm thanh như một nhà khoa học dữ liệu thực sự chỉ là một tên mã cho nhà thống kê.

Tuy nhiên, mỗi cuộc phỏng vấn tôi đã bắt đầu với câu hỏi: "Vậy bạn có quen với thuật toán học máy không?" Thường xuyên hơn không, tôi thấy mình phải cố gắng trả lời các câu hỏi về dữ liệu lớn, điện toán hiệu năng cao và các chủ đề trên mạng thần kinh, GIỎI, máy vectơ hỗ trợ, tăng cây, mô hình không giám sát, v.v ... Chắc chắn tôi đã thuyết phục bản thân rằng tất cả đều là những câu hỏi thống kê, nhưng vào cuối mỗi cuộc phỏng vấn, tôi không thể không cảm thấy mình ngày càng ít biết về một nhà khoa học dữ liệu.

Tôi là một nhà thống kê, nhưng tôi có phải là nhà khoa học dữ liệu không? Tôi làm việc về các vấn đề khoa học vì vậy tôi phải là một nhà khoa học! Và tôi cũng làm việc với dữ liệu, vì vậy tôi phải là một nhà khoa học dữ liệu! Và theo Wikipedia, hầu hết các học giả sẽ đồng ý với tôi ( https://en.wikipedia.org/wiki/Data_science , v.v.)

Mặc dù việc sử dụng thuật ngữ "khoa học dữ liệu" đã bùng nổ trong môi trường kinh doanh, nhiều học giả và nhà báo không thấy sự khác biệt giữa khoa học dữ liệu và thống kê.

Nhưng nếu tôi đang thực hiện tất cả các cuộc phỏng vấn việc làm cho một vị trí nhà khoa học dữ liệu, tại sao có cảm giác như họ không bao giờ hỏi tôi câu hỏi thống kê?

Ngay sau cuộc phỏng vấn cuối cùng của tôi, tôi đã muốn bất kỳ nhà khoa học giỏi nào sẽ làm và tôi đã tìm kiếm dữ liệu để giải quyết vấn đề này (hey, tôi là một nhà khoa học dữ liệu). Tuy nhiên, sau vô số lần tìm kiếm Google sau đó, tôi đã kết thúc ngay khi tôi bắt đầu cảm thấy như thể một lần nữa tôi vật lộn với định nghĩa về một nhà khoa học dữ liệu là gì. Tôi không biết chính xác một nhà khoa học dữ liệu là gì vì có rất nhiều định nghĩa về nó, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) nhưng dường như mọi người đều nói với tôi rằng tôi muốn trở thành một:

Cuối cùng, điều tôi nhận ra là "nhà khoa học dữ liệu là gì" là một câu hỏi rất khó trả lời. Heck, có hai tháng ở Amstat, nơi họ dành thời gian để cố gắng trả lời câu hỏi này:

Bây giờ, tôi phải là một nhà thống kê gợi cảm để trở thành một nhà khoa học dữ liệu nhưng hy vọng cộng đồng xác thực chéo có thể làm sáng tỏ và giúp tôi hiểu ý nghĩa của việc trở thành một nhà khoa học dữ liệu. Không phải tất cả các nhà khoa học dữ liệu thống kê?


(Chỉnh sửa / Cập nhật)

Tôi nghĩ rằng điều này có thể làm gia vị cuộc trò chuyện. Tôi vừa nhận được email từ Hiệp hội Thống kê Hoa Kỳ về một công việc đặt ra với Microsoft đang tìm kiếm Nhà khoa học dữ liệu. Đây là liên kết: Vị trí nhà khoa học dữ liệu . Tôi nghĩ điều này thật thú vị bởi vì vai trò của vị trí đánh vào rất nhiều đặc điểm cụ thể mà chúng ta đã nói đến, nhưng tôi nghĩ rằng rất nhiều trong số chúng đòi hỏi một nền tảng thống kê rất khắt khe, cũng như mâu thuẫn với nhiều câu trả lời được đăng dưới đây. Trong trường hợp liên kết bị chết, đây là những phẩm chất mà Microsoft tìm kiếm ở một nhà khoa học dữ liệu:

Yêu cầu và kỹ năng công việc cốt lõi:

Trải nghiệm tên miền doanh nghiệp bằng cách sử dụng Analytics

  • Phải có kinh nghiệm trên một số lĩnh vực kinh doanh có liên quan trong việc sử dụng các kỹ năng tư duy phê phán để khái niệm hóa các vấn đề kinh doanh phức tạp và giải pháp của họ bằng cách sử dụng các phân tích nâng cao trong các bộ dữ liệu kinh doanh trong thế giới thực quy mô lớn
  • Ứng viên phải có khả năng độc lập điều hành các dự án phân tích và giúp khách hàng nội bộ của chúng tôi hiểu những phát hiện và biến chúng thành hành động để mang lại lợi ích cho doanh nghiệp của họ.

Mô hình dự đoán

  • Kinh nghiệm trên các ngành công nghiệp trong mô hình dự đoán
  • Định nghĩa vấn đề kinh doanh và mô hình hóa khái niệm với khách hàng để gợi ra các mối quan hệ quan trọng và để xác định phạm vi hệ thống

Thống kê / Kinh tế lượng

  • Phân tích dữ liệu thăm dò cho dữ liệu liên tục và phân loại
  • Đặc điểm kỹ thuật và ước tính các phương trình mô hình cấu trúc cho hành vi của doanh nghiệp và người tiêu dùng, chi phí sản xuất, nhu cầu nhân tố, lựa chọn rời rạc và các mối quan hệ công nghệ khác khi cần thiết
  • Kỹ thuật thống kê nâng cao để phân tích dữ liệu liên tục và phân loại
  • Phân tích chuỗi thời gian và thực hiện các mô hình dự báo
  • Kiến thức và kinh nghiệm làm việc với nhiều vấn đề về biến
  • Khả năng đánh giá tính chính xác của mô hình và tiến hành các xét nghiệm chẩn đoán
  • Khả năng giải thích thống kê hoặc mô hình kinh tế
  • Kiến thức và kinh nghiệm trong việc xây dựng mô phỏng sự kiện rời rạc và mô hình mô phỏng động

Quản lý dữ liệu

  • Làm quen với việc sử dụng T-SQL và phân tích để chuyển đổi dữ liệu và áp dụng các kỹ thuật phân tích dữ liệu khám phá cho các tập dữ liệu trong thế giới thực rất lớn
  • Chú ý đến tính toàn vẹn dữ liệu bao gồm dự phòng dữ liệu, độ chính xác của dữ liệu, giá trị bất thường hoặc cực trị, tương tác dữ liệu và giá trị bị thiếu.

Kỹ năng giao tiếp và hợp tác

  • Làm việc độc lập và có thể làm việc với một nhóm dự án ảo sẽ nghiên cứu các giải pháp sáng tạo để giải quyết các vấn đề kinh doanh
  • Phối hợp với các đối tác, áp dụng các kỹ năng tư duy phê phán và thúc đẩy các dự án phân tích từ đầu đến cuối
  • Kỹ năng giao tiếp vượt trội, cả bằng lời nói và bằng văn bản
  • Trực quan hóa các kết quả phân tích ở dạng có thể sử dụng được bởi một nhóm các bên liên quan khác nhau

Gói phần mềm

  • Gói phần mềm thống kê / kinh tế học nâng cao: Python, R, JMP, SAS, Eview, Công cụ khai thác doanh nghiệp SAS
  • Khám phá dữ liệu, trực quan hóa và quản lý: T-SQL, Excel, PowerBI và các công cụ tương đương

Trình độ chuyên môn:

  • Yêu cầu tối thiểu 5 năm kinh nghiệm liên quan
  • Bằng sau đại học trong lĩnh vực định lượng là mong muốn.

6
Câu hỏi hay! Tôi đã tự hỏi về điều này khá nhiều gần đây. Trong mắt tôi, dường như các công việc bao gồm nhà khoa học dữ liệu trong mô tả đang tìm kiếm những người có thể áp dụng các phương pháp thống kê / ML có quy mô tốt, không nhất thiết là những người có thể đối phó với lý thuyết. Tôi vẫn nghĩ rằng có một số dư thừa trong các mô tả công việc. Yêu cầu bằng tiến sĩ có lẽ thường là một yêu cầu quá cao và những người nhân sự làm cho các mô tả công việc này bị ảnh hưởng nặng nề bởi sự ồn ào xung quanh dữ liệu lớn. Là một nhà khoa học dữ liệu một nhà thống kê hay ngược lại là câu hỏi chính tôi muốn xem đã trả lời.
Gumeo

4
Tôi nghĩ rằng đây là một bài báo xuất sắc giải quyết sự thay đổi trong các nền văn hóa trở thành một nhà thống kê so với việc trở thành một nhà khoa học dữ liệu: projecteuclid.org/doad/pdf_1/euclid.ss/1009213726
RustyStatistician 11/2/2016

6
"Nhưng nếu tôi đang thực hiện tất cả các cuộc phỏng vấn việc làm cho vị trí nhà khoa học dữ liệu, tại sao cảm giác như họ không bao giờ hỏi tôi câu hỏi thống kê" ... câu chuyện về cuộc đời tôi ... nghĩa đen là LOL !!! Tôi nghĩ khoa học dữ liệu, thống kê, kinh tế lượng, sinh học, .. vv. có sự chồng chéo đáng kể nhưng tất cả đều sử dụng các thuật ngữ khác nhau, điều này gây khó khăn cho việc giao tiếp (đặc biệt là khi bạn được phỏng vấn bởi một nhân sự không am hiểu và tập trung vào các từ khóa). Hy vọng rằng các nỗ lực liên ngành tăng lên và một số tinh thần cởi mở rất cần thiết sẽ thay đổi điều này trong tương lai.
Zachary Blumenfeld

9
Tôi đã theo "sự trỗi dậy của nhà khoa học dữ liệu" kể từ khi nó trở thành xu hướng vào năm 2008. Đối với tôi, nó chủ yếu là một thuật ngữ tiếp thị thúc đẩy sự cường điệu - các thống kê kỷ luật, học máy, kỹ thuật dữ liệu, phân tích dữ liệu đều là cùng với sự nhấn mạnh khác nhau. Paraphrasing G. Box: Nếu được hỏi những câu hỏi như "Bạn có phải là người Bayes, người thường xuyên, nhà phân tích dữ liệu, người thiết kế thí nghiệm, nhà khoa học dữ liệu?" Nói "có".
Momo

10
@Momo: Tuy nhiên, nếu một người mở một trong hơn 600 trang sách giáo khoa gọi là "Học máy" (hoặc tương tự) và một trong những sách giáo khoa gọi là "Thống kê" (hoặc tương tự), sẽ có rất ít sự chồng chéo. My Bishop Pattern Recognition và Machine Learning hoặc Murphy của Machine Learning có gần như bằng không giao với Lehman & Casella Thuyết Point Estimation , Casella & Berger suy luận thống kê , hoặc Maxwell & Delaney Thiết kế thí nghiệm và phân tích dữ liệu . Chúng khác nhau đến mức tôi nghĩ rằng những người quen thuộc với một bộ sách có thể gặp khó khăn khi đọc bộ kia.
amip

Câu trả lời:


52

Có một vài định nghĩa hài hước chưa được đưa ra:

Nhà khoa học dữ liệu: Một người làm thống kê trên máy Mac.

Tôi thích cái này, vì nó chơi độc đáo ở góc độ cường điệu hơn là chất.

Nhà khoa học dữ liệu: Một nhà thống kê sống ở San Francisco.

Tương tự, điều này riff về hương vị West Coast của tất cả điều này.

Cá nhân, tôi thấy các cuộc thảo luận (nói chung, và ở đây) hơi nhàm chán và lặp đi lặp lại. Khi tôi đang suy nghĩ về những gì tôi muốn --- có thể là một phần tư thế kỷ hoặc lâu hơn --- tôi đã nhắm đến nhà phân tích định lượng. Đó vẫn là những gì tôi làm (và tình yêu!) Và nó chủ yếu chồng chéo và bao gồm những gì được đưa ra ở đây trong các câu trả lời khác nhau.

(Lưu ý: Có một nguồn cũ hơn để trích dẫn hai nhưng tôi không thể tìm thấy nó ngay bây giờ.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitivevà nói vô ích về những chuyện vặt vãnh hoặc những từ mới ầm ĩ, tôi sẽ thêm vào. Tôi vẫn không thể phân biệt sau đó giữa các nhà khoa học dữ liệu, nhà khoa học Kitô giáo và nhà khoa học dữ liệu.
ttnphns

1
LOL @ nhà khoa học dữ liệu.
DSaxton

4
Và tôi ngả mũ trước Người rất nghiêm túc (tất nhiên là vô danh) , người vừa đi qua, bị hạ bệ và không để lại lý do. Gợi ý: Đó không phải là cách thảo luận cải thiện.
Dirk Eddelbuettel 15/2/2016

1
Là một nhà thống kê ở Nam San Francisco, người rất tích cực chiến đấu với danh hiệu Nhà khoa học dữ liệu, định nghĩa thứ hai quá gần với nhà (nhưng tôi không phải là người hạ bệ).
Vách đá AB

1
(+1) @CliffAB Tôi thực sự là một nhà thống kê ở Nam San Francisco.
RustyStatistician

87

Mọi người định nghĩa Khoa học dữ liệu khác nhau, nhưng tôi nghĩ rằng phần chung là:

  • kiến thức thực tế làm thế nào để đối phó với dữ liệu,
  • kỹ năng lập trình thực tế.

Trái với tên của nó, nó hiếm khi "khoa học". Đó là, trong khoa học dữ liệu, trọng tâm là kết quả thực tế (như trong kỹ thuật), không phải là bằng chứng, độ tinh khiết toán học hoặc đặc tính nghiêm ngặt đối với khoa học hàn lâm. Mọi thứ cần phải hoạt động, và có rất ít sự khác biệt nếu nó dựa trên một bài báo học thuật, việc sử dụng một thư viện hiện có, mã của riêng bạn hoặc một bản hack ngẫu hứng.

Statistician không cần thiết là một lập trình viên (có thể sử dụng bút & giấy và phần mềm chuyên dụng). Ngoài ra, một số cuộc gọi công việc trong khoa học dữ liệu không liên quan gì đến thống kê. Ví dụ, đó là kỹ thuật dữ liệu như xử lý dữ liệu lớn, ngay cả khi các toán học tiên tiến nhất có thể tính trung bình (cá nhân tôi sẽ không gọi hoạt động này là "khoa học dữ liệu"). Hơn nữa, "khoa học dữ liệu" được thổi phồng, vì vậy các công việc liên quan đến sử dụng tiêu đề này - để thu hút người nộp đơn hoặc nâng cao cái tôi của những người lao động hiện tại.

Tôi thích cách phân loại từ câu trả lời của Michael Hochster trên Quora :

Nhà khoa học dữ liệu loại A: A là để phân tích. Loại này chủ yếu liên quan đến việc hiểu ý nghĩa của dữ liệu hoặc làm việc với nó theo một cách khá tĩnh. Nhà khoa học dữ liệu loại A rất giống với một nhà thống kê (và có thể là một) nhưng biết tất cả các chi tiết thực tế khi làm việc với dữ liệu không được dạy trong chương trình thống kê: làm sạch dữ liệu, phương pháp xử lý các tập dữ liệu rất lớn, trực quan hóa , kiến ​​thức sâu về một tên miền cụ thể, viết tốt về dữ liệu, v.v.

Nhà khoa học dữ liệu loại B: B là dành cho xây dựng. Các nhà khoa học dữ liệu loại B chia sẻ một số nền tảng thống kê với loại A, nhưng họ cũng là những lập trình viên rất mạnh và có thể được đào tạo các kỹ sư phần mềm. Nhà khoa học dữ liệu loại B chủ yếu quan tâm đến việc sử dụng dữ liệu trong sản xuất. Họ xây dựng các mô hình tương tác với người dùng, thường phục vụ các đề xuất (sản phẩm, những người bạn có thể biết, quảng cáo, phim, kết quả tìm kiếm).

Theo nghĩa đó, Nhà khoa học dữ liệu loại A là một nhà thống kê có thể lập trình. Nhưng, ngay cả đối với phần định lượng, có thể có những người có nền tảng về khoa học máy tính (ví dụ như học máy) so với thống kê thông thường, hoặc những người tập trung, ví dụ như trực quan hóa dữ liệu.

Sơ đồ dữ liệu Venn (tại đây: hack ~ lập trình):

Sơ đồ dữ liệu Venn

xem thêm sơ đồ Venn thay thế ( cái nàycái kia ). Hoặc thậm chí là một tweet , trong khi hài hước, hiển thị một danh sách cân bằng các kỹ năng và hoạt động điển hình của một nhà khoa học dữ liệu:

một nhà khoa học dữ liệu sẽ có thể

Xem thêm bài này: Nhà khoa học dữ liệu - nhà thống kê, lập trình viên, nhà tư vấn và người trực quan? .


14
Tôi thích tweet. Tôi muốn nói thêm rằng anh ấy cũng nên biết cách nướng pizza, trồng rau sinh thái, viết thơ và nhảy salsa :)
Tim

3
Phân minh nhỏ: không phải tất cả "khoa học" đều nhấn mạnh vào "bằng chứng hoặc độ tinh khiết toán học". Hãy suy nghĩ ví dụ sinh học.
amip

2
Việc hack giá trị p có nghĩa là gì? Dường như với tôi rằng ai đó (còn gọi là khách hàng) có mục tiêu giá trị p được chỉ định và nhà khoa học dữ liệu có nhiệm vụ cắt và xé dữ liệu để có thể đạt được mục tiêu giá trị p. Hay là nó có nghĩa là một cái gì đó khác nhau?
emory

2
@amory tweet Đây là humoristic (Đó là một pastishe của một đoạn văn từ en.wikiquote.org/wiki/Time_Enough_for_Love , "Một con người sẽ có thể [list]. Chuyên ngành là dành cho côn trùng."). "Hack một giá trị p" chắc chắn là một thực tế đen tối (đáng buồn thay, phổ biến trong một số ngành học), và (tôi hy vọng) ở đây như một trò đùa.
Piotr Migdal

4
+1 cho nhận xét về việc không gọi ai đó là Nhà khoa học dữ liệu tính toán "thống kê" đơn giản trên các bộ dữ liệu khổng lồ. Tôi nghĩ rằng chúng ta đang rời khỏi một giai đoạn trong Khoa học dữ liệu nơi các nhà khoa học máy tính chuyên về điện toán cụm (Hadoop, v.v.) được gắn nhãn "Nhà khoa học dữ liệu". Tôi không xem thường những kỹ năng đó, nhưng chúng gần như không quan trọng bằng kỹ năng thống kê / lý luận / điều tra và công nghệ đang vượt ra ngoài việc thu nhỏ bản đồ.
Wayne

42

Có một số khảo sát về lĩnh vực khoa học dữ liệu. Tôi thích cái này , vì nó cố gắng phân tích hồ sơ của những người thực sự nắm giữ công việc khoa học dữ liệu. Thay vì sử dụng bằng chứng giai thoại hoặc thành kiến ​​của tác giả, họ sử dụng các kỹ thuật khoa học dữ liệu để phân tích DNA của nhà khoa học dữ liệu.

Nó khá tiết lộ để xem xét các kỹ năng được liệt kê bởi các nhà khoa học dữ liệu. Lưu ý 20 kỹ năng hàng đầu chứa rất nhiều kỹ năng CNTT.

Trong thế giới ngày nay, một nhà khoa học dữ liệu dự kiến ​​sẽ là người nắm giữ tất cả các ngành nghề; một người tự học, có nền tảng định lượng vững chắc, năng khiếu lập trình, trí tò mò vô hạn và kỹ năng giao tiếp tuyệt vời.

nhập mô tả hình ảnh ở đây

CẬP NHẬT:

Tôi là một nhà thống kê, nhưng tôi có phải là nhà khoa học dữ liệu không? Tôi làm việc về các vấn đề khoa học vì vậy tôi phải là một nhà khoa học!

Nếu bạn làm tiến sĩ, rất có thể bạn là một nhà khoa học, đặc biệt, nếu bạn đã xuất bản các bài báo và nghiên cứu tích cực. Bạn không cần phải là một nhà khoa học để trở thành một nhà khoa học dữ liệu. Có một số vai trò tại một số công ty, như Walmart (xem bên dưới), trong đó yêu cầu tiến sĩ, nhưng thông thường các nhà khoa học dữ liệu có bằng BS và MS như bạn có thể thấy từ các ví dụ dưới đây.

Như bạn có thể hình từ biểu đồ trên, rất có thể, bạn sẽ được yêu cầu phải có kỹ năng xử lý dữ liệu và lập trình tốt. Ngoài ra, thường khoa học dữ liệu được liên kết với một số cấp độ, thường là "chuyên sâu" về chuyên môn trong học máy. Bạn chắc chắn có thể gọi cho mình một nhà khoa học dữ liệu nếu bạn có bằng tiến sĩ về thống kê. Tuy nhiên, tiến sĩ khoa học máy tính từ các trường hàng đầu có thể cạnh tranh hơn so với sinh viên tốt nghiệp thống kê, bởi vì họ có thể có kiến ​​thức thống kê ứng dụng khá mạnh, được bổ sung bởi các kỹ năng lập trình mạnh mẽ - sự kết hợp được tìm kiếm bởi các nhà tuyển dụng. Để đối phó với họ, bạn phải có được các kỹ năng lập trình mạnh mẽ, vì vậy trong một sự cân bằng, bạn sẽ rất cạnh tranh. Điều thú vị là thông thường tất cả các tiến sĩ thống kê sẽ có một số kinh nghiệm lập trình, nhưng trong khoa học dữ liệu thường yêu cầu cao hơn thế nhiều,

Đối với tôi, lợi thế của việc có bằng tiến sĩ về số liệu thống kê là trong vấn đề được ghi lại trong phần còn lại của cụm từ "một jack của tất cả các giao dịch" thường bị loại bỏ: "một bậc thầy không". Thật tốt khi có những người biết một chút về mọi thứ, nhưng tôi luôn tìm kiếm những người biết điều gì đó sâu sắc, cho dù đó là số liệu thống kê hay khoa học máy tính không quá quan trọng. Vấn đề là anh chàng có khả năng xuống đáy, đó là một phẩm chất tiện dụng khi bạn cần.

Cuộc khảo sát cũng liệt kê các nhà tuyển dụng hàng đầu của các nhà khoa học dữ liệu. Microsoft đang đứng đầu, rõ ràng, điều đó làm tôi ngạc nhiên. Nếu bạn muốn có được ý tưởng tốt hơn về những gì họ đang tìm kiếm, tìm kiếm LinkeIn với "khoa học dữ liệu" trong phần Công việc là hữu ích. Dưới đây là hai trích đoạn từ các công việc của MS và Walmart trong LinkedIn để đưa ra quan điểm.

  • Nhà khoa học dữ liệu Microsoft

    • Hơn 5 năm kinh nghiệm phát triển phần mềm trong việc xây dựng Hệ thống / Dịch vụ xử lý dữ liệu
    • Cử nhân hoặc bằng cấp cao hơn về Khoa học Máy tính, EE hoặc Toán với chuyên ngành Thống kê, Khai thác dữ liệu hoặc Học máy.
    • Kỹ năng lập trình xuất sắc (C #, Java, Python, v.v.) trong việc thao tác dữ liệu quy mô lớn
    • Kiến thức làm việc về Hadoop hoặc công nghệ xử lý Dữ liệu lớn khác
    • Kiến thức về các sản phẩm phân tích (ví dụ R, SQL AS, SAS, Mahout, v.v.) là một lợi thế.

Lưu ý, làm thế nào để biết các gói stat chỉ là một lợi thế, nhưng kỹ năng lập trình tuyệt vời trong Java là một yêu cầu.

  • Walmart, Nhà khoa học dữ liệu

    • Tiến sĩ khoa học máy tính hoặc lĩnh vực tương tự hoặc MS có ít nhất 2-5 năm kinh nghiệm liên quan
    • Kỹ năng mã hóa chức năng tốt trong C ++ hoặc Java (Java rất được ưa thích)
    • phải có khả năng dành tới 10% mỗi ngày làm việc hàng ngày để viết mã sản xuất bằng C ++ / Java / Hadoop / Hive
    • Kiến thức cấp chuyên gia về một trong những ngôn ngữ kịch bản như Python hoặc Perl.
    • Kinh nghiệm làm việc với các tập dữ liệu lớn và các công cụ tính toán phân tán là một điểm cộng (Map / Giảm, Hadoop, Hive, Spark, v.v.)

Ở đây, tiến sĩ được ưa thích, nhưng chỉ có chuyên ngành khoa học máy tính được đặt tên. Điện toán phân tán với Hadoop hoặc Spark có lẽ là một kỹ năng khác thường đối với một nhà thống kê, nhưng một số nhà vật lý lý thuyết và nhà toán học ứng dụng sử dụng các công cụ tương tự.

CẬP NHẬT 2:

"Đó là Đã Time to Kill‘Data Scientist’Title" Thomas Davenport người đồng sáng tác các bài viết trong Harvard Business Review năm 2012 với tựa đề nói ": Các công việc quyến rũ nhất của thế kỷ 21 dữ liệu khoa học" rằng loại bắt đầu những cơn sốt nhà khoa học dữ liệu:

Điều đó có nghĩa là gì hôm nay khi nói bạn là một người hay muốn trở thành, hoặc muốn thuê một nhà khoa học dữ liệu của Google?


3
+1 để sử dụng dữ liệu và liên kết đến một báo cáo dựa trên dữ liệu đẹp. Nhưng ảnh chụp màn hình có cần giao diện trình duyệt web không?
Piotr Migdal

@PiotrMigdal, tôi nên học cách cắt xén hoặc ngừng lười biếng
Aksakal

4
Tôi cắt nó cho bạn.
amip

1
Tôi muốn tải xuống sau bản cập nhật ngày hôm nay: chủ đề này đã rất bận rộn và có một bức tường trích dẫn khổng lồ để cuộn xuống không hữu ích lắm đối với tôi ... Có lẽ các liên kết + tóm tắt ngắn gọn có thể đủ?
amip

1
@amoeba, tôi lột danh sách xuống. Đó là một nhận xét công bằng
Aksakal

39

Ở đâu đó tôi đã đọc điều này (EDIT: Josh Will đang giải thích về tweet của mình ):

Nhà khoa học dữ liệu là người giỏi thống kê hơn bất kỳ lập trình viên nào và giỏi lập trình hơn bất kỳ nhà thống kê nào.

Báo giá này có thể được giải thích ngắn gọn bởi quá trình khoa học dữ liệu này . Cái nhìn đầu tiên về sơ đồ này trông giống như "tốt, phần lập trình ở đâu?", Nhưng nếu bạn có hàng tấn dữ liệu, bạn phải có khả năng xử lý chúng.


11
Vì vậy, có lẽ mỗi người đóng góp R là một nhà thống kê là một nhà khoa học dữ liệu? ;)
Tim

15
Ồ, tôi vừa mới đi dạo trang web, tự hỏi về câu hỏi này (cho rằng có sự khôn ngoan ) và sau đó khi biết rằng tôi có một trang Wikipedia của friggin ? Đó là tin tức với tôi ... Và với những gì đáng giá tôi đã đào tạo về Kinh tế lượng, không phải thống kê, nhưng đã hoạt động như một "số lượng" trong hơn 20 năm. Điều đó thực sự giống như khoa học dữ liệu ...
Dirk Eddelbuettel 14/2/2016

3
-1. Tôi không hài lòng vì tôi không thích câu trích dẫn này Tôi sẽ đề nghị nó được chuyển đổi thành một bình luận, trừ khi có lẽ bạn mở rộng nó bằng cách nào đó.
amip

3
Dưới đây là một lời giải thích về trích dẫn này của tác giả Josh Wills . Ba đoạn đầu tiên sau trích dẫn khá phù hợp với cuộc thảo luận này.
amip

3
@amoeba: Tôi thích bài viết của Josh Wills cho đến thời điểm này: "Tôi nghi ngờ rằng chúng tôi dạy cho mọi người số liệu thống kê nâng cao theo cách có xu hướng khiến các nhà khoa học máy tính sợ hãi bằng cách tập trung vào các mô hình tham số đòi hỏi nhiều tính toán thay vì các mô hình không tham số đó chủ yếu là tính toán ". Ngoài ra, tôi không đồng ý với anh ta rằng việc dạy các số liệu thống kê nâng cao cho người CS dễ dàng hơn so với cách lập trình tốt cho các nhà thống kê (mặc dù tôi chắc chắn đồng ý rằng hầu hết các nhà thống kê đều là những lập trình viên tồi tệ).
Vách đá AB

15

Tôi đã viết một vài câu trả lời và mỗi lần chúng dài ra và cuối cùng tôi quyết định mình sẽ thức dậy trên một hộp xà phòng. Nhưng tôi nghĩ rằng cuộc trò chuyện này chưa khám phá đầy đủ hai yếu tố quan trọng:

  1. Các Khoa học về Khoa học Data. Một cách tiếp cận khoa học là một cách mà bạn cố gắng phá hủy các mô hình, lý thuyết, tính năng, lựa chọn kỹ thuật của mình, v.v. và chỉ khi bạn không thể làm như vậy thì bạn mới chấp nhận rằng kết quả của bạn có thể hữu ích. Đó là một suy nghĩ và nhiều nhà khoa học dữ liệu tốt nhất mà tôi đã gặp có nền tảng khoa học cứng (hóa học, sinh học, kỹ thuật).

  2. Khoa học dữ liệu là một lĩnh vực rộng lớn. Một kết quả Khoa học dữ liệu tốt thường liên quan đến một nhóm nhỏ các nhà khoa học dữ liệu, mỗi nhóm có chuyên môn riêng. Ví dụ, một thành viên trong nhóm nghiêm ngặt và thống kê hơn, một người khác là một lập trình viên giỏi hơn với nền tảng kỹ thuật và một người khác là một nhà tư vấn mạnh mẽ với hiểu biết về kinh doanh. Cả ba đều nhanh chóng tìm hiểu vấn đề, và cả ba đều tò mò và muốn tìm ra sự thật - tuy đau đớn - và làm những gì vì lợi ích tốt nhất của khách hàng (nội bộ hoặc bên ngoài), ngay cả khi khách hàng không ' t hiểu.

Nhà mốt trong vài năm qua - hiện đang mờ dần, tôi nghĩ - là tuyển dụng các Nhà khoa học máy tính đã thành thạo các công nghệ cụm (hệ sinh thái Hadoop, v.v.) và nói rằng đó là Nhà khoa học dữ liệu lý tưởng. Tôi nghĩ đó là những gì OP đã gặp phải và tôi khuyên OP nên phát huy thế mạnh của mình bằng sự nghiêm khắc, đúng đắn và tư duy khoa học.


@RustyStatistician: Bạn được chào đón. Tôi muốn nói thêm rằng công việc tư vấn mà tôi làm việc có bằng tiến sĩ (kỹ thuật, sinh học, thiên văn học, khoa học máy tính), nhưng theo quan điểm chung, bằng MS - thường là những người có kinh nghiệm làm việc trở lại với MS trong Analytics - như một điểm ngọt ngào . Điều đó nói rằng, tôi rất biết ơn mỗi ngày đối với đồng nghiệp tiến sĩ sinh học của tôi, người hiện đang tham gia một dự án mà tôi là người dẫn đầu về công nghệ. Cùng với người dẫn đầu dự án có nền tảng Kinh tế (và MS trong Analytics), chúng tôi là một nhóm tuyệt vời! (MS của tôi thuộc Trí tuệ nhân tạo.)
Wayne

+1, nhưng tôi tự hỏi về điểm đầu tiên của bạn nói rằng khoa học dữ liệu [tốt] một khoa học. Nếu vậy, đó là một thuật ngữ gây tò mò và có lẽ là sai (vì) vì "khoa học dữ liệu" không tự nghiên cứu "dữ liệu"; nó đang sử dụng dữ liệu để nghiên cứu một cái gì đó khác, bất cứ điều gì đáng quan tâm trong một ứng dụng nhất định. Ngược lại, ví dụ "khoa học chính trị" được cho là nghiên cứu chính trị và "khoa học thần kinh" đang nghiên cứu tế bào thần kinh, như tên gọi.
amip

1
@amoeba: Thật ra, ý tôi là Nhà khoa học dữ liệu phải sử dụng phương pháp khoa học ala Richard Feynman như một phần trong cách họ hiểu và sử dụng dữ liệu. (Như bạn nói, khi theo đuổi một ứng dụng cụ thể.) Đó là phần thống kê của công việc: "Biến này có vẻ rất quan trọng - nó có bị rò rỉ từ tương lai không?" Hoặc "Mô hình này có vẻ hợp lý, nhưng chúng ta hãy chạy CV trên toàn bộ quy trình tạo mô hình, và sau đó hãy thực hiện một số mô hình lại trên đó." Đó là cố gắng để từ chối mô hình / lý thuyết của bạn và liên quan đến những người khác làm như vậy. Không chấp nhận "Green M & Ms gây ung thư".
Wayne

@Wayne là người duy nhất đề cập đến "phương pháp khoa học" cho đến nay. Điều này thật đáng buồn.
jgomo3

Một sự hiểu biết về vật lý, đặc biệt là các đơn vị, là cần thiết cho bất cứ ai cố gắng hiểu ý nghĩa của bất cứ điều gì. Tuy nhiên, trong thế giới mới dũng cảm này của chúng ta, thường đủ để thực hiện các quan sát heuristic có giá trị tiên đoán dưới tối ưu là "nút chặn", nhưng không phải là giải pháp thực sự.
Carl

14

Tôi nghĩ Bitwise bao gồm hầu hết câu trả lời của tôi nhưng tôi sẽ thêm 2c của mình.

Không, tôi xin lỗi nhưng một nhà thống kê không phải là nhà khoa học dữ liệu, ít nhất là dựa trên cách mà hầu hết các công ty xác định vai trò ngày nay. Lưu ý rằng định nghĩa đã thay đổi theo thời gian và một thách thức của các học viên là đảm bảo chúng vẫn phù hợp.

Tôi sẽ chia sẻ một số lý do phổ biến về lý do tại sao chúng tôi từ chối các ứng cử viên cho vai trò "Nhà khoa học dữ liệu":

  • Kỳ vọng về phạm vi của công việc. Thông thường DS cần có khả năng làm việc độc lập. Điều đó có nghĩa là không có ai khác tạo bộ dữ liệu cho anh ta để giải quyết vấn đề anh ta được chỉ định. Vì vậy, anh ta cần có khả năng tìm các nguồn dữ liệu, truy vấn chúng, mô hình hóa một giải pháp và sau đó, thường xuyên, cũng tạo ra một nguyên mẫu giải quyết vấn đề. Nhiều khi chỉ đơn giản là việc tạo ra một bảng điều khiển, báo thức hoặc báo cáo trực tiếp liên tục cập nhật.
  • Truyền thông . Dường như, nhiều nhà thống kê có một thời gian khó "đơn giản hóa" và "bán" ý tưởng của họ cho các doanh nhân. Bạn có thể chỉ hiển thị một biểu đồ và kể một câu chuyện từ dữ liệu theo cách mà mọi người trong phòng có thể lấy nó không? Lưu ý rằng đây là sau khi bạn đảm bảo rằng bạn có thể bảo vệ mọi phân tích nếu bị thách thức.
  • Kỹ năng mã hóa . Chúng tôi không cần kỹ năng mã hóa mức sản xuất, vì chúng tôi có các nhà phát triển cho điều đó, tuy nhiên, chúng tôi cần cô ấy có thể viết một nguyên mẫu và triển khai nó như một dịch vụ web trong một ví dụ AWS EC2. Vì vậy, kỹ năng mã hóa không có nghĩa là khả năng viết các tập lệnh R. Tôi có thể thêm sự lưu loát trong Linux ở đâu đó có lẽ ở đây. Vì vậy, thanh chỉ đơn giản là cao hơn so với những gì hầu hết các nhà thống kê có xu hướng tin.
  • SQL và cơ sở dữ liệu . Không, anh ta không thể tiếp nhận công việc đó, vì chúng tôi thực sự cần anh ta điều chỉnh SQL cơ bản mà anh ta đã biết và học cách truy vấn nhiều hệ thống DB khác nhau mà chúng tôi sử dụng trên org bao gồm Redshift, HIVE và Presto - mỗi trong đó sử dụng hương vị riêng của SQL. Thêm vào đó, học SQL trong công việc có nghĩa là ứng viên sẽ tạo ra các vấn đề trong mọi nhà phân tích khác cho đến khi họ học cách viết các truy vấn hiệu quả.
  • Học máy . Thông thường, họ đã sử dụng Hồi quy logistic hoặc một vài kỹ thuật khác để giải quyết vấn đề dựa trên bộ dữ liệu đã cho (kiểu Kaggle). Tuy nhiên, ngay cả khi cuộc phỏng vấn bắt đầu từ các thuật toán và phương pháp, nó sẽ sớm tập trung vào các chủ đề như tạo tính năng (hãy nhớ bạn cần tạo tập dữ liệu, không có ai khác tạo nó cho bạn), khả năng duy trì, khả năng mở rộng và hiệu suất cũng như liên quan đánh đổi Đối với một số bối cảnh, bạn có thể xem một bài báo liên quan từ Google được xuất bản trong NIPS 2015.
  • Phân tích văn bản . Không nhất thiết phải có, nhưng một số kinh nghiệm trong Xử lý ngôn ngữ tự nhiên là tốt để có. Rốt cuộc, một phần lớn dữ liệu ở định dạng văn bản. Như đã thảo luận, không có ai khác thực hiện các phép biến đổi và dọn sạch văn bản cho bạn để làm cho nó có thể sử dụng được bằng ML hoặc phương pháp thống kê khác. Ngoài ra, lưu ý rằng ngày nay, ngay cả học sinh lớp CS cũng đã thực hiện một số dự án đánh dấu vào ô này.

Tất nhiên đối với vai trò cơ sở, bạn không thể có tất cả những điều trên. Nhưng, có bao nhiêu trong số những kỹ năng này bạn có thể đủ khả năng thiếu và tiếp nhận công việc?

Cuối cùng, để làm rõ, lý do phổ biến nhất để từ chối những người không thống kê chính xác là thiếu kiến ​​thức cơ bản về các số liệu thống kê. Và ở đâu đó có sự khác biệt giữa một kỹ sư dữ liệu và một nhà khoa học dữ liệu. Tuy nhiên, các kỹ sư dữ liệu có xu hướng áp dụng cho các vai trò này, vì nhiều lần họ tin rằng "thống kê" chỉ là mức trung bình, phương sai và phân phối bình thường. Vì vậy, chúng tôi có thể thêm một vài từ thông tin thống kê có liên quan nhưng đáng sợ trong các mô tả công việc để làm rõ những gì chúng tôi muốn nói là "thống kê" và ngăn ngừa sự nhầm lẫn.


4
Từ năm 2006, tôi dạy các khóa học thống kê và phân tích dữ liệu ứng dụng trong các chương trình gọi là "tin học kinh doanh" tại hai trường đại học và điều này áp dụng 100% cho những gì học sinh của tôi học. 1. Họ cần thu thập dữ liệu thực, có lẽ lộn xộn từ doanh nghiệp của họ, web, khảo sát, v.v. 2. Làm sạch, chuẩn bị và lưu trữ dữ liệu trong cơ sở dữ liệu SQL cho khóa học. 3. Thực hiện các phân tích thống kê khác nhau trên dữ liệu. 4. Chuẩn bị 1-2 trang tóm tắt điều hành ngắn và viết một báo cáo chuyên sâu với lập trình theo nghĩa đen (đan hoặc tương tự). Từ đó khoa học dữ liệu là tin học kinh doanh với một khóa học thống kê / ML bổ sung, không?
Momo

4
Chắc chắn, khóa học của bạn bao gồm nhiều kỹ năng cần thiết. Tôi cho rằng chúng ta có thể tìm thấy nhiều kết hợp, ví dụ, bằng Khoa học Máy tính với một số khóa học thống kê và luận án / thực tập về một vấn đề dựa trên ML kinh doanh. Vào cuối ngày, điều quan trọng là độ sâu và bề rộng của các kỹ năng liên quan mà ứng viên mang đến trên bàn.
iliasfl

11

Cho phép tôi bỏ qua sự cường điệu và buzzwords. Tôi nghĩ rằng "Nhà khoa học dữ liệu" (hoặc bất cứ điều gì bạn muốn gọi nó) là một điều có thật và nó khác với một nhà thống kê. Có nhiều loại vị trí có hiệu quả là các nhà khoa học dữ liệu nhưng không được đặt tên đó - một ví dụ là những người làm việc trong bộ gen.

Theo cách tôi nhìn thấy, một nhà khoa học dữ liệu là người có kỹ năng và chuyên môn để thiết kế và thực hiện nghiên cứu về một lượng lớn dữ liệu phức tạp (ví dụ như các chiều cơ bản trong đó các cơ chế cơ bản không rõ và phức tạp).

Điều này có nghĩa là:

  • Lập trình: Có thể thực hiện phân tích và đường ống, thường yêu cầu một số mức độ song song và giao tiếp với cơ sở dữ liệu và tài nguyên tính toán hiệu năng cao.
  • Khoa học máy tính (thuật toán): Thiết kế / chọn thuật toán hiệu quả sao cho phân tích được chọn là khả thi và tỷ lệ lỗi được kiểm soát. Đôi khi điều này cũng có thể đòi hỏi kiến ​​thức về phân tích số, tối ưu hóa, v.v.
  • Khoa học / thống kê máy tính (thường nhấn mạnh vào học máy): Thiết kế và triển khai khung để đặt câu hỏi về dữ liệu hoặc tìm "mẫu" trong đó. Điều này sẽ bao gồm không chỉ kiến ​​thức về các bài kiểm tra / công cụ / thuật toán khác nhau mà còn cả cách thiết kế tổ chức phù hợp, xác thực chéo, v.v.
  • Mô hình hóa: Thông thường chúng tôi muốn có thể tạo ra một số mô hình cung cấp dữ liệu đơn giản hơn để chúng tôi có thể đưa ra dự đoán hữu ích và hiểu rõ hơn về các cơ chế ẩn dưới dữ liệu. Mô hình xác suất là rất phổ biến cho điều này.
  • Chuyên môn về miền cụ thể: Một khía cạnh quan trọng của việc làm việc thành công với dữ liệu phức tạp là kết hợp hiểu biết cụ thể về tên miền. Vì vậy, tôi muốn nói rằng điều quan trọng là nhà khoa học dữ liệu phải có chuyên môn về miền, có thể nhanh chóng học các lĩnh vực mới hoặc có thể giao tiếp tốt với các chuyên gia trong lĩnh vực có thể mang lại hiểu biết hữu ích về cách tiếp cận dữ liệu .

6
Và ai là một nhà thống kê, theo ý kiến ​​của bạn? Danh sách các kỹ năng này khác với các kỹ năng mà một "nhà thống kê" nên có như thế nào?
amip

4
@amoeba Tôi có thể sai, nhưng nhiều nhà thống kê không có một số kỹ năng này (ví dụ lập trình rộng rãi với bộ dữ liệu lớn, đào tạo trình độ sau đại học về khoa học máy tính). Ngoài ra, một số kỹ năng thống kê không liên quan đến thường là một nhà khoa học dữ liệu (một số lý thuyết, một số lĩnh vực phụ).
Bitwise

4
@rocinante: Tôi mạnh mẽ không đồng ý rằng "lập trình với 'dữ liệu khổng lồ' không phải là thực sự là một hinderance". Tôi không nghĩ rằng tôi biết bất kỳ ai có tiêu đề "nhà thống kê" có thể triển khai phần mềm đưa ra quyết định theo thời gian thực dựa trên các gói đến trên máy chủ. Chắc chắn không phải tất cả các nhà khoa học dữ liệu cũng có thể, nhưng tỷ lệ này cao hơn nhiều .
Vách đá AB

3
@rocinante một sự hiểu biết tốt về thống kê là cần thiết nhưng không đủ theo quan điểm của tôi. Về mức độ sâu sắc / khó khăn của các chỉ số so với các kỹ năng khác, tôi sẽ lập luận rằng việc có được sự hiểu biết tốt về khía cạnh khoa học máy tính là sâu sắc / khó khăn, nếu không muốn nói là nhiều hơn. Ngoài ra, liên quan đến các câu hỏi về SE đó, bạn tìm thấy những loại câu hỏi trên bất kỳ SE nào (bao gồm cả câu hỏi này) - nó không có nghĩa gì ngoại trừ một số người muốn có giải pháp dễ dàng mà không hiểu.
Bitwise

6
Một điều gây mệt mỏi trong các cuộc tranh luận "khoa học dữ liệu so với thống kê" này là hàm ý tinh tế rằng các nhà khoa học dữ liệu giống như một giống thống kê vượt trội. Thực tế là khi bề rộng kiến ​​thức của bạn tăng chiều sâu, và của những người giỏi hơn không biết gì về tất cả các nhiệm vụ cần thiết để trở thành một "nhà khoa học dữ liệu", tôi sẽ tưởng tượng kiến ​​thức của họ về hầu hết những điều này khá hời hợt. Nói chung, rất khó để trở thành chuyên gia trong bất kỳ lĩnh vực nào mà mọi người mong đợi các nhà khoa học dữ liệu huyền thoại này đã thành thạo.
DSaxton

7

Tất cả các câu trả lời tuyệt vời, tuy nhiên trong kinh nghiệm săn việc của tôi, tôi đã lưu ý rằng thuật ngữ "nhà khoa học dữ liệu" đã bị nhầm lẫn với "nhà phân tích dữ liệu cơ sở" trong tâm trí của các nhà tuyển dụng mà tôi đã tiếp xúc. Do đó, nhiều người tốt bụng không có kinh nghiệm thống kê ngoài khóa học giới thiệu một khóa mà họ đã làm vài năm trước đây tự gọi mình là nhà khoa học dữ liệu. Là một người có nền tảng khoa học máy tính và có nhiều năm kinh nghiệm làm nhà phân tích dữ liệu, tôi đã làm Tiến sĩ Thống kê sau này trong sự nghiệp với suy nghĩ nó sẽ giúp tôi nổi bật giữa đám đông, tôi thấy mình trong một đám đông "nhà khoa học dữ liệu" bất ngờ ". Tôi nghĩ rằng tôi có thể trở lại "thống kê"!


5
Tôi về cơ bản thấy điều tương tự. Bất kỳ công việc nào yêu cầu một số công việc với dữ liệu hoặc một số phân tích được gọi là "Khoa học dữ liệu". Tôi nghĩ điều tương tự đã xảy ra với "Quant" trong tài chính, nơi mà bất kỳ ai làm việc với dữ liệu đều tự gọi mình là "Quant".
Akavall

6

Tôi là một nhân viên cơ sở, nhưng chức danh công việc của tôi là "nhà khoa học dữ liệu". Tôi nghĩ rằng câu trả lời của Bitwise là một mô tả thích hợp về những gì tôi được thuê để làm, nhưng tôi muốn thêm một điểm nữa dựa trên kinh nghiệm hàng ngày của tôi tại nơi làm việc:

Data ScienceStatistics,
StatisticsData Science.

Khoa học là một quá trình tìm hiểu. Khi dữ liệu là phương tiện mà yêu cầu đó được thực hiện, khoa học dữ liệu đang diễn ra. Điều đó không có nghĩa là tất cả những người thử nghiệm hoặc nghiên cứu dữ liệu nhất thiết phải là nhà khoa học dữ liệu, giống như cách mà không phải ai thử nghiệm hoặc nghiên cứu về hệ thống dây điện nhất thiết phải là kỹ sư điện. Nhưng điều đó có nghĩa là người ta có thể có đủ đào tạo để trở thành một "người hỏi dữ liệu" chuyên nghiệp, giống như cách người ta có thể có đủ đào tạo để trở thành một thợ điện chuyên nghiệp. Việc đào tạo đó ít nhiều bao gồm các điểm trong câu trả lời của Bitwise, trong đó thống kê là một thành phần nhưng không phải là toàn bộ.

Câu trả lời của Piotr cũng là một bản tóm tắt hay về tất cả những điều tôi cần làm, ước gì tôi biết cách làm trong một tuần nhất định. Công việc của tôi cho đến nay chủ yếu là giúp hoàn tác các thiệt hại do các nhân viên cũ thuộc thành phần "Khu vực nguy hiểm" của sơ đồ Venn thực hiện.


2
+1. Tôi nghĩ rằng nó rất có giá trị trong chủ đề này để nghe từ những người thực sự làm việc như "nhà khoa học dữ liệu".
amip

(+1) @amoeba Tôi đồng ý 100% với tình cảm của bạn.
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@caveman Mình nhất định đồng ý.
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

Gần đây tôi cũng quan tâm đến khoa học dữ liệu như một nghề nghiệp và khi tôi nghĩ về những gì tôi học được về công việc khoa học dữ liệu so với nhiều khóa học thống kê mà tôi đã tham gia (và rất thích!), Tôi bắt đầu nghĩ về các nhà khoa học dữ liệu các nhà khoa học máy tính đã chuyển sự chú ý của họ đến dữ liệu. Đặc biệt, tôi lưu ý những khác biệt chính sau đây. Lưu ý rằng sự khác biệt xuất hiện tâm trạng. Những điều sau đây chỉ phản ánh những ấn tượng chủ quan của tôi và tôi không yêu cầu sự chung chung. Chỉ là ấn tượng của tôi!

  1. Trong thống kê, bạn quan tâm rất nhiều về phân phối, xác suất và quy trình suy luận (cách thực hiện kiểm tra giả thuyết, đó là phân phối cơ bản, v.v.). Theo những gì tôi hiểu, khoa học dữ liệu thường không phải là dự đoán và lo lắng về các báo cáo suy luận ở một mức độ nào đó được hấp thụ bởi các thủ tục từ khoa học máy tính, chẳng hạn như xác nhận chéo.

  2. Trong các khóa học thống kê, tôi thường chỉ tạo dữ liệu của riêng mình hoặc sử dụng một số dữ liệu đã sẵn sàng có sẵn ở định dạng khá rõ ràng. Điều đó có nghĩa là nó có định dạng hình chữ nhật đẹp, một số bảng tính excel hoặc một cái gì đó tương tự phù hợp với RAM. Làm sạch dữ liệu chắc chắn có liên quan, nhưng tôi không bao giờ phải đối phó với việc "trích xuất" dữ liệu từ web, chứ đừng nói đến cơ sở dữ liệu phải được thiết lập để giữ một lượng dữ liệu không còn phù hợp với RAM nữa. Ấn tượng của tôi là khía cạnh tính toán này chiếm ưu thế hơn nhiều trong khoa học dữ liệu.

  3. Có thể điều này phản ánh sự thiếu hiểu biết của tôi về những gì các nhà thống kê làm trong các công việc thống kê điển hình, nhưng trước khi khoa học dữ liệu tôi không bao giờ nghĩ về việc xây dựng các mô hình thành một sản phẩm lớn hơn. Có một phân tích được thực hiện, một vấn đề thống kê cần giải quyết, một số tham số cần ước tính, và đó là nó. Trong khoa học dữ liệu, dường như các mô hình dự đoán thường (mặc dù không phải luôn luôn) được xây dựng thành một thứ lớn hơn. Chẳng hạn, bạn nhấp vào một nơi nào đó và trong vòng một phần nghìn giây, một thuật toán dự đoán sẽ quyết định kết quả được hiển thị là gì. Vì vậy, trong khi thống kê, tôi luôn tự hỏi "chúng ta có thể ước tính tham số nào và làm thế nào để thực hiện nó một cách thanh lịch", có vẻ như trong khoa học dữ liệu tập trung nhiều hơn vào "những gì chúng ta có thể dự đoán có thể hữu ích trong một sản phẩm dữ liệu" .

Một lần nữa, ở trên không cố gắng đưa ra một định nghĩa chung. Tôi chỉ chỉ ra những khác biệt lớn mà tôi đã nhận thấy bản thân mình. Tôi chưa làm về khoa học dữ liệu, nhưng tôi hy vọng sẽ chuyển tiếp trong năm tới. Theo nghĩa này, hãy lấy hai xu của tôi ở đây với một hạt muối.


2

Tôi nói một Nhà khoa học dữ liệu là một vai trò trong đó người ta tạo ra kết quả có thể đọc được cho con người để kinh doanh, sử dụng các phương pháp để tạo ra kết quả vững chắc về mặt thống kê (có ý nghĩa).

Nếu bất kỳ phần nào của định nghĩa này không được tuân theo, chúng ta sẽ nói về một nhà phát triển, một nhà khoa học / nhà thống kê thực thụ hoặc một kỹ sư dữ liệu.


2

Tôi luôn luôn thích cắt giảm bản chất của vấn đề.

statistics - science + some computer stuff + hype = data science

1
Nghe có vẻ giống như ấn tượng mà tôi đã hình thành từ "machine learning", cái mà tôi gói gọn là "học cách vận hành một phần mềm mà không hiểu nó thực sự hoạt động như thế nào" (tất nhiên là không công bằng, nhưng chúng ta thấy rất nhiều "học máy" những người ra khỏi trường không hiểu gì ngoài các thông số điều chỉnh của các loại lưới thần kinh khác nhau đại diện cho điều gì.)
jbowman 17/2/18

1

Khoa học dữ liệu là sự pha trộn đa ngành của suy luận dữ liệu, phát triển thuật toán và công nghệ để giải quyết các vấn đề phức tạp về phân tích. Nhưng do sự yêu quý của các nhà khoa học dữ liệu, một sự nghiệp trong khoa học dữ liệu thực sự có thể tạo ra vô số cơ hội. Tuy nhiên, các tổ chức đang tìm kiếm các chuyên gia được chứng nhận từ SAS, Hội đồng Khoa học Dữ liệu Hoa Kỳ (DASCA), Hortonworks, vv Hy vọng đây là một thông tin tốt!


1

Các nhà khoa học dữ liệu có các kỹ năng rất thành thạo về phát triển Python, MySQL và Java.

Họ có hiểu biết rất rõ về các chức năng phân tích, thực sự giỏi về toán học, thống kê, khai thác dữ liệu, kỹ năng phân tích dự đoán và họ cũng có kiến ​​thức thực sự tốt về các ngôn ngữ mã hóa như Python và R.

Rất nhiều nhà khoa học dữ liệu ngay bây giờ có bằng tiến sĩ của họ hoặc bằng thạc sĩ của họ thực sự theo nghiên cứu chỉ có khoảng 8% chỉ đơn giản là bằng cử nhân nên nó chuyên sâu hơn nhiều.

Xây dựng các mô hình thống kê đưa ra quyết định dựa trên dữ liệu. Mỗi quyết định có thể khó, ví dụ: chặn một trang khỏi kết xuất hoặc mềm, ví dụ: gán điểm cho mức độ độc hại của trang, được sử dụng bởi các hệ thống hướng xuống hoặc con người.

Tiến hành các thí nghiệm nhân quả cố gắng quy kết nguyên nhân gốc rễ của một hiện tượng quan sát được. Điều này có thể được thực hiện bằng cách thiết kế các thí nghiệm A / B hoặc nếu thí nghiệm A / B không thể áp dụng phương pháp dịch tễ học cho vấn đề, ví dụ như mô hình nguyên nhân @ Rubin

Xác định các sản phẩm hoặc tính năng mới đến từ việc mở khóa giá trị của dữ liệu; là một nhà lãnh đạo tư tưởng về giá trị của dữ liệu. Một ví dụ điển hình là tính năng đề xuất sản phẩm mà Amazon lần đầu tiên cung cấp cho khán giả đại chúng.


1
Ồ không. Tôi cao như bạn có thể tham gia vào chuỗi công việc của nhà khoa học dữ liệu và tôi hoàn toàn không biết Java, tôi cũng không thành thạo Python và các kỹ năng MySQL của tôi có chất lượng tốt nhất. Trong nhóm của tôi, chúng tôi có một vài người khác biết ít Python, thích R và chỉ có một người biết Java nhưng anh ta chủ yếu viết mã trong R và C / C ++ (như tôi.) Ba người biết Python nhưng thực sự không biết ngôn ngữ cấp thấp hơn. Tôi không muốn tham gia vào các cuộc chiến nảy lửa của Python v. R, hoặc Java v. C / C ++, nhưng không có nghĩa là bất kỳ trường hợp nào trong danh sách kỹ năng liên quan đến lập trình của bạn đều cần thiết.
jbowman

0

Để trả lời câu hỏi của bạn "Nhà khoa học dữ liệu là gì?" Có thể đáng để nhận ra sự khác biệt giữa Nhà khoa học dữ liệu và Cơ chế dữ liệu như được ghi chú trong http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/


1
Để đây là một câu trả lời hoàn chỉnh, vui lòng làm nổi bật những điểm chính từ bài viết trong câu trả lời của bạn, để cung cấp cho OP và những người đọc khác những điểm chính.
Greenparker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.