Gần đây đã tốt nghiệp chương trình tiến sĩ về thống kê, tôi đã có vài tháng qua bắt đầu tìm kiếm công việc trong lĩnh vực thống kê. Hầu như mọi công ty tôi xem xét đều có một bài đăng công việc với tiêu đề công việc là " Nhà khoa học dữ liệu ". Trong thực tế, nó cảm thấy như đã qua lâu là những ngày nhìn thấy các chức danh công việc của Nhà khoa học thống kê hoặc Thống kê . Là một nhà khoa học dữ liệu thực sự thay thế những gì là một nhà thống kê hoặc là những tiêu đề đồng nghĩa với tôi tự hỏi?
Vâng, hầu hết các bằng cấp cho các công việc cảm thấy như những thứ sẽ đủ điều kiện dưới danh hiệu thống kê. Hầu hết các công việc đều muốn có bằng tiến sĩ về thống kê ( ), hiểu rõ nhất về thiết kế thử nghiệm ( ), hồi quy tuyến tính và anova ( ), mô hình tuyến tính tổng quát ( ) và các phương pháp đa biến khác như PCA ( ) , cũng như kiến thức trong môi trường tính toán thống kê như R hoặc SAS ( ). Âm thanh như một nhà khoa học dữ liệu thực sự chỉ là một tên mã cho nhà thống kê.✓ ✓ ✓ ✓ ✓
Tuy nhiên, mỗi cuộc phỏng vấn tôi đã bắt đầu với câu hỏi: "Vậy bạn có quen với thuật toán học máy không?" Thường xuyên hơn không, tôi thấy mình phải cố gắng trả lời các câu hỏi về dữ liệu lớn, điện toán hiệu năng cao và các chủ đề trên mạng thần kinh, GIỎI, máy vectơ hỗ trợ, tăng cây, mô hình không giám sát, v.v ... Chắc chắn tôi đã thuyết phục bản thân rằng tất cả đều là những câu hỏi thống kê, nhưng vào cuối mỗi cuộc phỏng vấn, tôi không thể không cảm thấy mình ngày càng ít biết về một nhà khoa học dữ liệu.
Tôi là một nhà thống kê, nhưng tôi có phải là nhà khoa học dữ liệu không? Tôi làm việc về các vấn đề khoa học vì vậy tôi phải là một nhà khoa học! Và tôi cũng làm việc với dữ liệu, vì vậy tôi phải là một nhà khoa học dữ liệu! Và theo Wikipedia, hầu hết các học giả sẽ đồng ý với tôi ( https://en.wikipedia.org/wiki/Data_science , v.v.)
Mặc dù việc sử dụng thuật ngữ "khoa học dữ liệu" đã bùng nổ trong môi trường kinh doanh, nhiều học giả và nhà báo không thấy sự khác biệt giữa khoa học dữ liệu và thống kê.
Nhưng nếu tôi đang thực hiện tất cả các cuộc phỏng vấn việc làm cho một vị trí nhà khoa học dữ liệu, tại sao có cảm giác như họ không bao giờ hỏi tôi câu hỏi thống kê?
Ngay sau cuộc phỏng vấn cuối cùng của tôi, tôi đã muốn bất kỳ nhà khoa học giỏi nào sẽ làm và tôi đã tìm kiếm dữ liệu để giải quyết vấn đề này (hey, tôi là một nhà khoa học dữ liệu). Tuy nhiên, sau vô số lần tìm kiếm Google sau đó, tôi đã kết thúc ngay khi tôi bắt đầu cảm thấy như thể một lần nữa tôi vật lộn với định nghĩa về một nhà khoa học dữ liệu là gì. Tôi không biết chính xác một nhà khoa học dữ liệu là gì vì có rất nhiều định nghĩa về nó, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) nhưng dường như mọi người đều nói với tôi rằng tôi muốn trở thành một:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- vv .... danh sách đi về.
Cuối cùng, điều tôi nhận ra là "nhà khoa học dữ liệu là gì" là một câu hỏi rất khó trả lời. Heck, có hai tháng ở Amstat, nơi họ dành thời gian để cố gắng trả lời câu hỏi này:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistic-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Bây giờ, tôi phải là một nhà thống kê gợi cảm để trở thành một nhà khoa học dữ liệu nhưng hy vọng cộng đồng xác thực chéo có thể làm sáng tỏ và giúp tôi hiểu ý nghĩa của việc trở thành một nhà khoa học dữ liệu. Không phải tất cả các nhà khoa học dữ liệu thống kê?
(Chỉnh sửa / Cập nhật)
Tôi nghĩ rằng điều này có thể làm gia vị cuộc trò chuyện. Tôi vừa nhận được email từ Hiệp hội Thống kê Hoa Kỳ về một công việc đặt ra với Microsoft đang tìm kiếm Nhà khoa học dữ liệu. Đây là liên kết: Vị trí nhà khoa học dữ liệu . Tôi nghĩ điều này thật thú vị bởi vì vai trò của vị trí đánh vào rất nhiều đặc điểm cụ thể mà chúng ta đã nói đến, nhưng tôi nghĩ rằng rất nhiều trong số chúng đòi hỏi một nền tảng thống kê rất khắt khe, cũng như mâu thuẫn với nhiều câu trả lời được đăng dưới đây. Trong trường hợp liên kết bị chết, đây là những phẩm chất mà Microsoft tìm kiếm ở một nhà khoa học dữ liệu:
Yêu cầu và kỹ năng công việc cốt lõi:
Trải nghiệm tên miền doanh nghiệp bằng cách sử dụng Analytics
- Phải có kinh nghiệm trên một số lĩnh vực kinh doanh có liên quan trong việc sử dụng các kỹ năng tư duy phê phán để khái niệm hóa các vấn đề kinh doanh phức tạp và giải pháp của họ bằng cách sử dụng các phân tích nâng cao trong các bộ dữ liệu kinh doanh trong thế giới thực quy mô lớn
- Ứng viên phải có khả năng độc lập điều hành các dự án phân tích và giúp khách hàng nội bộ của chúng tôi hiểu những phát hiện và biến chúng thành hành động để mang lại lợi ích cho doanh nghiệp của họ.
Mô hình dự đoán
- Kinh nghiệm trên các ngành công nghiệp trong mô hình dự đoán
- Định nghĩa vấn đề kinh doanh và mô hình hóa khái niệm với khách hàng để gợi ra các mối quan hệ quan trọng và để xác định phạm vi hệ thống
Thống kê / Kinh tế lượng
- Phân tích dữ liệu thăm dò cho dữ liệu liên tục và phân loại
- Đặc điểm kỹ thuật và ước tính các phương trình mô hình cấu trúc cho hành vi của doanh nghiệp và người tiêu dùng, chi phí sản xuất, nhu cầu nhân tố, lựa chọn rời rạc và các mối quan hệ công nghệ khác khi cần thiết
- Kỹ thuật thống kê nâng cao để phân tích dữ liệu liên tục và phân loại
- Phân tích chuỗi thời gian và thực hiện các mô hình dự báo
- Kiến thức và kinh nghiệm làm việc với nhiều vấn đề về biến
- Khả năng đánh giá tính chính xác của mô hình và tiến hành các xét nghiệm chẩn đoán
- Khả năng giải thích thống kê hoặc mô hình kinh tế
- Kiến thức và kinh nghiệm trong việc xây dựng mô phỏng sự kiện rời rạc và mô hình mô phỏng động
Quản lý dữ liệu
- Làm quen với việc sử dụng T-SQL và phân tích để chuyển đổi dữ liệu và áp dụng các kỹ thuật phân tích dữ liệu khám phá cho các tập dữ liệu trong thế giới thực rất lớn
- Chú ý đến tính toàn vẹn dữ liệu bao gồm dự phòng dữ liệu, độ chính xác của dữ liệu, giá trị bất thường hoặc cực trị, tương tác dữ liệu và giá trị bị thiếu.
Kỹ năng giao tiếp và hợp tác
- Làm việc độc lập và có thể làm việc với một nhóm dự án ảo sẽ nghiên cứu các giải pháp sáng tạo để giải quyết các vấn đề kinh doanh
- Phối hợp với các đối tác, áp dụng các kỹ năng tư duy phê phán và thúc đẩy các dự án phân tích từ đầu đến cuối
- Kỹ năng giao tiếp vượt trội, cả bằng lời nói và bằng văn bản
- Trực quan hóa các kết quả phân tích ở dạng có thể sử dụng được bởi một nhóm các bên liên quan khác nhau
Gói phần mềm
- Gói phần mềm thống kê / kinh tế học nâng cao: Python, R, JMP, SAS, Eview, Công cụ khai thác doanh nghiệp SAS
- Khám phá dữ liệu, trực quan hóa và quản lý: T-SQL, Excel, PowerBI và các công cụ tương đương
Trình độ chuyên môn:
- Yêu cầu tối thiểu 5 năm kinh nghiệm liên quan
- Bằng sau đại học trong lĩnh vực định lượng là mong muốn.