Một 'tên cũ' của nhà khoa học dữ liệu là gì?


12

Những thuật ngữ như 'khoa học dữ liệu' và 'nhà khoa học dữ liệu' ngày càng được sử dụng nhiều hơn trong những ngày này. Nhiều công ty đang tuyển dụng "nhà khoa học dữ liệu". Nhưng tôi không nghĩ đó là một công việc hoàn toàn mới. Dữ liệu đã tồn tại từ quá khứ và ai đó đã phải đối phó với dữ liệu. Tôi đoán thuật ngữ 'nhà khoa học dữ liệu' trở nên phổ biến hơn vì nghe có vẻ lạ mắt và 'gợi cảm' hơn Các nhà khoa học dữ liệu được gọi như thế nào trong quá khứ?


1
Tôi cũng muốn nói thêm Quant trong danh sách này!
Bernardo Aflalo

Ý tưởng đầu tiên xuất hiện trong đầu tôi là Data Analysthay Business Intelligence Analyst.
pdm

Câu trả lời:


13

Theo thứ tự thời gian đảo ngược: công cụ khai thác dữ liệu, nhà thống kê, nhà toán học (áp dụng).


11
Tôi cũng sẽ đề cập đến "nhà phân tích dữ liệu", đó là một thuật ngữ chung chung hơn và do đó, theo tôi, thuật ngữ tốt hơn "công cụ khai thác dữ liệu".
Alexanderr Blekh 1/03/2015

5

Các thuật ngữ bao gồm ít nhiều cùng một chủ đề mà Khoa học dữ liệu đề cập hôm nay:

  • Nhận dạng mẫu
  • Học máy
  • Khai thác dữ liệu
  • Phương pháp định lượng

4

Tôi nghĩ đó là công việc mới, về cơ bản, nhà khoa học dữ liệu phải áp dụng các thuật toán toán học trên dữ liệu với các ràng buộc đáng kể về các điều khoản 1) Thời gian chạy của ứng dụng 2) Sử dụng tài nguyên của ứng dụng. Nếu những hạn chế này không có mặt, tôi sẽ không gọi khoa học dữ liệu công việc. Hơn nữa, các thuật toán này thường cần phải được chạy trên các hệ thống phân tán, đó là một khía cạnh khác của vấn đề.

Tất nhiên, điều này đã được thực hiện trước đây, trong một số kết hợp của thống kê, toán học và lập trình, nhưng nó không được phổ biến rộng rãi để làm phát sinh thuật ngữ mới. Sự phát triển thực sự của khoa học dữ liệu là từ khả năng thu thập lượng lớn dữ liệu, do đó cần phải xử lý nó.


1
Hầu như mọi công việc đều có những hạn chế về thời gian và nguồn lực. Như bạn đã nói, điều này đã được thực hiện trước đây (ví dụ các nhà toán học làm việc trên ENIAC) Thực tế là khoa học dữ liệu phổ biến không có nghĩa đó là một công việc mới.
Robert Smith


2

Một số câu trả lời thực sự tốt đẹp rồi. Tuy nhiên, tôi sẽ phá vỡ toàn bộ quá trình phá vỡ công việc của một nhà khoa học dữ liệu thành người thực sự đã làm những việc đó:

  1. Lấy dữ liệu từ cơ sở dữ liệu và các nguồn khác: Nói chung, DBA từng lấy dữ liệu từ DB và những người thu thập dữ liệu từ các nguồn khác được gọi là kẻ dữ liệu , họ thực sự không có tên cụ thể (ít nhất là trong Ấn Độ). Và các kịch bản cào và thu thập dữ liệu được viết bởi các kỹ sư phần mềm được thuê đặc biệt cho mục đích đó.
  2. Phân tích và dự đoán: Được thực hiện bởi những người được gọi là nhà thống kê hoặc nhà toán học .
  3. Trực quan hóa và báo cáo: Được thực hiện bởi những người được gọi là nhà phân tích kinh doanh hoặc những người làm MBA trong công ty.
  4. Dữ liệu lớn và công cụ đường ống: Được thực hiện bởi các kỹ sư phần mềm được thuê đặc biệt cho mục đích cụ thể.

Nó có thể là một thứ phụ thuộc vào quốc gia, nhưng ở Bắc Mỹ, những người tạo ra cơ sở dữ liệu được gọi là "nhà phân tích kinh doanh". Trực quan hóa và báo cáo chắc chắn KHÔNG BAO GIỜ được thực hiện bởi MBA hoặc "nhà phân tích kinh doanh" trong cách bạn sử dụng thuật ngữ này.
rocinante

@rocinante Vâng, phải phụ thuộc vào quốc gia :)
Dawny33

1

Một nhà khoa học dữ liệu lý tưởng là 60-70% Statistician và 30-40% là nhà khoa học máy tính và vì vậy tên cũ của "Nhà khoa học dữ liệu" là một người là một nhà thống kê và một phần của khoa học máy tính.


1

Trong một số trường con, một số được gọi đơn giản là các nhà phân tích . Nếu bạn quay ngược thời gian sớm hơn, trong thời kỳ tiền khoa học, tôi có xu hướng tin rằng những người liên quan đến bói toán hoặc chiêm tinh học (một vài trong số họ vì họ được trả tiền cho điều đó, nhiều hơn cả cho khoa học nghiêm túc) là tiền thân.

k là do sự quan tâm của mình trong nhiều lĩnh vực ứng dụng, một trong những người đầu tiên spark ngọn lửa của khoa học dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.