Nhà khoa học dữ liệu vs kỹ sư máy học


66

Sự khác biệt, nếu có, giữa "nhà khoa học dữ liệu" và "kỹ sư máy học" là gì?

Hơn một năm qua, "kỹ sư máy học" đã bắt đầu xuất hiện rất nhiều trong các bài đăng công việc. Điều này đặc biệt đáng chú ý ở San Francisco, nơi được cho là bắt nguồn từ thuật ngữ "nhà khoa học dữ liệu". Tại một thời điểm, "nhà khoa học dữ liệu" đã vượt qua "nhà thống kê", và tôi tự hỏi liệu điều tương tự bây giờ có bắt đầu xảy ra với "nhà khoa học dữ liệu" không.

Tư vấn nghề nghiệp được liệt kê là ngoài chủ đề trên trang web này, nhưng tôi xem câu hỏi của tôi rất phù hợp vì tôi đang hỏi về định nghĩa; Tôi không hỏi về các đề xuất theo quỹ đạo nghề nghiệp của riêng tôi hoặc hoàn cảnh cá nhân như các câu hỏi ngoài chủ đề khác.

Câu hỏi này là về chủ đề bởi vì một ngày nào đó nó có thể có ý nghĩa quan trọng đối với nhiều người dùng của trang web này. Trên thực tế, trang web trao đổi ngăn xếp này có thể không tồn tại nếu quá trình tiến hóa "thống kê" so với "nhà khoa học dữ liệu" không xảy ra. Theo nghĩa đó, đây là một câu hỏi khá phù hợp, có khả năng tồn tại.


2
Data scientistNghe có vẻ như một sự chỉ định với một chút rõ ràng về công việc thực tế sẽ là gì, trong khi machine learning engineercụ thể hơn. Trong trường hợp đầu tiên, công ty của bạn sẽ cung cấp cho bạn một mục tiêu và bạn cần tìm ra cách tiếp cận nào (học máy, xử lý hình ảnh, mạng thần kinh, logic mờ, v.v.) bạn sẽ sử dụng. Trong trường hợp thứ hai, công ty của bạn đã thu hẹp vào cách tiếp cận nào sẽ được sử dụng.
gurvinder372

Liên quan: khoa học dữ liệu vs nghiên cứu hoạt động . Ngoài ra, một nhà khoa học là một cái gì đó khác với một kỹ sư . Thật không may, ngành công nghiệp dường như không quan tâm đến điều này.
Thằn lằn rời rạc

1
Như một người khác đã chỉ ra, một kỹ sư ML chỉ đơn giản là người đưa các mô hình ML vào sản xuất. Anh ta không mong đợi hiểu sâu về các mô hình dự đoán thực tế và toán học cơ bản của họ, tuy nhiên họ bắt buộc phải thành thạo các công cụ phần mềm giúp các mô hình này có thể sử dụng được. Một nhà khoa học dữ liệu dự kiến ​​sẽ có hiểu biết sâu sắc về thống kê / toán học và ML / AI, và thường là người tạo ra các công cụ được sử dụng bởi các kỹ sư ML. Vì vậy, một kỹ sư ML về cơ bản gần với một kỹ sư phần mềm chuyên dụng và DS gần với một nhà thống kê tính toán hơn.
Digio

Câu trả lời:


55

Câu hỏi hay. Trên thực tế có rất nhiều nhầm lẫn về chủ đề này, chủ yếu là vì cả hai đều là công việc khá mới. Nhưng nếu chúng ta tập trung vào ngữ nghĩa, ý nghĩa thực sự của các công việc trở nên rõ ràng.

Trước đó là tốt hơn để so sánh táo với táo, nói về một chủ đề duy nhất, Dữ liệu. Machine Learning và thể loại phụ của nó (Deep Learning, v.v.) chỉ là một khía cạnh của Thế giới dữ liệu, cùng với các lý thuyết thống kê, thu thập dữ liệu (DAQ), xử lý (có thể là học máy không điều khiển), giải thích kết quả, vv

Vì vậy, để giải thích cho tôi, tôi sẽ mở rộng vai trò của Kỹ sư học máy sang vai trò của Kỹ sư dữ liệu.

Khoa học là về thử nghiệm, thử nghiệm và thất bại, xây dựng lý thuyết, hiểu biết hiện tượng học. Kỹ thuật là về công việc dựa trên những gì khoa học đã biết, hoàn thiện nó và mang đến "thế giới thực".

Hãy nghĩ về một proxy: sự khác biệt giữa một nhà khoa học hạt nhân và một kỹ sư hạt nhân là gì?

Nhà khoa học hạt nhân là người biết về khoa học đằng sau nguyên tử, sự tương tác giữa chúng, là người đã viết công thức cho phép lấy năng lượng từ các nguyên tử.

Kỹ sư hạt nhân là anh chàng được giao nhiệm vụ đưa công thức của nhà khoa học, và mang nó đến thế giới thực. Vì vậy, kiến ​​thức về vật lý nguyên tử còn khá hạn chế, nhưng anh ta cũng biết về vật liệu, tòa nhà, kinh tế và bất cứ điều gì hữu ích khác để xây dựng một nhà máy hạt nhân thích hợp.

Quay trở lại thế giới dữ liệu, đây là một ví dụ khác: những người phát triển Mạng thần kinh chuyển đổi (Yann LeCun) là Nhà khoa học dữ liệu, người triển khai mô hình để nhận diện khuôn mặt trong ảnh là Kỹ sư máy học. Anh chàng chịu trách nhiệm cho toàn bộ quá trình, từ việc thu thập dữ liệu đến đăng ký hình ảnh .JPG, là một Kỹ sư dữ liệu.

Vì vậy, về cơ bản, 90% Nhà khoa học dữ liệu ngày nay thực sự là Kỹ sư dữ liệu hoặc Kỹ sư máy học và 90% vị trí được mở khi Nhà khoa học dữ liệu thực sự cần Kỹ sư. Kiểm tra dễ dàng: trong cuộc phỏng vấn, bạn sẽ được hỏi về số lượng mô hình ML bạn đã triển khai trong sản xuất, chứ không phải về bao nhiêu bài viết về các phương pháp mới mà bạn đã xuất bản.

Thay vào đó, khi bạn thấy thông báo về "Kỹ sư máy học", điều đó có nghĩa là các nhà tuyển dụng nhận thức rõ về sự khác biệt và họ thực sự cần ai đó có thể đưa một số mô hình vào sản xuất.


Tôi chưa bao giờ nghĩ về các nhà khoa học hạt nhân so với kỹ sư Tôi nghĩ rằng đây là một câu trả lời thấu đáo. Nó phù hợp với kinh nghiệm của tôi, khi tôi đang phân tích, nó giống như chiếc áo khoác phòng thí nghiệm màu trắng đó (jupyter và đồ thị đẹp). Khi tôi "làm bẩn tay" với công việc sản xuất kỹ thuật (etl & webapp container), tôi liên tục tìm thấy các trường hợp cạnh kỳ lạ, lỗi và mùi mã xấu.
Tony

Không phải Yann LeCun là một nhà khoa học máy tính sao? Và một Nhà khoa học dữ liệu sẽ là người sử dụng các thuật toán và kỹ thuật máy tính được tạo sẵn (được phát minh bởi các nhà khoa học máy tính như Yann LeCun) để thực hiện phân tích khoa học dữ liệu? Giống như cách mà các nhà khoa học khác tận dụng máy tính trong công việc của họ? Vì vậy, có được dữ liệu, làm sạch nó, kết hợp các kỹ thuật phân tích khác nhau (vẽ đồ thị, khớp mẫu, mô hình ML, v.v.) để tìm hiểu những sự thật ẩn giấu trong dữ liệu?
Didier A.

YLC, là một nhà khoa học máy tính thực sự, nhưng anh ấy chuyên về Dữ liệu. CS đã trở thành một lĩnh vực quá rộng, từ đó tất cả những định nghĩa mới (như DS) được đưa ra. Và vì vậy sử dụng CS trở nên không thực sự phân biệt đối xử. Giống như "Nhà vật lý" tên gọi vài trăm năm trước: ngày nay, từ đó thực sự không định nghĩa công việc của ai đó, trừ khi bạn chỉ định nó tốt hơn (ví dụ: Hạt P., Solid State P., v.v.). Nhưng dù sao đi nữa, một Nhà khoa học (CS, DS, bất kỳ -S) không phải là người tự giới hạn sử dụng những khám phá của người khác. Thay vào đó, công việc của anh là hiểu và bằng cách này, hãy thực hiện những khám phá.
Vincenzo Lavorini

Bạn có thể vui lòng trả lời câu hỏi này liên quan đến Data Engineerhướng dẫn nghề nghiệp.
stom

Khoa học về "sự hiểu biết hiện tượng học" như thế nào?
ubadub

10

Các điều khoản này là mơ hồ bởi vì chúng là mới

Ở giữa một cuộc tìm kiếm việc làm trong lĩnh vực 'khoa học dữ liệu', tôi nghĩ rằng có hai điều đang diễn ra ở đây. Đầu tiên, các công việc là mới và không có định nghĩa nào về các thuật ngữ khác nhau, do đó, không có sự thống nhất nào phù hợp với các điều khoản với mô tả công việc. So sánh điều này với 'nhà phát triển web' hoặc 'nhà phát triển phụ trợ'. Đây là hai công việc tương tự đã được thỏa thuận hợp lý và mô tả riêng biệt.

Thứ hai, rất nhiều người làm công việc đăng bài và phỏng vấn ban đầu không biết rõ họ đang tuyển dụng cái gì. Điều này đặc biệt đúng trong trường hợp các công ty vừa và nhỏ thuê các nhà tuyển dụng để tìm ứng viên cho họ. Chính những trung gian này đang đăng các mô tả công việc trên CareerBuilder hoặc bất kỳ diễn đàn nào. Điều này không có nghĩa là nhiều người trong số họ không biết công cụ của họ, nhiều người trong số họ khá am hiểu về các công ty mà họ đại diện và các yêu cầu của nơi làm việc. Nhưng, không có các thuật ngữ được xác định rõ để mô tả các công việc cụ thể khác nhau, các chức danh công việc mơ hồ thường là kết quả.

Có ba bộ phận chung của lĩnh vực

Theo kinh nghiệm của tôi, có ba bộ phận chung của 'không gian công việc' của khoa học dữ liệu.

Đầu tiên là sự phát triển của các kỹ thuật toán học và tính toán làm cho khoa học dữ liệu trở nên khả thi. Điều này bao gồm những thứ như nghiên cứu thống kê về các phương pháp học máy mới, việc thực hiện các phương pháp này và xây dựng cơ sở hạ tầng tính toán để sử dụng các phương pháp này trong thế giới thực. Đây là bộ phận xa nhất tách biệt với khách hàng, và bộ phận nhỏ nhất. Phần lớn công việc này được thực hiện bởi các học giả hoặc nhà nghiên cứu tại các công ty lớn (Google, Facebook, v.v.). Điều này dành cho những việc như phát triển TensorFlow của Google, mạng lưới thần kinh SPSS của IBM hoặc bất kỳ cơ sở dữ liệu đồ thị lớn tiếp theo nào sẽ diễn ra.

Bộ phận thứ hai đang sử dụng các công cụ cơ bản để tạo các gói cụ thể cho ứng dụng để thực hiện bất kỳ phân tích dữ liệu nào cần được thực hiện. Mọi người được thuê để sử dụng Python hoặc R hoặc bất cứ điều gì để xây dựng khả năng phân tích trên một số bộ dữ liệu. Theo kinh nghiệm của tôi, rất nhiều công việc này liên quan đến việc 'giặt dữ liệu', biến dữ liệu thô dưới mọi hình thức thành thứ gì đó có thể sử dụng được. Một phần lớn của công việc này là cơ sở dữ liệu; tìm ra cách lưu trữ dữ liệu theo cách có thể truy cập được trong bất kỳ dòng thời gian nào bạn cần. Công việc này không phải là sử dụng nhiều công cụ, mà sử dụng cơ sở dữ liệu, thống kê và thư viện phân tích đồ họa hiện có để tạo ra một số kết quả.

Bộ phận thứ ba đang sản xuất phân tích từ dữ liệu mới được tổ chức và có thể truy cập. Đây là mặt khách hàng nhất, tùy thuộc vào tổ chức của bạn. Bạn phải đưa ra phân tích mà các nhà lãnh đạo doanh nghiệp có thể sử dụng để đưa ra quyết định. Đây sẽ là kỹ thuật ít nhất trong ba bộ phận; nhiều công việc là con lai giữa các bộ phận thứ hai và thứ ba tại thời điểm này, vì khoa học dữ liệu đang ở giai đoạn sơ khai. Nhưng trong tương lai, tôi nghi ngờ rằng sẽ có một sự phân chia rõ ràng hơn giữa hai công việc này, với những người giành được công việc thứ hai cần một nền giáo dục kỹ thuật, khoa học máy tính hoặc thống kê, và công việc thứ ba này chỉ cần giáo dục chung.

Nói chung, cả ba người có thể tự mô tả họ là 'nhà khoa học dữ liệu', nhưng chỉ hai người đầu tiên có thể tự mô tả một cách hợp lý họ là 'kỹ sư máy học'.

Phần kết luận

Hiện tại, bạn sẽ phải tự tìm hiểu xem mỗi công việc đòi hỏi gì. Công việc hiện tại của tôi đã thuê tôi làm 'nhà phân tích' để làm một số công cụ học máy. Nhưng khi chúng tôi bắt đầu làm việc, rõ ràng là cơ sở dữ liệu của công ty là không đủ, và bây giờ có lẽ 90% thời gian của tôi dành cho việc làm việc trên cơ sở dữ liệu. Tiếp xúc với máy học của tôi bây giờ chỉ là nhanh chóng chạy mọi thứ thông qua bất kỳ gói scikit-learn nào có vẻ phù hợp nhất và chụp các tệp csv cho các nhà phân tích phân chia thứ ba để trình bày powerpoint cho khách hàng.

Các lĩnh vực là trong thông lượng. Rất nhiều tổ chức đang cố gắng thêm quyết định khoa học dữ liệu vào quy trình của họ, nhưng không biết rõ điều đó có nghĩa là gì. Đó không phải là lỗi của họ, khá khó để dự đoán tương lai và sự phân nhánh của một công nghệ mới không bao giờ rõ ràng. Cho đến khi lĩnh vực này được thiết lập nhiều hơn, nhiều công việc sẽ trở nên mơ hồ như các thuật ngữ được sử dụng để mô tả chúng.


9

[Hoàn toàn là ý kiến ​​cá nhân]

Khi thuật ngữ 'Nhà khoa học dữ liệu' vượt qua 'Nhà thống kê', nó thiên về âm thanh hay hơn là bất kỳ sự khác biệt lớn nào. Tương tự, thuật ngữ 'Học sâu'. Nó chỉ là các mạng thần kinh (là một thuật toán Machine Learning khác) với một vài lớp nữa. Không ai có thể giải thích khi một mạng lưới thần kinh cụ thể có thể được gọi là DL, chứ không phải ML, khiến cho định nghĩa bị mờ. Vì vậy, là thuật ngữ 'Nhà khoa học dữ liệu'.

Tuy nhiên, khi các công ty đang áp dụng tư duy DevOps cho khoa học dữ liệu, thuật ngữ ML Engineering đã phát triển.

Tư duy DevOps đối với khoa học dữ liệu là gì?

Đây là nơi bạn xây dựng mô hình, triển khai nó và cũng dự kiến ​​sẽ duy trì nó trong sản xuất. Điều này giúp tránh được nhiều ma sát trong các nhóm phần mềm.

[PS: DevOps là một cách làm phần mềm, giống như một triết lý. Vì vậy, sử dụng nó như một chỉ định, một lần nữa làm tôi bối rối].

Vì vậy, các kỹ sư ML được cho là biết các sắc thái của kỹ thuật hệ thống, ML và thống kê (rõ ràng).

Một khái quát mơ hồ sẽ là Kỹ sư dữ liệu + Nhà khoa học dữ liệu = Kỹ sư ML.

Phải nói rằng, các chỉ định trong không gian này đang trở nên mơ hồ từng ngày và thuật ngữ 'Thống kê' ngày càng trở nên phù hợp hơn (thật trớ trêu!).


2
Machine Learning không chỉ đơn thuần là mạng lưới thần kinh (ví dụ như, hãy xem xét tất cả các loại phân loại dựa trên cây), vì vậy đừng xem "Deep Learning chỉ là Machine Learning với một vài lớp nữa".
S. Kolassa - Tái lập Monica

@StephanKolassa Vâng. Đồng ý. Không nên khái quát nó quá nhiều :) Cảm ơn bạn đã chỉ ra.
Dawny33

1
(+1) nhưng tôi không nghĩ "thống kê" trở nên phù hợp hơn là một sự trớ trêu, chỉ là ... một sự chuyển đổi dự kiến? Những "nhà nghiên cứu hoạt động" ngày nay ở đâu? ;)
usεr11852 nói Phục hồi Monic

7

Nó có thể khác nhau giữa các công ty, nhưng Nhà khoa học dữ liệu như là một chỉ định đã có từ lâu và thường có nghĩa là để trích xuất kiến ​​thức và hiểu biết sâu sắc từ dữ liệu .

Tôi đã thấy các nhà khoa học dữ liệu làm

  • Viết thuật toán xử lý hình ảnh và nhận dạng hình ảnh,
  • Thiết kế và triển khai cây quyết định cho trường hợp sử dụng kinh doanh,
  • Hoặc đơn giản là thiết kế và thực hiện một số báo cáo hoặc viết ETL để chuyển đổi dữ liệu.

Khoa học dữ liệu , tuy nhiên, là một siêu lĩnh vực của máy học

Nó sử dụng các kỹ thuật và lý thuyết được rút ra từ nhiều lĩnh vực trong các lĩnh vực rộng lớn của toán học, thống kê, khoa học thông tin và khoa học máy tính, đặc biệt từ các tên miền phụ của học máy, phân loại, phân tích cụm, định lượng không chắc chắn, khoa học tính toán, khai thác dữ liệu, cơ sở dữ liệu, và trực quan hóa .

Kỹ sư máy học dường như là một chỉ định nơi chủ nhân của bạn đã thu hẹp xuống

  • Tiếp cận,
  • Công cụ,
  • và một mô hình thô (về những gì sẽ cung cấp)

để trích xuất kiến ​​thức hoặc hiểu biết sâu sắc từ dữ liệu bằng cách sử dụng máy học và công việc của bạn sẽ là thiết kế và thực hiện các thuật toán học máy để cung cấp giống nhau .


5

Kỹ sư máy học và các nhà khoa học dữ liệu tập trung giống nhau, nhưng không phải tất cả các nhà khoa học dữ liệu đều tập trung vào kỹ thuật. Khoảng 5 năm trước, hầu hết các nhà khoa học dữ liệu đều tập trung vào kỹ thuật, ví dụ, họ phải viết mã sản xuất. Tuy nhiên, hiện nay, có nhiều vai trò của Nhà khoa học dữ liệu phần lớn: chơi trong sổ ghi chép Jupyter, hiểu dữ liệu, tạo biểu đồ đẹp, giải thích cho khách hàng, người quản lý, nhà phân tích ... Họ không làm bất kỳ kỹ thuật nào. Và tôi tin rằng thuật ngữ Machine Learning Engineers đã đưa ra để nhấn mạnh rằng đây là một vị trí kỹ thuật.


2

TL; DR: Nó phụ thuộc vào người đang hỏi.

Câu trả lời cho câu hỏi này phụ thuộc phần lớn vào sự mong đợi, kiến ​​thức và kinh nghiệm của bất cứ ai đang hỏi. Một câu hỏi tương tự với câu trả lời mờ nhạt là:

Sự khác biệt giữa nhà phát triển phần mềm, kỹ sư phần mềm và nhà khoa học máy tính là gì?

Đối với một số người, đặc biệt là những người nghiên cứu hoặc giảng dạy khoa học máy tính và kỹ thuật phần mềm, có một sự khác biệt lớn và được xác định giữa các lĩnh vực này. Nhưng đối với nhân viên nhân sự trung bình, nhà tuyển dụng kỹ thuật hoặc quản lý, tất cả chỉ là "Dân máy tính".

Tôi thích câu nói này của Vincent Granville , nhấn mạnh của tôi:

Trước đây trong sự nghiệp của tôi (khoảng năm 1990) tôi đã làm việc về công nghệ viễn thám hình ảnh, trong số những thứ khác để xác định các mẫu (hoặc hình dạng hoặc tính năng, ví dụ như hồ) trong ảnh vệ tinh và để thực hiện phân đoạn hình ảnh: tại thời điểm đó, nghiên cứu của tôi được gắn nhãn là tính toán thống kê, nhưng những người làm điều tương tự chính xác trong khoa khoa học máy tính bên cạnh trường đại học nhà tôi, được gọi là nghiên cứu trí tuệ nhân tạo của họ. Ngày nay, nó sẽ được gọi là khoa học dữ liệu hoặc trí tuệ nhân tạo, các miền con là xử lý tín hiệu, thị giác máy tính hoặc IoT.


1

Machine Learning cụ thể hơn và trong lĩnh vực bạn sẽ cần nắm vững những điều sau:

  • Tính năng so với Nhãn
  • Kiểm tra dữ liệu so với dữ liệu đào tạo
  • Chuẩn hóa tính năng
  • Cấu trúc dữ liệu phổ biến (mảng của mảng)
  • Lựa chọn tính năng

0

Tôi không đồng ý với bất kỳ câu trả lời nào. Tuy nhiên, tôi nghĩ rằng có một vai trò của Nhà khoa học dữ liệu đang được làm sáng tỏ trong hầu hết tất cả các câu trả lời ở đây. Hầu hết các câu trả lời này nói lên điều gì đó về tác dụng của "Chà, một kỹ sư chỉ viết và triển khai mô hình ..". Đợi một chút - có RẤT NHIỀU công việc trong hai bước đó!

Định nghĩa cốt lõi của tôi về Nhà khoa học dữ liệu là người áp dụng phương pháp khoa học để làm việc với dữ liệu. Vì vậy, tôi liên tục nghĩ về các giả thuyết, thiết kế các bài kiểm tra, thu thập dữ liệu của mình và thực hiện các bài kiểm tra đó, kiểm tra kết quả xác thực chéo của tôi, thử các cách tiếp cận mới, chuyển đổi dữ liệu của tôi, v.v. "Trong một môi trường chuyên nghiệp.

Vì vậy, đối với câu trả lời của bạn, tôi nghĩ rằng "ma quỷ nằm trong chi tiết" bởi vì bạn không thể chỉ đề cập đến một số bước / điều khoản này. Ngoài ra, nếu bạn đang tìm việc, bạn nên cẩn thận vì "kỹ sư dữ liệu" và "nhà khoa học dữ liệu" có thể có các thang lương khác nhau - bạn không muốn trở thành nhà khoa học dữ liệu với mức lương của kỹ sư dữ liệu!

Tôi luôn đặt mình ra ngoài với tư cách là một nhà khoa học dữ liệu, tôi nói với các công ty rằng tôi làm việc trên các mô hình dự đoán (không chỉ phân tích) và tôi không phải là một tay đua Excel - tôi viết bằng ngôn ngữ lập trình (R, Python, v.v.). Nếu bạn có thể tìm thấy một vị trí cho phép bạn làm cả hai vị trí đó, thì bạn đang trên đường trở thành một nhà khoa học dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.