Lời khuyên cho một nhà khoa học dữ liệu mới


8

Tôi sắp bắt đầu một công việc mà tôi sẽ làm việc với các bộ dữ liệu lớn và dự kiến ​​sẽ tìm thấy xu hướng, v.v ... Tôi đã tìm thấy rất nhiều tài nguyên về nơi học ML và các kỹ năng cứng khác và cảm thấy rằng tôi (bán ) có thẩm quyền về kết thúc này.

Tôi muốn biết liệu có những kỹ năng mềm cụ thể nào hữu ích như một nhà khoa học dữ liệu hay không. Những điều bạn muốn bạn biết bắt đầu là gì?

Trong khi Kaggle rất hữu ích khi học, nó cũng trình bày các mục tiêu rõ ràng. Làm thế nào để bạn xử lý được cung cấp một bộ dữ liệu, nhưng không có mục tiêu rõ ràng?

Hãy cho tôi biết nếu điều này quá rộng, tôi có thể nghĩ ra những câu hỏi cụ thể hơn.


3
mẹo số 1: không bao giờ nuôi thú cưng đang cháy
Brandon Loudermilk

1
Nếu bạn không phiền, xin vui lòng chia sẻ ngành mà bạn tham gia. Toán học và các khái niệm vẫn giống nhau, tuy nhiên cấu trúc của dữ liệu khác nhau và cách người ta có thể tiếp cận nó. Các lời khuyên dưới đây rất thích hợp và nếu được thực hành sẽ là một trợ giúp lớn. Tôi hy vọng bằng cách biết ngành công nghiệp tôi có thể chia sẻ một cái gì đó mà bạn có thể liên quan trực tiếp.
Drj

Tôi hy vọng bất cứ ai đã phỏng vấn bạn cho công việc này hiện đang đọc nó và nghĩ rằng "tại sao chúng ta không hỏi những câu hỏi đó khi phỏng vấn?".
Spainedman

Drj, tôi sẽ làm việc một phần với dữ liệu từ quy trình sản xuất và một phần với dữ liệu phản hồi của khách hàng. Có vẻ như một phổ rộng. Tôi đến từ học viện nơi dữ liệu được tạo ra bởi các thí nghiệm của riêng tôi và tôi đã có mục tiêu rất rõ ràng.
Hobbes

Câu trả lời:


7

Tôi nghĩ rằng có rất nhiều kỹ năng mềm quan trọng cần xem xét trong lĩnh vực Khoa học dữ liệu.

Dưới đây là một số trong số họ:

  1. Biết thực tế mục tiêu là gì, dành nhiều thời gian cho việc sắp xếp dữ liệu, mô hình, trực quan hóa và báo cáo khi không phải là tất cả cho mục tiêu cụ thể trong tâm trí là một sự lãng phí. Giao tiếp với những người ít kỹ thuật hơn là một kỹ năng.
  2. Lặp đi lặp lại nhiều lần với chủ sở hữu sản phẩm. Hãy chắc chắn rằng bạn đang đi đúng hướng.
  3. Nếu dữ liệu không kể câu chuyện mà họ nghĩ / muốn nói với họ thì đó không phải là vấn đề, hãy hiểu rõ lý do tại sao điều này xảy ra, những thành kiến ​​nào có thể đóng vai trò vân vân. Không áp dụng tất cả các loại bộ lọc hoặc tiếp tục thay đổi thông số để có kết quả mong muốn.

Về câu hỏi thứ hai của bạn:

Mục tiêu phải được nhận từ chủ sở hữu sản phẩm một cách rõ ràng hoặc xuất phát từ một mục tiêu toán học ít hơn. Một ví dụ có thể là nơi bạn cần dự đoán tàu đến dựa trên một số tính năng. Họ muốn mô hình dự đoán nhiều lần nhất có thể trong phạm vi lỗi 10 phút. Điều này là tương đối rõ ràng.

Đôi khi nó không rõ ràng hơn thế, họ có thể nói chúng ta cần nó chính xác nhất có thể. Sau đó, bạn sẽ phải quyết định những gì cần tối ưu hóa, trong một số trường hợp, điều này sẽ chỉ giảm thiểu MSE nhưng trong những trường hợp khác, những điều khác có thể có ý nghĩa hơn đối với trường hợp của bạn. Thông thường, điều này sẽ rõ ràng từ mục tiêu ngầm và một cái gì đó mà bạn sẽ trở nên tốt hơn với nhiều kinh nghiệm hơn. Cả hai mục tiêu ngầm và rõ ràng đều xuất phát từ giao tiếp rõ ràng với chủ sở hữu sản phẩm.


Cảm ơn về nhận xét, tôi nghĩ rằng lời khuyên của bạn về việc giao tiếp với những người ít kỹ thuật là thực sự hữu ích và chắc chắn là thứ tôi cần để làm việc.
Hobbes

Tôi cũng đã thêm một số thông tin về mục tiêu này
Jan van der Vegt

Rất hữu ích, tôi sẽ giữ điều này trong tâm trí tiến về phía trước. (Đoán tôi không thể bỏ phiếu cho đến khi tôi có uy tín cao hơn)
Hobbes

5

"Làm thế nào để bạn xử lý được cung cấp một bộ dữ liệu, nhưng không có mục tiêu rõ ràng?"

Điều này sẽ phổ biến.

Ngoài những lời khuyên ở trên, hãy hiểu rằng điều cần thiết là phải hiểu các mục tiêu của doanh nghiệp bạn đang làm và của khách hàng trực tiếp của bạn. Thường thì bạn sẽ cần phải hiểu vấn đề cụ thể khiến họ chuyển sang dữ liệu tốt hơn họ. Rất phổ biến khi được trình bày dữ liệu và mục tiêu không rõ ràng từ khách hàng nội bộ hoặc bên ngoài của bạn - thường sẽ là nhiệm vụ của bạn để cung cấp mục tiêu có thể đạt được với dữ liệu và sẽ giải quyết vấn đề kinh doanh thực tế của khách hàng. Một lượng suy nghĩ bên sẽ được yêu cầu để làm cho kết quả dữ liệu và giải pháp kinh doanh phù hợp.

Tôi sẽ tóm tắt những điều trên là 'xác định mục tiêu là quá quan trọng (và có thể quá khó!) Để lại cho khách hàng (một mình)'.

Trong ngữ cảnh học máy, CRISP-DM là một phương pháp cố gắng giải quyết vấn đề này bằng cách lặp qua một vòng lặp để có thể sử dụng hiểu dữ liệu bổ sung trong cuộc thảo luận với khách hàng để hiểu rõ hơn vấn đề ban đầu. Vì vậy, ví dụ, họ có thể nêu ra một mục tiêu không xác định, một cuộc thảo luận thứ hai sau khi bạn thực hiện một số EDA sẽ làm sắc nét nó một chút. Sau này, khi bạn sản xuất một mô hình hoạt động tốt, nhưng không hoàn toàn đúng mục tiêu, bạn sẽ lại gần với mục tiêu kinh doanh thực sự.

Nói cách khác, đừng quá băn khoăn trước sự mờ nhạt của nhiệm vụ. Dự kiến ​​sẽ gặp một vắc-xin, và điền vào lợi thế của bạn.

Đó là một sự thay đổi nhỏ sang một bên, nhưng sáu phương pháp sigma cố gắng giải quyết vấn đề này trong một bối cảnh khác với hệ thống DMAIC ('D' là viết tắt của 'Xác định', theo nghĩa 'tiếng nói của khách hàng'), vì vậy nó là có thể có một số mẹo có thể được lượm lặt trong các tài nguyên cho sáu bối cảnh sigma (ví dụ: các bài tập bạn có thể làm với một khách hàng giúp họ thể hiện những gì bạn muốn rõ ràng hơn)


Cảm ơn, đó là phản hồi tuyệt vời. Tôi đặc biệt thích 'việc xác định mục tiêu là quá quan trọng (và có thể quá khó!) Để dành cho khách hàng (một mình)'. Tôi chắc chắn sẽ xem xét CRISP-DM.
Hobbes
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.