Kỹ năng khó tìm thấy ở người học máy?


71

Dường như việc khai thác dữ liệu và học máy trở nên phổ biến đến mức hầu như mọi sinh viên CS đều biết về phân loại, phân cụm, NLP thống kê ... vv. Vì vậy, dường như việc tìm kiếm các công cụ khai thác dữ liệu ngày nay không phải là một điều khó khăn.

Câu hỏi của tôi là: Những kỹ năng mà một người khai thác dữ liệu có thể học được sẽ khiến anh ta khác biệt so với những người khác là gì? Để làm cho anh ta một loại người không dễ dàng để tìm thấy một người như anh ta.


6
Mặc dù đó là câu trả lời cho một câu hỏi khác, một số điểm trong câu trả lời cũ của tôi có thể được chuyển đến đây. Assad đưa ra một số nhận xét tương tự trong câu trả lời rất hay của mình dưới đây.
Đức hồng y

Câu trả lời:


62

Tôi đã thấy nhiều lần các nhà phát triển sử dụng các kỹ thuật ML. Đây là mô hình thông thường:

  1. tải thư viện với tên lạ mắt;
  2. dành 10 phút để đọc cách sử dụng nó (bỏ qua mọi thống kê, toán học, v.v.);
  3. cung cấp nó với dữ liệu (không có tiền xử lý);
  4. đo lường hiệu suất (ví dụ độ chính xác ngay cả khi các lớp hoàn toàn mất cân bằng) và cho mọi người biết nó tuyệt vời như thế nào với độ chính xác 99% của nó;
  5. triển khai trong sản xuất với kết quả thất bại hoành tráng;
  6. tìm ai đó hiểu những gì đang xảy ra để giúp đỡ họ vì hướng dẫn sử dụng không có ý nghĩa gì cả.

Câu trả lời đơn giản là (hầu hết) các kỹ sư phần mềm rất yếu về chỉ số và toán học. Đây là lợi thế của bất cứ ai muốn cạnh tranh với họ. Tất nhiên mọi người thống kê ra khỏi vùng thoải mái của họ nếu họ cần viết mã sản xuất. Loại vai trò trở nên thực sự hiếm là của Nhà khoa học dữ liệu. Đó là người có thể viết mã để truy cập và chơi với lượng dữ liệu khổng lồ tìm thấy giá trị trong đó.


14
LOL tại "nói cho mọi người biết nó tuyệt vời như thế nào với độ chính xác 99%"
Jack Twain

2
+1 Tôi đồng ý với mọi thứ. "[...] Nhà khoa học dữ liệu. Đó là người có thể viết mã để truy cập và chơi với lượng dữ liệu khổng lồ và tìm thấy giá trị trong đó." Theo tôi, nó nên hiếm khi xảy ra, vì dường như không khả thi đối với hầu hết mọi người để giải quyết các vấn đề thống kê và cơ bản phức tạp cũng như biến một cái gì đó thành mã sản xuất. Nó cũng giải thích lý do tại sao chúng tôi có bác sĩ phẫu thuật tim mạch, bác sĩ gây mê, bác sĩ thần kinh, y tá, quản trị viên bệnh viện, vv Hoặc dân sự, hàng không, khai thác mỏ, hóa chất, kỹ sư cơ khí, vv
Thomas Speidel

2
Đối với tôi, đây không thực sự là một mô tả về những gì ai đó cần để trở thành một ứng cử viên ML nổi bật - hơn cả một bash ML. Âm thanh như bạn đang mô tả một người quá tập trung vào việc nhận "câu trả lời" trước khi họ thậm chí chắc chắn về câu hỏi là gì. Về cơ bản, người "ML điển hình" của bạn là người có kỹ năng lập kế hoạch kém và là người không thảo luận về những gì họ dự định làm với "khách hàng" trước khi tiếp tục và quay lại với "câu trả lời". Đây không phải là thứ được giúp đỡ bằng cách có toán học / chỉ số tốt - nó là thứ đòi hỏi kỹ năng giao tiếp tốt.
xác suất

61

Những gì nó về

Chỉ cần biết về các kỹ thuật cũng giống như biết các động vật trong sở thú - bạn có thể đặt tên cho chúng, mô tả các thuộc tính của chúng, có thể xác định chúng trong tự nhiên.

Hiểu khi nào nên sử dụng chúng, xây dựng, xây dựng, thử nghiệm và triển khai các mô hình toán học đang hoạt động trong một khu vực ứng dụng trong khi tránh những cạm bẫy --- theo tôi, đây là những kỹ năng phân biệt.

Cần nhấn mạnh vào khoa học , áp dụng cách tiếp cận có hệ thống, khoa học cho các vấn đề kinh doanh, công nghiệp và thương mại. Nhưng điều này đòi hỏi các kỹ năng rộng hơn khai thác dữ liệu & học máy, vì Robin Bloor lập luận thuyết phục trong "A Data Science Rant" .

Vậy người ta có thể làm gì?

Các lĩnh vực ứng dụng : tìm hiểu về các lĩnh vực ứng dụng khác nhau gần với sở thích của bạn hoặc của nhà tuyển dụng của bạn. Khu vực này thường ít quan trọng hơn việc hiểu cách thức mô hình được xây dựng và cách nó được sử dụng để tăng giá trị cho khu vực đó. Các mô hình thành công trong một lĩnh vực thường có thể được cấy ghép và áp dụng cho các khu vực khác nhau hoạt động theo những cách tương tự.

Các cuộc thi : hãy thử trang web cạnh tranh khai thác dữ liệu Kaggle , tốt nhất là tham gia vào nhóm của những người khác. (Kaggle: một nền tảng cho các cuộc thi mô hình dự đoán. Các công ty, chính phủ và nhà nghiên cứu trình bày các bộ dữ liệu và vấn đề và các nhà khoa học dữ liệu tốt nhất thế giới cạnh tranh để tạo ra các giải pháp tốt nhất.)

Nguyên tắc cơ bản : Có bốn: (1) nền tảng vững chắc trong thống kê, (2) kỹ năng lập trình khá tốt, (3) hiểu cách cấu trúc các truy vấn dữ liệu phức tạp, (4) xây dựng mô hình dữ liệu. Nếu bất kỳ ai yếu, thì đó là một nơi quan trọng để bắt đầu.


Một vài trích dẫn về mặt này:

"Tôi đã học được rất sớm sự khác biệt giữa việc biết tên của một cái gì đó và biết một cái gì đó. Bạn có thể biết tên của một con chim trong tất cả các ngôn ngữ trên thế giới, nhưng khi bạn hoàn thành, bạn sẽ hoàn toàn không biết gì về con chim ... Vì vậy, hãy nhìn vào con chim và xem nó đang làm gì - đó là có giá trị gì. '- Richard Feynman, "Việc tạo ra một nhà khoa học", trang 14 trong Bạn quan tâm đến những gì người khác nghĩ, 1988

Ghi nhớ:

`` Sự kết hợp các kỹ năng cần thiết để thực hiện các dự án khoa học kinh doanh [khoa học dữ liệu] này hiếm khi cư trú ở một người. Ai đó thực sự có thể đạt được kiến ​​thức sâu rộng trong ba lĩnh vực (i) doanh nghiệp làm gì, (ii) cách sử dụng số liệu thống kê và (iii) cách quản lý luồng dữ liệu và dữ liệu. Nếu vậy, anh ta hoặc cô ta thực sự có thể tự xưng là một nhà khoa học kinh doanh (hay còn gọi là nhà khoa học dữ liệu của Hồi) trong một lĩnh vực nhất định. Nhưng những cá nhân như vậy hầu như hiếm như răng của gà mái. '- Robin Bloor, A Data Science Rant , tháng 8 năm 2013, Phân tích nội bộ

Và cuối cùng:

"Bản đồ không phải là lãnh thổ. '' - Alfred Korzybski, 1933, Khoa học & Sanity.

Hầu hết các vấn đề thực tế, được áp dụng không thể truy cập được chỉ từ '`bản đồ' '. Để làm những việc thực tế với mô hình toán học, người ta phải sẵn sàng nhận được nhiều chi tiết, sự tinh tế và ngoại lệ. Không có gì có thể thay thế để biết tận mắt lãnh thổ.



6
+1. Các giải pháp vượt trội hiếm khi hoạt động cho một vấn đề kinh doanh cụ thể của tổ chức của bạn. Bạn cần điều chỉnh và cải thiện, và vì điều đó bạn cần phải hiểu những gì dưới mui xe.
Zhubarb

4
@Zhubarb - Tôi nghĩ điều này chỉ đúng một phần. Các giải pháp "ngoài luồng" có thể được sử dụng rất hiệu quả, không phải lúc nào cũng được và thường không phải để hoàn thành một nhiệm vụ từ đầu đến cuối. Bí quyết là biết khi nào bạn có thể thoát khỏi việc sử dụng "giải pháp vượt trội" và khi nào cần một cách tiếp cận phù hợp hơn.
xác suất

41

Tôi đồng ý với tất cả những gì đã nói. Những gì nổi bật đối với tôi là:

  1. Có bao nhiêu "chuyên gia" học máy thực sự quan tâm đến vấn đề mà họ muốn áp dụng ML
  2. Làm thế nào ít người thực sự hiểu chính xác dự đoán và quy tắc chấm điểm thích hợp
  3. Làm thế nào ít người hiểu nguyên tắc xác nhận
  4. Làm thế nào ít người biết khi nào nên sử dụng hộp đen so với mô hình hồi quy truyền thống
  5. Làm thế nào mà không có "chuyên gia" nào dường như đã từng nghiên cứu các quyết định tối ưu hoặc chức năng mất / tiện ích / chi phí của Bayes [sự thiếu hiểu biết này được hiển thị gần như bất cứ khi nào ai đó sử dụng phân loại thay vì rủi ro dự đoán]

3
Bạn có phiền xây dựng trên 4? Tôi hoàn toàn không hiểu ý của bạn

17
Tôi đã có thể nghĩ rằng món đồ đó là dễ hiểu nhất. Đây là một ví dụ: trong một lĩnh vực nghiên cứu cụ thể, giả sử rằng chúng ta đã có kinh nghiệm trước đây rằng hầu hết các biến hoạt động một cách phụ thuộc. Lắp một mô hình hồi quy phụ gia không giả định các yếu tố dự đoán hoạt động tuyến tính (ví dụ: sử dụng các phép hồi quy hồi quy) sẽ cung cấp một mô hình thống kê có thể hiểu và hữu ích. Mặt khác, sử dụng svm hoặc rừng ngẫu nhiên sẽ rất khó diễn giải, không có bất kỳ hiệu ứng tách rời nào và sẽ không dự đoán tốt hơn mô hình phụ gia phi tuyến.
Frank Harrell

7
Yea thực sự cho sự nông cạn của vấn đề. Ngay cả trong thế giới ML, tôi thường thấy xu hướng này muốn chuyển dữ liệu thô vào một hộp ma thuật và có cái nhìn sâu sắc tuyệt vời bật ra. Những gì những người này đang tìm kiếm là một bộ não nhân tạo.
DarenW

3
+1 cho mục 1 đặc biệt. Bằng chứng của việc thiếu quan tâm đến tên miền là việc áp dụng kiến ​​thức tên miền sẽ yêu cầu biết cách 'mở' hộp đen và sửa đổi. Theo hộp đen, ý tôi là đối với phần lớn ML cấp nhập cảnh, ngay cả các kỹ thuật mô hình thống kê cơ bản cũng nằm trong hộp đen đó. Nếu sở thích / khả năng không có thì việc áp dụng kiến ​​thức tên miền sẽ khó hơn nhiều.
Meadowlark Bradsher

7
@DarenW: Xu hướng cũng được phản ánh trong tên: "Học máy" với ý nghĩa là máy học ... tự nó ... chỉ cần xẻng dữ liệu thô. Tương phản với cái tên ít hào nhoáng hơn (nhưng IMO chính xác hơn) được lựa chọn bởi Hastie, Tibshirani, et.al.: "Học thống kê". Ý nghĩa khác nhau, giải thích khác nhau, tất cả đều đề cập đến các nguyên tắc thống kê.
Assad Ebrahim

11

Dưới đây là một vài điều khiến bạn nổi bật giữa đám đông:

  • Hiểu miền ứng dụng hoặc miền. Đó là, môi trường kinh doanh hoặc bối cảnh khác.
  • Hiểu được bức tranh lớn. Cái này rất quan trọng! Những người học máy học thường bị lạc trong các chi tiết. Hãy suy nghĩ về bức tranh tổng thể mà các mô hình ML của bạn sẽ phù hợp. Thường thì phần ML chỉ là một phần nhỏ của một hệ thống lớn hơn nhiều. Hiểu toàn bộ hệ thống.
  • Nghiên cứu tiện ích và lý thuyết quyết định và suy luận Bayes, không chỉ là bất cứ điều gì hiện được coi là mô hình ML "thông thường". Suy luận Bayes chỉ là một cách để chính thức hóa khái niệm đưa tất cả thông tin theo ngữ cảnh vào một vấn đề. Lý thuyết tiện ích và quyết định là về việc đưa các giá trị vào bức tranh.

Thông điệp tổng thể áp dụng cho cả ba điểm: Nhìn vào bức tranh lớn, đừng để bị lạc trong các chi tiết.


4

Kỹ năng đặt một công cụ khai thác dữ liệu khác với các kỹ năng khác là khả năng diễn giải các mô hình học máy. Hầu hết xây dựng một máy, báo cáo lỗi và sau đó dừng lại. Các mối quan hệ toán học giữa các tính năng là gì? Là các hiệu ứng phụ gia hoặc không phụ gia hoặc cả hai? Có bất kỳ tính năng không liên quan? Là máy dự kiến ​​theo giả thuyết null rằng chỉ có các mẫu cơ hội trong dữ liệu? Liệu mô hình tổng quát hóa dữ liệu độc lập? Những mô hình này có ý nghĩa gì đối với vấn đề đang được nghiên cứu? Suy luận là gì? Những hiểu biết là gì? Tại sao một chuyên gia tên miền nên vui mừng? Máy sẽ dẫn đến chuyên gia tên miền đặt câu hỏi mới và thiết kế thử nghiệm mới? Công cụ khai thác dữ liệu có thể truyền đạt hiệu quả mô hình và ý nghĩa của nó với thế giới không?


8
Đồng ý +1 - mặc dù những gì bạn mô tả được gọi là thống kê.
Thomas Speidel

4

Tôi sẽ đưa ra khái niệm "kỹ năng mềm".

  • nhận ra ai là "chuyên gia" cho phương pháp X và có thể tiếp cận kiến ​​thức của họ (bạn không nên hoặc có thể biết mọi thứ về erything). Khả năng và sự sẵn sàng để cộng tác với những người khác.

  • khả năng dịch hoặc đại diện cho "thế giới thực" với toán học được sử dụng trong ML.

  • khả năng giải thích các phương pháp của bạn theo những cách khác nhau cho các đối tượng khác nhau - biết khi nào nên tập trung vào chi tiết và khi nào nên lùi lại và xem bối cảnh rộng hơn.

  • hệ thống suy nghĩ, có thể thấy vai trò của bạn ăn vào các lĩnh vực khác của doanh nghiệp và cách các khu vực này phản hồi lại công việc của bạn.

  • một sự đánh giá và hiểu biết về sự không chắc chắn, và có một số phương pháp có cấu trúc để đối phó với nó. Có thể nói rõ những giả định của bạn là gì.


4

Có khả năng khái quát tốt

Đây là bản chất của một mô hình tốt. Và đó là bản chất của những gì làm cho những người thực hành tốt nhất của nghệ thuật học máy nổi bật giữa đám đông.

Hiểu rằng mục tiêu là để tối ưu hóa hiệu suất trên dữ liệu chưa xem, không giảm thiểu tổn thất đào tạo. Biết cách tránh cả vừa vặn và quá khớp. Đến với các mô hình không quá phức tạp nhưng không quá đơn giản trong việc mô tả vấn đề. Trích xuất ý chính của một tập huấn luyện, thay vì tối đa có thể.

Thật đáng ngạc nhiên khi thường xuyên, ngay cả những người thực hành máy học có kinh nghiệm, không tuân theo nguyên tắc này. Một lý do là con người không đánh giá cao hai sự khác biệt lớn về lý thuyết so với thực tiễn :

  • Không gian của tất cả các ví dụ có thể lớn hơn bao nhiêu so với dữ liệu đào tạo trong tay, ngay cả khi dữ liệu đào tạo rất lớn.
  • "Không gian giả thuyết" đầy đủ lớn hơn bao nhiêu : số lượng mô hình có thể có cho một vấn đề, so với "không gian giải pháp" thực tế: mọi thứ bạn có thể nghĩ ra, và mọi thứ mà phần mềm / công cụ của bạn có thể đại diện.

Thứ 2 đặc biệt khó hiểu vì ngay cả đối với bài toán đơn giản nhất với đầu vào và kết quả nhị phân, vẫn có ví dụ đầu vào có thể và số lượng lớn hơn theo cấp số nhân 2 ^ của các mô hình có thể.N2N2N

Đó cũng là điều mà hầu hết các câu trả lời trên đã nói theo những cách cụ thể và cụ thể hơn. để khái quát tốt chỉ là cách ngắn nhất tôi có thể nghĩ ra, để đặt nó.


2

Tôi thấy có hai phần trong khi xử lý học máy trong thực tế

  1. Kỹ thuật (bao gồm tất cả các thuật toán, học các gói khác nhau, lập trình).

  2. Tò mò / Lý luận (khả năng đặt câu hỏi tốt hơn cho dữ liệu).

Tôi nghĩ rằng 'sự tò mò / lý luận' là kỹ năng phân biệt người này với người khác. Ví dụ: nếu bạn thấy các bảng lãnh đạo của các lần hoàn thành kaggle, nhiều người có thể đã sử dụng các thuật toán phổ biến (tương tự), điều làm nên sự khác biệt là, cách người ta đặt câu hỏi một cách logic về dữ liệu và hình thành nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.