Những gì nó về
Chỉ cần biết về các kỹ thuật cũng giống như biết các động vật trong sở thú - bạn có thể đặt tên cho chúng, mô tả các thuộc tính của chúng, có thể xác định chúng trong tự nhiên.
Hiểu khi nào nên sử dụng chúng, xây dựng, xây dựng, thử nghiệm và triển khai các mô hình toán học đang hoạt động trong một khu vực ứng dụng trong khi tránh những cạm bẫy --- theo tôi, đây là những kỹ năng phân biệt.
Cần nhấn mạnh vào khoa học , áp dụng cách tiếp cận có hệ thống, khoa học cho các vấn đề kinh doanh, công nghiệp và thương mại. Nhưng điều này đòi hỏi các kỹ năng rộng hơn khai thác dữ liệu & học máy, vì Robin Bloor lập luận thuyết phục trong "A Data Science Rant" .
Vậy người ta có thể làm gì?
Các lĩnh vực ứng dụng : tìm hiểu về các lĩnh vực ứng dụng khác nhau gần với sở thích của bạn hoặc của nhà tuyển dụng của bạn. Khu vực này thường ít quan trọng hơn việc hiểu cách thức mô hình được xây dựng và cách nó được sử dụng để tăng giá trị cho khu vực đó. Các mô hình thành công trong một lĩnh vực thường có thể được cấy ghép và áp dụng cho các khu vực khác nhau hoạt động theo những cách tương tự.
Các cuộc thi : hãy thử trang web cạnh tranh khai thác dữ liệu Kaggle , tốt nhất là tham gia vào nhóm của những người khác. (Kaggle: một nền tảng cho các cuộc thi mô hình dự đoán. Các công ty, chính phủ và nhà nghiên cứu trình bày các bộ dữ liệu và vấn đề và các nhà khoa học dữ liệu tốt nhất thế giới cạnh tranh để tạo ra các giải pháp tốt nhất.)
Nguyên tắc cơ bản : Có bốn: (1) nền tảng vững chắc trong thống kê, (2) kỹ năng lập trình khá tốt, (3) hiểu cách cấu trúc các truy vấn dữ liệu phức tạp, (4) xây dựng mô hình dữ liệu. Nếu bất kỳ ai yếu, thì đó là một nơi quan trọng để bắt đầu.
Một vài trích dẫn về mặt này:
"Tôi đã học được rất sớm sự khác biệt giữa việc biết tên của một cái gì đó và biết một cái gì đó. Bạn có thể biết tên của một con chim trong tất cả các ngôn ngữ trên thế giới, nhưng khi bạn hoàn thành, bạn sẽ hoàn toàn không biết gì về con chim ... Vì vậy, hãy nhìn vào con chim và xem nó đang làm gì - đó là có giá trị gì. '- Richard Feynman, "Việc tạo ra một nhà khoa học", trang 14 trong Bạn quan tâm đến những gì người khác nghĩ, 1988
Ghi nhớ:
`` Sự kết hợp các kỹ năng cần thiết để thực hiện các dự án khoa học kinh doanh [khoa học dữ liệu] này hiếm khi cư trú ở một người. Ai đó thực sự có thể đạt được kiến thức sâu rộng trong ba lĩnh vực (i) doanh nghiệp làm gì, (ii) cách sử dụng số liệu thống kê và (iii) cách quản lý luồng dữ liệu và dữ liệu. Nếu vậy, anh ta hoặc cô ta thực sự có thể tự xưng là một nhà khoa học kinh doanh (hay còn gọi là nhà khoa học dữ liệu của Hồi) trong một lĩnh vực nhất định. Nhưng những cá nhân như vậy hầu như hiếm như răng của gà mái. '- Robin Bloor, A Data Science Rant , tháng 8 năm 2013, Phân tích nội bộ
Và cuối cùng:
"Bản đồ không phải là lãnh thổ. '' - Alfred Korzybski, 1933, Khoa học & Sanity.
Hầu hết các vấn đề thực tế, được áp dụng không thể truy cập được chỉ từ '`bản đồ' '. Để làm những việc thực tế với mô hình toán học, người ta phải sẵn sàng nhận được nhiều chi tiết, sự tinh tế và ngoại lệ. Không có gì có thể thay thế để biết tận mắt lãnh thổ.