Nghiên cứu khoa học dữ liệu của tôi bắt đầu như một thạc sĩ về thống kê ứng dụng. Một trong những khóa học là về học máy và nó có cách tiếp cận tương tự với những gì bạn đang mô tả. Vì vậy, tôi có thể đồng cảm một chút với quan điểm hiện tại của bạn. Nhưng, cũng giống như những điều khác bạn có thể đã học được trong cuộc sống, cách bạn làm mọi thứ trong môi trường học thuật và cách bạn làm mọi thứ trong môi trường kinh doanh (ví dụ như đối với khách hàng) là hoàn toàn khác nhau. Đây là những gì tôi đã học được từ những nghiên cứu ban đầu của mình:
1 - Học Python
Chắc chắn, có những công cụ khác ngoài đó và chúng vẫn ổn (tôi đã từng viết mã R với những thứ tốt nhất trong số chúng) nhưng Python là nơi tương lai đang diễn ra. Thêm vào đó, rất ít công cụ có quy mô cũng như Python và điều đó rất quan trọng nếu bạn muốn làm việc trên một số thứ thực sự tuyệt vời.
2 - Tất cả bắt nguồn từ việc thực hiện
Đoán xem cái gì? Tất cả những điều bạn đang học hiện nay (ma trận nhầm lẫn, giảm yếu tố, v.v.) không có ý nghĩa gì với khách hàng của bạn. Họ sẽ chỉ nhìn bạn và nói, "Sản phẩm là gì? Khi nào bạn sẽ triển khai một cái gì đó cho điện thoại của tôi? Ứng dụng web của tôi để nhấp vào đâu?". Một phần lớn công việc của bạn sẽ là biến tất cả công việc của bạn thành một sản phẩm và bạn sẽ thấy mình đang đội một chiếc mũ phát triển phần mềm. Đây cũng là một lý do tốt để học trăn.
3 - Đường ống dữ liệu mất thời gian
RẤT NHIỀU công việc của bạn sẽ là về thao tác dữ liệu và chỉ cần đảm bảo rằng các đường ống dữ liệu bạn cần ở đó. Chắc chắn, bạn có một cơ sở dữ liệu - nhưng bạn sẽ cập nhật nó như thế nào? Những gì bạn cần xử lý trước? Kết quả bạn được lưu trữ ở đâu? Bạn sẽ dành RẤT NHIỀU thời gian để tìm ra thứ này. Bạn sẽ bỏ lỡ những ngày đi học khi bộ dữ liệu được trao cho bạn một cách sạch sẽ và đẹp mắt :)
4 - Mạng lưới thần kinh đá đít
Một khi bạn cắn miếng táo này, thật khó để quay lại :). Tìm hiểu Keras và tận hưởng chuyến đi. Sau một thời gian, bạn sẽ phải tự nhắc nhở mình quyết định cây là gì :)
5 - Tìm kiếm mô hình bây giờ dễ dàng hơn nhiều
Để rõ ràng 100%, phương pháp "tìm kiếm mô hình" mà bạn đang làm bây giờ là RẤT kinh nghiệm quý giá. Bạn chắc chắn nên làm việc chăm chỉ tại các lớp học. Tuy nhiên, nếu bạn có thời gian, hãy xem (1) Robot dữ liệu hoặc (2) Watson Analytics. Cả hai gói đó, về cơ bản, cùng một thứ. Họ sẽ lấy dữ liệu của bạn và tìm cho bạn mô hình tốt nhất cho nó. Tất cả các mục bạn mô tả ở trên được thực hiện cho bạn trong vài giây. Việc họ nhanh như thế nào và họ rất hiệu quả trong việc giúp bạn giảm bớt công việc. Tuy nhiên, được cảnh báo rằng các gói này chỉ hỗ trợ dữ liệu được giám sát. Bạn vẫn sẽ phải làm theo cách cũ đối với dữ liệu không được giám sát (hoặc gắn nhãn một số và sử dụng mạng thần kinh).
6 - Tôi vẫn sử dụng lý thuyết đằng sau các mô hình khác
Ngay cả khi tôi sử dụng mạng thần kinh rất nhiều, các mô hình khác vẫn hữu ích. Bạn vẫn sẽ sử dụng hồi quy tuyến tính hoặc cây quyết định cho các vấn đề cơ bản. Nó cũng hữu ích khi tôi quyết định đọc một số tài liệu nghiên cứu về archivx hoặc bất cứ điều gì. Vì vậy, tôi vẫn sẽ sử dụng chúng cho nghiên cứu và hiểu biết của riêng tôi, nhưng đó là về nó.
Chúc vui vẻ!