Chào mừng bạn đến với trang web!
Những gì bạn đang nói là đúng, Khoa học dữ liệu chưa đạt đến giai đoạn mà nó có một số phương pháp tiêu chuẩn để đạt được điều này (quy trình chuẩn, không biết chúng ta sẽ có thể đạt đến giai đoạn đó trong tương lai gần). Nhưng chúng tôi có một số tiêu chuẩn chung như:
- Dự báo: ETS, ARIMA, SARIMA, v.v.
- Dự đoán: Hồi quy tuyến tính, Rừng ngẫu nhiên, GLM, Mạng thần kinh, v.v.
- Phân loại: Hồi quy logistic, Rừng ngẫu nhiên, v.v.
Khi bạn đi đến cấp độ chi tiết, thật khó để khái quát hóa, vì mọi vấn đề kinh doanh đều khác nhau và một phương pháp duy nhất không thể được sử dụng để giải quyết tất cả các vấn đề kinh doanh.
Vì vậy, để trả lời câu hỏi tiếp theo, làm thế nào để bạn tự tin rằng kết quả đủ tốt, tôi giả sử rằng bạn đã nghe về RMSE, MAPE và nhiều hơn nữa cho các dự đoán và ma trận nhầm lẫn cho vấn đề phân loại. Chúng tôi sử dụng các số liệu này để xem hiệu suất truy cập mô hình, ví dụ: nếu bạn đang cố gắng phân loại xem tế bào đã cho có phải là tế bào ung thư hay không, có 100 hồ sơ trong đó 90 là tế bào không ung thư và 10 là tế bào ung thư, mô hình của bạn cung cấp Độ chính xác 99% nhưng có thể phân loại 5 trên 9 theo nghĩa đen 55% trong tổng số các trường hợp như vậy bạn cần nhìn không thể sử dụng độ chính xác, bạn cần sử dụng điểm F1, v.v. Khi bạn hỏi về một mô hình đúng, tất cả các mô hình đều không hữu ích. Đúng là không phải tất cả các mô hình được xây dựng sẽ đi vào cấp độ sản xuất, bạn sẽ chọn mô hình tốt nhất và sản xuất nó. Bạn có thể đào tạo lại mô hình của mình trên cơ sở (Hàng ngày, Hàng tuần, Hàng tháng dựa trên yêu cầu kinh doanh). Bạn sẽ gọi nó là một ngày nghỉ hoàn thành bài xác nhận? Tôi sẽ không, tôi sẽ đi đến Chuyên gia về vấn đề chủ đề trình bày cho anh ấy kết quả hỏi anh ấy / cô ấy về những hiểu biết của họ, nếu cả hai đều là nội tuyến thì tôi sẽ thực hiện thử nghiệm Beta trên một số dữ liệu thực tế và sau đó sản xuất nó.
Bây giờ để giải quyết câu hỏi cuối cùng của bạn, không có tiêu chuẩn nào nói rằng điều này tốt hay xấu, nếu nó hiệu quả với bạn, Doanh nghiệp của bạn thì đó là một Mô hình tốt. Để thuận tiện cho người quản lý và chuyên gia về chủ đề (Dữ liệu) của bạn, bạn cần đào sâu vào dữ liệu, hãy thử tất cả các kịch bản khác nhau hỏi càng nhiều câu hỏi càng tốt. Hãy cố gắng hiểu dữ liệu rất tốt. Vì vậy, bạn có thể trả lời Câu hỏi kinh doanh với câu trả lời hỗ trợ dữ liệu (Điều này chỉ có thể khi bạn kém hơn với dữ liệu). Vì họ rất giỏi trong kinh doanh nên họ sẽ đặt câu hỏi liên quan đến kinh doanh, bạn cần sẵn sàng với tất cả các kịch bản như vậy bằng cách hiểu rõ về kinh doanh và dữ liệu.
Cuối cùng, tôi có một cảm giác như bạn làm. Tôi đã làm rất nhiều việc nhưng không có gì hiệu quả nhưng bạn không nên buồn vì bạn hiểu rằng đây là những cách dẫn bạn đến kết quả không thành công (ví dụ tốt nhất là Thomas Alva Edison đã sử dụng 1000 kim loại khác nhau trước khi sử dụng Vonfram để làm bóng đèn) . Tương tự như vậy, tất cả các phương pháp mà chúng tôi đã thử là các bước khác nhau mà bạn đã cố gắng để có được giải pháp. Funda của tôi là, tôi đã thử một cái gì đó khác nhau / mới hàng ngày hay không. Phần quan trọng của quá trình này là, duy trì tài liệu rõ ràng ở mỗi bước. Mà sẽ có ích trong tương lai gần.
Bất cứ điều gì trong R & D không bao giờ là lãng phí, nó chỉ là một thử nghiệm hoặc thử nghiệm khác, vì vậy công việc của bạn không bao giờ lãng phí. Bạn đang cố gắng xây dựng một cơ sở vững chắc cho tương lai tươi sáng của công ty bạn.