Điều gì khiến bạn tự tin vào kết quả của mình? Tại thời điểm nào bạn nghĩ rằng bạn có thể trình bày công việc của bạn cho cấp trên mù chữ công nghệ?


7

Tôi hiểu rằng các mô hình chỉ tốt như dữ liệu bạn nhận được và thiết kế xấu có thể tạo ra dữ liệu thực sự xấu. Lấy mẫu không ngẫu nhiên, thiết kế không cân bằng / không đầy đủ, gây nhiễu, có thể làm cho phân tích dữ liệu thực sự khó khăn.

Tại thời điểm nào người ta nên tự tin rằng họ chạy một mô hình hữu ích ? Bạn chỉ cần thực hiện xác nhận chéo với bộ dữ liệu đào tạo / kiểm tra và gọi nó là một ngày? Rõ ràng "tất cả các mô hình đều sai, một số là hữu ích" nhưng đến một lúc nào đó, sự đánh đổi với việc loại trừ quá nhiều tham số bằng LASSOing và các biến đổi lạ bằng cách làm cho BIC trở nên chói lóa.

tl; dr vào cuối ngày điều gì khiến bạn đi "Tôi đã làm điều đúng đắn cho công ty / dự án của tôi và điều này sẽ hoạt động"

Câu trả lời:


3

Chào mừng bạn đến với trang web!

Những gì bạn đang nói là đúng, Khoa học dữ liệu chưa đạt đến giai đoạn mà nó có một số phương pháp tiêu chuẩn để đạt được điều này (quy trình chuẩn, không biết chúng ta sẽ có thể đạt đến giai đoạn đó trong tương lai gần). Nhưng chúng tôi có một số tiêu chuẩn chung như:

  1. Dự báo: ETS, ARIMA, SARIMA, v.v.
  2. Dự đoán: Hồi quy tuyến tính, Rừng ngẫu nhiên, GLM, Mạng thần kinh, v.v.
  3. Phân loại: Hồi quy logistic, Rừng ngẫu nhiên, v.v.

Khi bạn đi đến cấp độ chi tiết, thật khó để khái quát hóa, vì mọi vấn đề kinh doanh đều khác nhau và một phương pháp duy nhất không thể được sử dụng để giải quyết tất cả các vấn đề kinh doanh.

Vì vậy, để trả lời câu hỏi tiếp theo, làm thế nào để bạn tự tin rằng kết quả đủ tốt, tôi giả sử rằng bạn đã nghe về RMSE, MAPE và nhiều hơn nữa cho các dự đoán và ma trận nhầm lẫn cho vấn đề phân loại. Chúng tôi sử dụng các số liệu này để xem hiệu suất truy cập mô hình, ví dụ: nếu bạn đang cố gắng phân loại xem tế bào đã cho có phải là tế bào ung thư hay không, có 100 hồ sơ trong đó 90 là tế bào không ung thư và 10 là tế bào ung thư, mô hình của bạn cung cấp Độ chính xác 99% nhưng có thể phân loại 5 trên 9 theo nghĩa đen 55% trong tổng số các trường hợp như vậy bạn cần nhìn không thể sử dụng độ chính xác, bạn cần sử dụng điểm F1, v.v. Khi bạn hỏi về một mô hình đúng, tất cả các mô hình đều không hữu ích. Đúng là không phải tất cả các mô hình được xây dựng sẽ đi vào cấp độ sản xuất, bạn sẽ chọn mô hình tốt nhất và sản xuất nó. Bạn có thể đào tạo lại mô hình của mình trên cơ sở (Hàng ngày, Hàng tuần, Hàng tháng dựa trên yêu cầu kinh doanh). Bạn sẽ gọi nó là một ngày nghỉ hoàn thành bài xác nhận? Tôi sẽ không, tôi sẽ đi đến Chuyên gia về vấn đề chủ đề trình bày cho anh ấy kết quả hỏi anh ấy / cô ấy về những hiểu biết của họ, nếu cả hai đều là nội tuyến thì tôi sẽ thực hiện thử nghiệm Beta trên một số dữ liệu thực tế và sau đó sản xuất nó.

Bây giờ để giải quyết câu hỏi cuối cùng của bạn, không có tiêu chuẩn nào nói rằng điều này tốt hay xấu, nếu nó hiệu quả với bạn, Doanh nghiệp của bạn thì đó là một Mô hình tốt. Để thuận tiện cho người quản lý và chuyên gia về chủ đề (Dữ liệu) của bạn, bạn cần đào sâu vào dữ liệu, hãy thử tất cả các kịch bản khác nhau hỏi càng nhiều câu hỏi càng tốt. Hãy cố gắng hiểu dữ liệu rất tốt. Vì vậy, bạn có thể trả lời Câu hỏi kinh doanh với câu trả lời hỗ trợ dữ liệu (Điều này chỉ có thể khi bạn kém hơn với dữ liệu). Vì họ rất giỏi trong kinh doanh nên họ sẽ đặt câu hỏi liên quan đến kinh doanh, bạn cần sẵn sàng với tất cả các kịch bản như vậy bằng cách hiểu rõ về kinh doanh và dữ liệu.

Cuối cùng, tôi có một cảm giác như bạn làm. Tôi đã làm rất nhiều việc nhưng không có gì hiệu quả nhưng bạn không nên buồn vì bạn hiểu rằng đây là những cách dẫn bạn đến kết quả không thành công (ví dụ tốt nhất là Thomas Alva Edison đã sử dụng 1000 kim loại khác nhau trước khi sử dụng Vonfram để làm bóng đèn) . Tương tự như vậy, tất cả các phương pháp mà chúng tôi đã thử là các bước khác nhau mà bạn đã cố gắng để có được giải pháp. Funda của tôi là, tôi đã thử một cái gì đó khác nhau / mới hàng ngày hay không. Phần quan trọng của quá trình này là, duy trì tài liệu rõ ràng ở mỗi bước. Mà sẽ có ích trong tương lai gần.

Bất cứ điều gì trong R & D không bao giờ là lãng phí, nó chỉ là một thử nghiệm hoặc thử nghiệm khác, vì vậy công việc của bạn không bao giờ lãng phí. Bạn đang cố gắng xây dựng một cơ sở vững chắc cho tương lai tươi sáng của công ty bạn.


2

Điều gì khiến bạn tự tin vào kết quả của mình?

Phương pháp thích hợp để đánh giá xem bạn đã mô hình hóa tín hiệu thực hay nhiễu hoàn toàn phụ thuộc vào câu hỏi bạn đang hỏi và phương pháp mô hình hóa mà bạn đã sử dụng để giải quyết nó. Nhiều cuốn sách rất dày đã được viết về chủ đề này, thường hạn chế sự chú ý của họ vào một miền vấn đề và / hoặc loại mô hình. Sự phức tạp liên quan đến đánh giá mô hình là một thành phần lớn tại sao các nhà khoa học dữ liệu thường có bằng tốt nghiệp. Điều này đưa chúng ta đến phần thứ hai của câu hỏi của bạn:

Tại thời điểm nào bạn nghĩ rằng bạn có thể trình bày công việc của bạn cho cấp trên mù chữ công nghệ?

Cấp trên mù chữ công nghệ của bạn không có bằng tốt nghiệp đó sẽ thông báo cho họ cách đánh giá phân tích của bạn. Họ tin tưởng bạn trình bày kết quả trung thực và chính xác. Rất dễ để đánh lừa những người không thống kê - thông thạo tin vào bất kỳ câu chuyện kể nào bạn muốn trình bày. Trách nhiệm của bạn là đảm bảo kết quả của bạn được kiểm soát chặt chẽ hoặc ít nhất là đồng bộ với khả năng chịu rủi ro của khách hàng.

Kết quả của bạn đã sẵn sàng để được chia sẻ khi bạn hài lòng rằng bạn đang giải thích chúng một cách chính xác và bạn có kế hoạch làm thế nào để truyền đạt chúng một cách rõ ràng.

vào cuối ngày điều gì khiến bạn đi "Tôi đã làm điều đúng đắn cho công ty / dự án của tôi và điều này sẽ hoạt động"

  1. Tôi đã xây dựng một mô hình hoàn thành mục tiêu của mình.
  2. Tôi hài lòng rằng phương pháp mô hình hóa của tôi là âm thanh và lặp lại. Nếu tôi đang thực hiện một nhiệm vụ dự đoán, tôi cũng muốn chắc chắn rằng mô hình của tôi khái quát tốt cho dữ liệu ngoài mẫu.
  3. Tôi đã đánh giá tác động dự kiến ​​của việc sử dụng mô hình của mình và tin tưởng một cách hợp lý rằng những lợi ích của việc áp dụng nó biện minh cho thời gian và công sức tôi đang bỏ ra để xây dựng nó.
  4. Tôi có một con đường rõ ràng để thực hiện. Tôi có một kế hoạch kỹ thuật để làm cho kết quả của mình có thể thực hiện được và biết tôi cần hỗ trợ cho ai để thực hiện.
  5. Tôi tự tin rằng tôi có thể truyền đạt kết quả của mình theo cách sẽ thuyết phục các bên liên quan phi kỹ thuật rằng kết quả của tôi là có thật và làm giảm bớt mối quan tâm của họ.

1
Có thể thêm một số hình thức đánh giá ngang hàng vào danh sách của bạn? Tôi không biết mức độ phổ biến của các nhóm khoa học dữ liệu hoặc kinh doanh thông minh, nhưng đây là tính năng đảm bảo chất lượng cốt lõi để phát triển phần mềm, chia sẻ vấn đề về sản phẩm kỹ thuật cao với tác động kinh doanh tùy thuộc vào chất lượng.
Neil Slater
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.