Mô hình học máy trong môi trường sản xuất


8

Hãy nói rằng một Mô hình đã được đào tạo vào ngày bằng cách sử dụng dữ liệu được dán nhãn sẵn, chia thành đào tạo và kiểm tra, ví dụ: , . Mô hình này sau đó được triển khai trong sản xuất và đưa ra dự đoán về dữ liệu mới đến. Một số ngày trôi qua và có một loạt dữ liệu được dán nhãn được thu thập ở giữa và ngày, hãy gọi nó là . Theo cách tiếp cận hiện tại của tôi, tôi lấy các mẫu ngẫu nhiên ra khỏi (lấy ví dụ: chia 80/20),dt1traindt1testdt1Xdt1dt1+XDataxDATAx

Vì vậy, của = train_x (dữ liệu mới được sử dụng để tinh chỉnh các mô hình hiện có đào tạo về dt1 ) 20 \% của Dữ liệu X = test_x (dữ liệu mới được thêm vào test_ {dt1} )80%DATAxtrainxdt120%DATAxtestxtestdt1

Quá trình tinh chỉnh này lặp đi lặp lại khi thời gian trôi qua.

Bằng cách này, tôi nhận được một bộ thử nghiệm mở rộng hơn bao giờ hết, cũng như tôi ngăn chặn việc đào tạo lại toàn bộ mô hình (về cơ bản tôi có thể vứt bỏ dữ liệu cũ như mô hình đã học được từ nó). Mô hình mới được tạo ra chỉ là một phiên bản tinh chỉnh của mô hình cũ.

Tôi có một số câu hỏi, liên quan đến phương pháp này:

  1. Có bất kỳ nhược điểm rõ ràng trong việc này?
  2. Liệu mô hình có bao giờ cần phải được đào tạo lại hoàn toàn (quên mọi thứ đã học trước đó và huấn luyện mô hình với các phân tách thử nghiệm / đào tạo mới) sau một thời gian hay cách tiếp cận mà tôi mô tả ở trên có thể tiếp tục vô thời hạn không?
  3. Điều gì sẽ là điều kiện để hoán đổi mô hình đã triển khai với mô hình mới được tinh chỉnh?

Xin vui lòng một tân sinh viên, xin vui lòng. Bạn phải có một bộ dữ liệu rất đặc biệt để nó được dán nhãn, đúng không? Ghi nhãn giám sát là bản chất tốn kém và chậm.
xtian

@xtian Chi phí ghi nhãn có giám sát và thời gian cần thiết phụ thuộc đáng kể vào vấn đề. Hãy nói rằng bạn đã có mô hình ML dự đoán khi ai đó đi bộ trong một đại lý, anh ta sẽ mua chiếc xe đó hay không (thuộc tính người được cho)? Bộ sưu tập dữ liệu được dán nhãn của bạn là tương đối nhanh trong trường hợp này. Trong một ngày, bạn có thể nhận được hơn 100 mẫu được dán nhãn.
trailblazer

Câu trả lời:


5

Tôi nghĩ rằng đây là một cách tiếp cận tốt nói chung. Tuy nhiên:

  • Tinh chỉnh mô hình của bạn (học trực tuyến) phụ thuộc rất nhiều vào thuật toán và mô hình hóa việc này hoạt động tốt như thế nào. Tùy thuộc vào thuật toán của bạn, có thể là khôn ngoan để đào tạo lại toàn bộ

  • Không gian mẫu của bạn có thể thay đổi thêm giờ. Nếu bạn có đủ dữ liệu, có thể đào tạo lại cứ sau vài ngày / tuần / tháng so với giá trị dữ liệu của năm trước có thể tốt hơn. Nếu các mẫu cũ của bạn không đại diện cho tình huống hiện tại cũng như việc bao gồm chúng có thể ảnh hưởng đến hiệu suất của bạn nhiều hơn các mẫu bổ sung giúp

  • Điều kiện lớn nhất là nếu nó được thử nghiệm và bao nhiêu thời gian chết, nhưng nói chung, trao đổi nhiều lần hơn là tốt hơn và điều này có thể được tự động hóa


Cảm ơn vi đa trả lơi ! Tôi hiện đang sử dụng các phương thức tập hợp như Rừng ngẫu nhiên và Cây tăng cường Gradient. Lý do tôi đã không đề cập đến chúng, vì tôi muốn biết cách tiếp cận tốt như thế nào đối với loại thuật toán.
trailblazer

Về không gian mẫu, bạn không nghĩ rằng có thể được xử lý bằng cách cho trọng số cho các quan sát? xây dựng một số loại khái niệm thời gian.
trailblazer

@trailblazer thêm cây vào rừng của bạn là một cách tiếp cận hợp lý tôi nghĩ, không bao giờ thử nó nhưng nên có tài liệu về nó. Tìm kiếm học tập trực tuyến. Thuật toán bất khả tri sẽ không thể thực hiện được vì một số thuật toán chỉ có thể học trên toàn bộ tập hợp.
Jan van der Vegt

@trailblazer liên quan đến câu hỏi không gian mẫu, có thể hoạt động đối với một số thuật toán nhưng không phải đối với các thuật toán khác, điều này một lần nữa phụ thuộc vào khả năng học trực tuyến nhưng bạn cũng cần tiếp tục tăng trọng lượng hoặc kiềm chế mọi thứ, bạn không thể giảm trọng lượng các mẫu cũ hơn mà không cần đào tạo lại
Jan van der Vegt

0

Nó chủ yếu phụ thuộc vào loại học thuật toán ml của bạn. Đối với học ngoại tuyến: đào tạo lại toàn bộ điều là khôn ngoan vì một số thuật toán yêu cầu dữ liệu đầy đủ của bạn để tạo ra giả định tốt hơn. Học trực tuyến: Mô hình của bạn có thể được điều chỉnh phù hợp với dữ liệu gần đây hoặc mới nhất với cập nhật trong mô hình khi dữ liệu đến.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.