Bao nhiêu dữ liệu là đủ để đào tạo mô hình học máy của tôi?


11

Tôi đã làm việc về máy học và tin sinh học trong một thời gian, và hôm nay tôi đã có một cuộc trò chuyện với một đồng nghiệp về các vấn đề chung chính của khai thác dữ liệu.

Đồng nghiệp của tôi (là một chuyên gia về máy học) cho biết, theo ý kiến ​​của anh ấy, khía cạnh thực tế quan trọng nhất của việc học máy là làm thế nào để hiểu liệu bạn đã thu thập đủ dữ liệu để đào tạo mô hình học máy của mình hay chưa .

Câu nói này làm tôi ngạc nhiên, vì tôi chưa bao giờ coi trọng khía cạnh này ...

Sau đó tôi đã tìm kiếm thêm thông tin trên internet và tôi thấy bài đăng này trên báo cáo FastML.com là quy tắc ngón tay cái mà bạn cần gấp 10 lần số lượng dữ liệu như có các tính năng .

Hai câu hỏi:

1 - Vấn đề này có thực sự đặc biệt liên quan đến học máy không?

2 - Quy tắc 10 lần có hoạt động không? Có bất kỳ nguồn liên quan khác cho chủ đề này?


1. Có. 2. Đó là một cơ sở tốt nhưng bạn có thể khắc phục nó bằng cách thường xuyên để giảm mức độ tự do hiệu quả . Điều này đặc biệt tốt với học tập sâu. 3. Bạn có thể chẩn đoán tình huống về vấn đề của mình bằng cách vẽ đường cong học tập của cỡ mẫu so với sai số hoặc điểm số.
Emre

@Emre Cảm ơn! Bạn cũng có thể gợi ý cho tôi một số giấy tờ hoặc bất kỳ tài liệu nào để đọc không?
DavideChicco.it

Điều này thường sẽ được đề cập cùng với xác thực chéo và các kỹ thuật xác nhận mô hình khác trong sách giáo khoa của bạn.
Emre

Quy tắc 10 lần là tuyệt vời nếu bạn có thể đạt được nó, nhưng nó chỉ không thực tế trong một số cài đặt kinh doanh. Có nhiều tình huống trong đó số lượng tính năng lớn hơn nhiều so với trường hợp dữ liệu (p >> n). Có những kỹ thuật máy học được thiết kế đặc biệt để đối phó với những tình huống này.
anh chàng khoa học dữ liệu

Nếu bạn cần một lời giải thích chi tiết có thể giúp bạn hiểu biểu đồ đường cong học tập, hãy kiểm tra điều này: scikit-yb.org/en/latest/api/model_selection/learning_curve.html
shrikanth singh

Câu trả lời:


6

Quy tắc mười lần có vẻ như là một quy tắc đối với tôi, nhưng sự thật là hiệu suất của thuật toán học máy của bạn có thể giảm nếu bạn không cung cấp cho nó đủ dữ liệu đào tạo.

Một cách thực tế và dựa trên dữ liệu để xác định xem bạn có đủ dữ liệu đào tạo hay không bằng cách vẽ một đường cong học tập, giống như trong ví dụ dưới đây:

Đường cong học tập

Các đường cong học tập đại diện cho sự phát triển của các lỗi đào tạo và kiểm tra khi bạn tăng kích thước của tập huấn luyện của bạn.

  • Lỗi đào tạo tăng lên khi bạn tăng kích thước tập dữ liệu của mình, bởi vì nó trở nên khó hơn để phù hợp với một mô hình chiếm tỷ lệ / độ biến thiên ngày càng tăng của tập huấn luyện của bạn.
  • Lỗi kiểm tra giảm khi bạn tăng kích thước tập dữ liệu của mình, vì mô hình có thể khái quát tốt hơn từ lượng thông tin cao hơn.

Như bạn có thể thấy ở phần ngoài cùng bên phải của cốt truyện, hai dòng trong cốt truyện có xu hướng tiếp cận và tiệm cận. Do đó, cuối cùng bạn sẽ đạt đến một điểm trong đó việc tăng kích thước của tập dữ liệu của bạn sẽ không có tác động đến mô hình được đào tạo của bạn.

Khoảng cách giữa lỗi kiểm tra và lỗi tiệm cận huấn luyện là sự thể hiện quá mức của mô hình của bạn. Nhưng quan trọng hơn, cốt truyện này đang nói liệu bạn có cần thêm dữ liệu hay không. Về cơ bản, nếu bạn biểu thị lỗi kiểm tra và huấn luyện để tăng các tập con lớn hơn của dữ liệu đào tạo của bạn và các dòng dường như không đạt được tiệm cận, bạn nên tiếp tục thu thập thêm dữ liệu.


Trong hàm learning_curve tôi nên vượt qua X_train, y_train: Only train subsethoặcX, y: the entire dataset
Rookie_123

Đường cong này được xây dựng do kết quả của việc áp dụng xác nhận chéo khi bạn tăng số lượng mẫu. Do đó, bạn cần toàn bộ dữ liệu.
Pablo Suau

4
  1. Vâng, vấn đề chắc chắn có liên quan, vì khả năng phù hợp với mô hình của bạn sẽ phụ thuộc vào lượng dữ liệu bạn có, nhưng quan trọng hơn, nó phụ thuộc vào chất lượng của các yếu tố dự đoán.
  2. Quy tắc 10 lần có thể là quy tắc ngón tay cái (và có nhiều quy tắc khác), nhưng nó thực sự phụ thuộc vào tiện ích dự đoán của các tính năng của bạn. Ví dụ, bộ dữ liệu iris khá nhỏ nhưng dễ dàng giải quyết, vì các tính năng mang lại sự phân tách tốt các mục tiêu. Ngược lại, bạn có thể có 10 triệu ví dụ và không phù hợp nếu các tính năng yếu.

Cảm ơn! Bạn cũng có thể gợi ý cho tôi một số giấy tờ hoặc bất kỳ tài liệu nào để đọc không?
DavideChicco.it
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.