Đường cơ sở là phương pháp sử dụng phương pháp phỏng đoán, thống kê tóm tắt đơn giản, tính ngẫu nhiên hoặc học máy để tạo dự đoán cho bộ dữ liệu. Bạn có thể sử dụng các dự đoán này để đo hiệu suất của đường cơ sở (ví dụ: độ chính xác) - số liệu này sau đó sẽ trở thành số liệu bạn so sánh với bất kỳ thuật toán học máy nào khác.
Chi tiết hơn:
Một thuật toán học máy cố gắng học một hàm mô hình mối quan hệ giữa dữ liệu đầu vào (tính năng) và biến mục tiêu (hoặc nhãn). Khi bạn kiểm tra nó, bạn thường sẽ đo hiệu suất theo cách này hay cách khác. Ví dụ, thuật toán của bạn có thể chính xác 75%. Nhưng điều này có nghĩa là gì? Bạn có thể suy ra ý nghĩa này bằng cách so sánh với hiệu suất của đường cơ sở.
Đường cơ sở điển hình bao gồm những đường được hỗ trợ bởi các công cụ ước tính "giả" của scikit-learn :
Phân loại đường cơ sở:
- Phân tầng của người nổi tiếng: tạo ra các dự đoán bằng cách tôn trọng phân phối lớp của tập huấn luyện.
- Hầu hết các trò chơi khác: luôn dự đoán nhãn thường xuyên nhất trong tập huấn luyện.
- Trước ưu tiên: luôn dự đoán lớp tối đa hóa lớp trước.
- Đồng phục của hoàng cung: tạo ra các dự đoán thống nhất một cách ngẫu nhiên.
- Hằng số liên tục: luôn luôn dự đoán một nhãn không đổi được cung cấp bởi người dùng.
Điều này hữu ích cho các số liệu đánh giá một lớp không đa số.
Đường cơ sở hồi quy :
- Trung bình của người Hồi giáo: luôn luôn dự đoán trung vị của tập huấn luyện
- Định lượng lượng tử trực tuyến: luôn dự đoán một lượng tử xác định của tập huấn luyện, được cung cấp với tham số lượng tử.
- Hằng số liên tục: luôn luôn dự đoán một giá trị không đổi được cung cấp bởi người dùng.
Nói chung, bạn sẽ muốn cách tiếp cận của bạn tốt hơn các đường cơ sở bạn đã chọn. Trong ví dụ trên, bạn sẽ muốn độ chính xác 75% của bạn cao hơn bất kỳ đường cơ sở nào bạn đã chạy trên cùng một dữ liệu.
Cuối cùng, nếu bạn đang làm việc với một lĩnh vực cụ thể của máy học (như hệ thống đề xuất), thì bạn thường sẽ chọn các đường cơ sở là phương pháp tiếp cận hiện đại (SoTA) - vì bạn thường muốn chứng minh rằng cách tiếp cận làm tốt hơn những điều này. Ví dụ, trong khi bạn đánh giá một thuật toán lọc cộng tác mới, bạn có thể muốn so sánh nó với nhân tố ma trận - bản thân nó là một thuật toán học tập, nhưng bây giờ là một cơ sở phổ biến vì nó đã rất thành công trong nghiên cứu hệ thống đề xuất.