Đường cơ sở của Nhật có nghĩa là gì trong bối cảnh học máy?


11

"Đường cơ sở" có nghĩa là gì trong bối cảnh học máy và khoa học dữ liệu?

Ai đó đã viết cho tôi:

Gợi ý: Một đường cơ sở thích hợp sẽ cho RMSE khoảng 200.

Tôi không hiểu điều này. Liệu anh ta có nghĩa là nếu mô hình dự đoán của tôi về dữ liệu đào tạo có RMSE dưới 500, thì tốt chứ?

Và những gì có thể là một "cách tiếp cận cơ bản"?

Câu trả lời:


15

Một đường cơ sở là kết quả của một mô hình / giải pháp rất cơ bản. Bạn thường tạo một đường cơ sở và sau đó cố gắng thực hiện các giải pháp phức tạp hơn để có được kết quả tốt hơn. Nếu bạn đạt được một số điểm tốt hơn so với đường cơ sở, nó là tốt.


tốt, nhưng điều đó có nghĩa gì chính xác cho quan điểm của tôi? Đối với hai trích dẫn của tôi
Meiiso

2
Vì đường cơ sở là 200, bạn muốn có điểm cao hơn. Trong trường hợp của bạn một điểm tốt hơn có nghĩa là càng thấp càng tốt. Bạn muốn đạt dưới 200. Tôi giả sử rằng bạn đang xử lý hồi quy. Điều đầu tiên để sử dụng cho đường cơ sở sẽ là một hồi quy bình phương nhỏ nhất bình thường.
Carl Rynegardh

8

Đường cơ sở là phương pháp sử dụng phương pháp phỏng đoán, thống kê tóm tắt đơn giản, tính ngẫu nhiên hoặc học máy để tạo dự đoán cho bộ dữ liệu. Bạn có thể sử dụng các dự đoán này để đo hiệu suất của đường cơ sở (ví dụ: độ chính xác) - số liệu này sau đó sẽ trở thành số liệu bạn so sánh với bất kỳ thuật toán học máy nào khác.

Chi tiết hơn:

Một thuật toán học máy cố gắng học một hàm mô hình mối quan hệ giữa dữ liệu đầu vào (tính năng) và biến mục tiêu (hoặc nhãn). Khi bạn kiểm tra nó, bạn thường sẽ đo hiệu suất theo cách này hay cách khác. Ví dụ, thuật toán của bạn có thể chính xác 75%. Nhưng điều này có nghĩa là gì? Bạn có thể suy ra ý nghĩa này bằng cách so sánh với hiệu suất của đường cơ sở.

Đường cơ sở điển hình bao gồm những đường được hỗ trợ bởi các công cụ ước tính "giả" của scikit-learn :

Phân loại đường cơ sở:

  • Phân tầng của người nổi tiếng: tạo ra các dự đoán bằng cách tôn trọng phân phối lớp của tập huấn luyện.
  • Hầu hết các trò chơi khác: luôn dự đoán nhãn thường xuyên nhất trong tập huấn luyện.
  • Trước ưu tiên: luôn dự đoán lớp tối đa hóa lớp trước.
  • Đồng phục của hoàng cung: tạo ra các dự đoán thống nhất một cách ngẫu nhiên.
  • Hằng số liên tục: luôn luôn dự đoán một nhãn không đổi được cung cấp bởi người dùng.

Điều này hữu ích cho các số liệu đánh giá một lớp không đa số.

Đường cơ sở hồi quy :

  • Trung bình của người Hồi giáo: luôn luôn dự đoán trung vị của tập huấn luyện
  • Định lượng lượng tử trực tuyến: luôn dự đoán một lượng tử xác định của tập huấn luyện, được cung cấp với tham số lượng tử.
  • Hằng số liên tục: luôn luôn dự đoán một giá trị không đổi được cung cấp bởi người dùng.

Nói chung, bạn sẽ muốn cách tiếp cận của bạn tốt hơn các đường cơ sở bạn đã chọn. Trong ví dụ trên, bạn sẽ muốn độ chính xác 75% của bạn cao hơn bất kỳ đường cơ sở nào bạn đã chạy trên cùng một dữ liệu.

Cuối cùng, nếu bạn đang làm việc với một lĩnh vực cụ thể của máy học (như hệ thống đề xuất), thì bạn thường sẽ chọn các đường cơ sở là phương pháp tiếp cận hiện đại (SoTA) - vì bạn thường muốn chứng minh rằng cách tiếp cận làm tốt hơn những điều này. Ví dụ, trong khi bạn đánh giá một thuật toán lọc cộng tác mới, bạn có thể muốn so sánh nó với nhân tố ma trận - bản thân nó là một thuật toán học tập, nhưng bây giờ là một cơ sở phổ biến vì nó đã rất thành công trong nghiên cứu hệ thống đề xuất.


0

Vì chúng ta có nhiều thuật toán học máy, chúng ta phải biết thuật toán ML nào phù hợp nhất cho vấn đề của chúng ta. Điều này sẽ được xác định bằng thuật toán Dự đoán đường cơ sở,

Một thuật toán dự đoán cơ sở cung cấp một tập hợp các dự đoán mà bạn có thể đánh giá giống như bất kỳ dự đoán nào cho vấn đề của bạn, chẳng hạn như độ chính xác phân loại hoặc RMSE.

Điểm số từ các thuật toán này cung cấp điểm so sánh cần thiết khi đánh giá tất cả các thuật toán học máy khác về vấn đề của bạn.

để biết thêm thông tin, chúng tôi có một blog rất hay về ML: "Đường cơ sở" nghĩa là gì trong bối cảnh học máy?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.