Ý nghĩa của thuật ngữ phương sai trong mô hình học máy là gì?


8

Tôi quen thuộc với các thuật ngữ thiên vị cao và phương sai cao và ảnh hưởng của chúng đối với mô hình.

Về cơ bản mô hình của bạn có phương sai cao khi nó quá phức tạp và nhạy cảm quá mức thậm chí là ngoại lệ.

Nhưng gần đây tôi đã được hỏi ý nghĩa của thuật ngữ Phương sai trong mô hình học máy trong một cuộc phỏng vấn?

Tôi muốn biết chính xác Variance có nghĩa là gì trong Mô hình ML và làm thế nào để nó được giới thiệu trong mô hình của bạn? Tôi thực sự sẽ đánh giá cao nếu ai đó có thể giải thích điều này với một ví dụ.


Phương sai trong thống kê cũng giống như phương sai trong ML. Đó là bởi vì ML là một thương hiệu thống kê.
Jon

Câu trả lời:


10

Đó là khá nhiều những gì bạn nói. Chính thức bạn có thể nói:

Phương sai, trong ngữ cảnh của Machine Learning, là một loại lỗi xảy ra do độ nhạy của mô hình đối với các dao động nhỏ trong tập huấn luyện.

Phương sai cao sẽ gây ra một thuật toán mô hình nhiễu trong tập huấn luyện. Điều này thường được gọi là quá mức .

Khi thảo luận về phương sai trong Machine Learning, chúng tôi cũng đề cập đến xu hướng .

Bias, trong ngữ cảnh của Machine Learning, là một loại lỗi xảy ra do các giả định sai lầm trong thuật toán học tập.

Độ lệch cao sẽ khiến thuật toán bỏ lỡ các mối quan hệ liên quan giữa các tính năng đầu vào và đầu ra đích. Điều này đôi khi được gọi là thiếu .

Mối quan hệ giữa sai lệch và phương sai:

Trong hầu hết các trường hợp, cố gắng giảm thiểu một trong hai lỗi này, sẽ dẫn đến việc tăng lỗi kia. Do đó, cả hai thường được coi là một sự đánh đổi .

Nguyên nhân của sai lệch / phương sai cao trong ML:

Yếu tố phổ biến nhất quyết định độ lệch / phương sai của mô hình là khả năng của nó (nghĩ về điều này như mức độ phức tạp của mô hình).

  • Các mô hình dung lượng thấp (ví dụ hồi quy tuyến tính), có thể bỏ lỡ các mối quan hệ có liên quan giữa các tính năng và mục tiêu, khiến chúng có độ lệch cao. Điều này thể hiện rõ ở hình bên trái.

  • Mặt khác, các mô hình dung lượng cao (ví dụ hồi quy đa thức bậc cao, mạng nơ ron có nhiều tham số) có thể mô hình một số nhiễu, cùng với bất kỳ mối quan hệ liên quan nào trong tập huấn luyện, khiến chúng có phương sai cao, như đã thấy trong hình bên phải

Làm thế nào để giảm phương sai trong một mô hình?

Cách dễ nhất và phổ biến nhất để giảm phương sai trong mô hình ML là áp dụng các kỹ thuật giới hạn khả năng hiệu quả của nó, tức là chính quy hóa .

Các hình thức chính quy phổ biến nhất là hình phạt định mức tham số , giới hạn các cập nhật tham số trong giai đoạn đào tạo; dừng lại sớm , mà cắt giảm đào tạo ngắn; cắt tỉa cho các thuật toán dựa trên cây; bỏ học cho các mạng thần kinh, vv

Một mô hình có thể có cả sai lệch thấp và phương sai thấp?

. Tương tự như vậy, một mô hình có thể có cả độ lệch cao và phương sai cao, như được minh họa trong hình dưới đây.

Làm thế nào chúng ta có thể đạt được cả sai lệch thấp và phương sai thấp?

Trong thực tế phương pháp nhất là:

  1. Chọn một thuật toán có công suất đủ cao để mô hình hóa đủ vấn đề. Trong giai đoạn này, chúng tôi muốn giảm thiểu sai lệch , vì vậy chúng tôi chưa quan tâm đến phương sai.
  2. Thường xuyên mô hình ở trên, để giảm thiểu phương sai của nó .

4

Phương sai là sự thay đổi độ chính xác dự đoán của mô hình ML giữa dữ liệu huấn luyện và dữ liệu thử nghiệm.

Đơn giản là điều đó có nghĩa là nếu một mô hình ML dự đoán với độ chính xác là "x" trên dữ liệu huấn luyện và độ chính xác dự đoán của nó trên dữ liệu thử nghiệm là "y" thì

Phương sai = x - y


1

Phương sai là sự thay đổi của dự đoán mô hình cho một điểm dữ liệu nhất định hoặc một giá trị cho chúng ta biết sự lan truyền dữ liệu của mình. Mô hình có phương sai cao sẽ chú ý nhiều đến dữ liệu huấn luyện và không khái quát hóa dữ liệu mà nó chưa từng thấy trước đây. Do đó, các mô hình như vậy thực hiện rất tốt trên dữ liệu đào tạo nhưng có tỷ lệ lỗi cao trên dữ liệu thử nghiệm.

Lỗi do phương sai

Lỗi do phương sai là số lượng dự đoán, trên một tập huấn luyện, khác với giá trị dự kiến ​​so với tất cả các tập huấn luyện. Trong học máy, các bộ dữ liệu đào tạo khác nhau sẽ dẫn đến ước tính khác nhau. Nhưng lý tưởng là nó không nên thay đổi quá nhiều giữa các bộ đào tạo. Tuy nhiên, nếu một phương pháp có phương sai cao thì những thay đổi nhỏ trong dữ liệu huấn luyện có thể dẫn đến những thay đổi lớn trong kết quả.

https://www.coursera.org/lecture/machine-learning/diagnose-bias-vs-variance-yCAup

https://towardsdatascience.com/under Hiểu-the-bias-variance-troffoff-16e6942b229

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.