Câu hỏi
- Nó phụ thuộc vào việc cây nông hay sâu? Hoặc chúng ta có thể nói điều này không phân biệt độ sâu / cấp độ của cây?
- Tại sao độ lệch thấp & phương sai cao? Hãy giải thích bằng trực giác và toán học
Câu hỏi
Câu trả lời:
Một chút muộn cho bữa tiệc nhưng tôi cảm thấy rằng câu hỏi này có thể sử dụng câu trả lời với các ví dụ cụ thể.
Tôi sẽ viết tóm tắt của bài viết xuất sắc này: bias-variance-Trade-off , giúp tôi hiểu chủ đề này.
Lỗi dự đoán cho bất kỳ thuật toán học máy nào có thể được chia thành ba phần:
Lỗi không thể sửa chữa
Như tên ngụ ý, là một thành phần lỗi mà chúng ta không thể sửa, bất kể thuật toán và đó là lựa chọn tham số. Lỗi không thể khắc phục là do sự phức tạp mà đơn giản là không được ghi lại trong tập huấn luyện. Đây có thể là các thuộc tính mà chúng ta không có trong bộ học tập nhưng chúng ảnh hưởng đến việc ánh xạ tới kết quả bất kể.
Lỗi thiên vị
Lỗi thiên vị là do các giả định của chúng tôi về chức năng đích. Chúng tôi càng đưa ra nhiều giả định (hạn chế) về các hàm mục tiêu, chúng tôi càng giới thiệu nhiều sai lệch. Các mô hình có độ lệch cao sẽ kém linh hoạt hơn vì chúng tôi đã áp đặt nhiều quy tắc hơn cho các hàm mục tiêu.
Lỗi phương sai
Lỗi phương sai là sự biến đổi của dạng hàm mục tiêu đối với các tập huấn luyện khác nhau. Các mô hình có lỗi phương sai nhỏ sẽ không thay đổi nhiều nếu bạn thay thế một vài mẫu trong tập huấn luyện. Các mô hình có phương sai cao có thể bị ảnh hưởng ngay cả với những thay đổi nhỏ trong tập huấn luyện.
Xem xét hồi quy tuyến tính đơn giản:
Y=b0+b1x
Rõ ràng, đây là một định nghĩa khá hạn chế của hàm mục tiêu và do đó mô hình này có độ lệch cao.
Mặt khác, do phương sai thấp nếu bạn thay đổi một vài mẫu dữ liệu, điều này không có khả năng sẽ gây ra những thay đổi lớn trong ánh xạ tổng thể mà hàm mục tiêu thực hiện. Mặt khác, thuật toán như k-lân cận-lân cận có phương sai cao và độ lệch thấp. Thật dễ dàng để tưởng tượng các mẫu khác nhau có thể ảnh hưởng đến bề mặt quyết định KNN như thế nào.
Nói chung, các thuật toán tham số có độ lệch cao và phương sai thấp và ngược lại.
Một trong những thách thức của học máy là tìm ra sự cân bằng đúng của lỗi sai lệch và sai lệch phương sai.
Cây quyết định
Bây giờ chúng ta đã có những định nghĩa này, thật đơn giản để thấy rằng các cây quyết định là ví dụ về mô hình với độ lệch thấp và phương sai cao. Cây hầu như không có giả định về chức năng đích nhưng nó rất dễ bị sai lệch trong dữ liệu.
Có các thuật toán tập hợp, chẳng hạn như tập hợp bootstrapping và rừng ngẫu nhiên, nhằm mục đích giảm phương sai với chi phí nhỏ của sai lệch trong cây quyết định.
Nếu số lượng mức quá cao tức là một cây quyết định phức tạp, mô hình có xu hướng quá phù hợp.
Theo trực giác, nó có thể được hiểu theo cách này. Khi có quá nhiều nút quyết định phải trải qua trước khi đi đến kết quả, nghĩa là số lượng nút phải đi qua trước khi đến các nút lá cao, các điều kiện mà bạn đang kiểm tra sẽ trở nên nhân lên. Nghĩa là, tính toán trở thành (điều kiện 1) && (điều kiện 2) && (điều kiện 3) && (điều kiện 4) && (điều kiện5) .
Chỉ khi tất cả các điều kiện được thỏa mãn, một quyết định được đưa ra. Như bạn có thể thấy, điều này sẽ hoạt động rất tốt cho tập huấn luyện khi bạn liên tục thu hẹp dữ liệu. Cây trở nên điều chỉnh cao với dữ liệu có trong tập huấn luyện.
Nhưng khi một điểm dữ liệu mới được cung cấp, ngay cả khi một trong các tham số bị lệch một chút, điều kiện sẽ không được đáp ứng và nó sẽ lấy sai nhánh.
Cây quyết định phức tạp (ví dụ sâu) có độ lệch thấp và phương sai cao. Sự đánh đổi sai lệch không phụ thuộc vào độ sâu của cây.
Cây quyết định rất nhạy cảm với nơi nó phân tách và cách phân chia. Do đó, ngay cả những thay đổi nhỏ trong giá trị biến đầu vào cũng có thể dẫn đến cấu trúc cây rất khác nhau.