Tại sao việc chuyển đổi dữ liệu thành một không gian đặc trưng chiều cao trong đó các lớp có thể phân tách tuyến tính dẫn đến quá mức?


10

Tôi đã đọc trong cuốn sách của mình (phân loại mẫu thống kê của Webb và Wiley) trong phần về SVM và dữ liệu tuyến tính không thể tách rời:

Trong nhiều vấn đề thực tế trong thế giới thực, sẽ không có ranh giới tuyến tính ngăn cách các lớp và vấn đề tìm kiếm một siêu phẳng tách biệt tối ưu là vô nghĩa. Ngay cả khi chúng ta sử dụng các vectơ đặc trưng tinh vi, , để chuyển đổi dữ liệu thành không gian đặc trưng chiều cao trong đó các lớp có thể phân tách tuyến tính, điều này sẽ dẫn đến việc khớp dữ liệu quá mức và do đó khả năng khái quát kém.Φ(x)

Tại sao việc chuyển đổi dữ liệu sang một không gian đặc trưng chiều cao trong đó các lớp có thể phân tách tuyến tính dẫn đến quá mức và khả năng khái quát kém?

Câu trả lời:


8

@ffriend có một bài viết hay về nó, nhưng nói chung, nếu bạn chuyển đổi sang không gian tính năng chiều cao và đào tạo từ đó, thuật toán học tập bị 'buộc' phải tính đến các tính năng không gian cao hơn, mặc dù chúng có thể không có gì để làm với dữ liệu gốc và không cung cấp các phẩm chất dự đoán.

Điều này có nghĩa là bạn sẽ không khái quát đúng quy tắc học tập khi đào tạo.

Lấy một ví dụ trực quan: Giả sử bạn muốn dự đoán cân nặng từ chiều cao. Bạn có tất cả dữ liệu này, tương ứng với trọng lượng và chiều cao của mọi người. Hãy để chúng tôi nói rằng rất chung chung, họ theo một mối quan hệ tuyến tính. Nghĩa là, bạn có thể mô tả cân nặng (W) và chiều cao (H) là:

W=mHb

mb

Hãy để chúng tôi nói rằng bạn là một nhà sinh vật học dày dạn và bạn biết rằng mối quan hệ là tuyến tính. Dữ liệu của bạn trông giống như một biểu đồ phân tán có xu hướng đi lên. Nếu bạn giữ dữ liệu trong không gian 2 chiều, bạn sẽ điều chỉnh một dòng qua nó. Nó có thể không đạt được tất cả các điểm, nhưng điều đó ổn - bạn biết rằng mối quan hệ là tuyến tính và dù sao bạn cũng muốn có một xấp xỉ tốt.

HH2H3H4H5H2+H7

ci

W=c1H+c2H2+c3H3+c4H4+c5H5+c6H2+H7

H2+H7

Đây là lý do tại sao nếu bạn chuyển đổi dữ liệu sang kích thước thứ tự cao hơn một cách mù quáng, bạn sẽ gặp rủi ro rất cao là quá mức và không khái quát hóa.


6

Giả sử chúng ta đang cố gắng tìm hàm xấp xỉ tập hợp các điểm 2D trên đồng bằng sử dụng hồi quy tuyến tính (về cơ bản là khá nhiều những gì SVM làm). Tại 3 hình ảnh bên dưới chữ thập đỏ là các quan sát (dữ liệu huấn luyện) và 3 đường màu xanh biểu thị các phương trình với mức độ đa thức khác nhau được sử dụng cho hồi quy.

nhập mô tả hình ảnh ở đây

Hình ảnh đầu tiên được tạo ra bởi phương trình tuyến tính. Như bạn có thể thấy, nó phản ánh điểm khá kém. Điều này được gọi là thiếu , bởi vì chúng tôi đã cho thuật toán học quá ít "mức độ tự do" (đa thức mức độ quá nhỏ). Hình ảnh thứ hai tốt hơn nhiều - chúng tôi đã sử dụng đa thức bậc hai và nó trông khá tốt. Tuy nhiên, nếu chúng ta tăng thêm "mức độ tự do", chúng ta sẽ có được hình ảnh thứ 3. Đường màu xanh ở ngay bên phải qua các đường chéo, nhưng bạn có tin rằng đường này thực sự mô tả sự phụ thuộc? Tôi không nghĩ vậy. Đúng, trên tập huấn, lỗi học tập (khoảng cách giữa đường chéo và đường thẳng) là rất nhỏ, nhưng nếu chúng ta thêm một lần quan sát (giả sử, từ dữ liệu thực), rất có thể lỗi cho nó sẽ lớn hơn nhiều so với việc chúng ta sử dụng phương trình từ giây hình ảnh. Hiệu ứng này được gọi là quá mứcxxx2x3. Nói tóm lại, bạn chia dữ liệu của bạn thành 10 phần, lấy 9 phần để đào tạo và 1 phần để xác thực. Nếu lỗi trên bộ xác thực cao hơn nhiều so với trên tàu, thì bạn đã bị quá mức. Hầu hết các thuật toán học máy sử dụng một số tham số (ví dụ: tham số của hạt nhân trong SVM) cho phép khắc phục tình trạng thừa. Ngoài ra, một từ khóa phổ biến ở đây là chính quy hóa - sửa đổi thuật toán ảnh hưởng trực tiếp đến quá trình tối ưu hóa, theo nghĩa đen là "không theo dõi dữ liệu đào tạo quá chặt chẽ".

BTW, tôi không chắc chắn rằng DSP là trang web phù hợp cho loại câu hỏi này, có lẽ bạn cũng sẽ quan tâm đến việc truy cập CrossValidated .


Đây là --stolen-- mượn từ các bài giảng video của Andrew Ng về Machine Learning. Trừ khi bạn là Tiến sĩ Ng. Trong trường hợp đó, bạn đang tìm kiếm một nghiên cứu sinh cho phòng thí nghiệm của bạn? (Các bài giảng có thể được tìm thấy trên coursera.com cho những ai quan tâm)
CyberMen

@CyberMen: nó đã bị đánh cắp từ images.google.com :) Nhưng vâng, ký hiệu rất giống với của Ng. Và tôi chắc chắn sẽ đề nghị khóa học của anh ấy (và các giấy tờ khác) để giới thiệu về học máy.

Tôi nghĩ DSP là nơi thích hợp cho các loại câu hỏi này, trong số các trang SE khác ít nhất.
Gigili

2

Bạn đã đọc thêm?

Cuối phần 6.3.10:

"Tuy nhiên, thường có các tham số của kernel phải được đặt và một lựa chọn kém có thể dẫn đến khái quát kém. Sự lựa chọn kernel tốt nhất cho một vấn đề nhất định không được giải quyết và các hạt nhân đặc biệt đã được dẫn xuất cho các vấn đề cụ thể, ví dụ như phân loại tài liệu "

dẫn chúng ta đến phần 6.3.3:

"Các hạt nhân được chấp nhận phải có thể biểu thị như một sản phẩm bên trong trong một không gian đặc trưng, ​​điều đó có nghĩa là chúng phải đáp ứng điều kiện của Mercer"

Hạt nhân theo khu vực khá khó khăn của riêng họ, bạn có thể có dữ liệu lớn trong đó ở các phần khác nhau nên áp dụng các tham số khác nhau, chẳng hạn như làm mịn, nhưng không biết chính xác khi nào. Do đó, điều này là khá khó khăn để khái quát.


Tôi đang đọc "4.2.5 Máy vectơ hỗ trợ" như tôi đã nói, tôi không biết bạn đang nói về phần 6 nào. Vì đoạn văn sau những gì tôi đề cập trong câu hỏi không có gì về nó, tôi nghĩ rằng tôi nên hỏi nó ở đây.
Gigili

Xin lỗi, tôi đã trộn nó với Nhận dạng mẫu thống kê cũng bởi Webb, cái mà tôi đang tìm kiếm ngay bây giờ và có cùng một chương.
sigrlami
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.