Trực giác đằng sau thực tế là một SVM với Hạt nhân Gaussian có không gian đặc trưng chiều nào?
Trực giác đằng sau thực tế là một SVM với Hạt nhân Gaussian có không gian đặc trưng chiều nào?
Câu trả lời:
Câu trả lời này giải thích như sau:
Luôn luôn có thể phân tách hoàn hảo với hạt nhân Gaussian (với điều kiện không có hai điểm nào từ các lớp khác nhau giống hệt nhau) vì các thuộc tính cục bộ của hạt nhân, dẫn đến ranh giới quyết định linh hoạt tùy ý. Đối với băng thông hạt nhân đủ nhỏ, ranh giới quyết định sẽ trông giống như bạn chỉ vẽ các vòng tròn nhỏ xung quanh các điểm bất cứ khi nào cần thiết để phân tách các ví dụ tích cực và tiêu cực:
(Tín dụng: Khóa học máy trực tuyến của Andrew Ng ).
Vì vậy, tại sao điều này xảy ra từ góc độ toán học?
Hãy xem xét thiết lập tiêu chuẩn: bạn có hạt nhân Gaussian và đào tạo dữ liệu ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ... , ( x ( n ) , nơi y ( i ) giá trị là ± 1 . Chúng tôi muốn tìm hiểu một chức năng phân loại
Bây giờ làm thế nào chúng ta sẽ chỉ định trọng lượng ? Chúng ta có cần không gian vô hạn và thuật toán lập trình bậc hai không? Không, bởi vì tôi chỉ muốn chứng tỏ rằng tôi có thể tách các điểm một cách hoàn hảo. Vì vậy, tôi làm σ một nhỏ hơn so với việc tách nhỏ tỷ lần | | x ( i ) - x ( j ) | | giữa bất kỳ hai ví dụ đào tạo nào và tôi chỉ đặt w i = 1 . Điều này có nghĩa rằng tất cả các điểm đào tạo là một tỷ sigmas ngoài xa như hạt nhân là có liên quan, và mỗi điểm hoàn toàn kiểm soát dấu hiệu của ytrong khu phố của nó. Chính thức, chúng tôi có
nơi là một số giá trị tùy tiện nhỏ. Chúng ta biết ε là rất nhỏ vì x ( k ) là một tỷ sigmas xa bất kỳ điểm nào khác, vì vậy cho tất cả i ≠ k chúng tôi có
Kể từ khi là quá nhỏ, y ( x ( k ) ) chắc chắn có dấu hiệu tương tự như y ( k ) , và phân loại đạt độ chính xác hoàn hảo trên dữ liệu huấn luyện.
Thực tế là điều này có thể được hiểu là "phân tách tuyến tính hoàn hảo trong không gian đặc trưng chiều vô hạn" xuất phát từ thủ thuật kernel, cho phép bạn diễn giải kernel như một sản phẩm bên trong trong không gian tính năng (có khả năng vô hạn):
nơi là ánh xạ từ không gian dữ liệu vào không gian đặc trưng. Nó sau ngay lập tức rằng y ( x ) có chức năng như một hàm tuyến tính trong không gian đặc trưng:
trong đó hàm tuyến tính được xác định trên các vectơ không gian đặc trưng v là
Hàm này là tuyến tính trong vì nó chỉ là sự kết hợp tuyến tính của các sản phẩm bên trong với các vectơ cố định. Trong không gian đặc trưng, ranh giới quyết định y ( x ) = 0 chỉ là L ( v ) = 0 , tập mức của một hàm tuyến tính. Đây là định nghĩa của một siêu phẳng trong không gian tính năng.
Lưu ý: Trong phần này, ký hiệu đề cập đến một tập hợp n điểmtùy ývà không phải dữ liệu huấn luyện. Đây là toán học thuần túy; dữ liệu đào tạo không nằm trong phần này!
Phương pháp hạt nhân chưa bao giờ thực sự "tìm thấy" hoặc "tính toán" không gian đặc trưng hoặc ánh xạ một cách rõ ràng. Các phương pháp học hạt nhân như SVM không cần chúng để làm việc; họ chỉ cần hàm nhân K .
Điều đó nói rằng, người ta có thể viết ra một công thức cho . Không gian tính năng Φ ánh xạ là loại trừu tượng (và có khả năng vô hạn chiều), nhưng về cơ bản, ánh xạ chỉ là sử dụng hạt nhân để thực hiện một số kỹ thuật tính năng đơn giản. Về kết quả cuối cùng, mô hình mà bạn kết thúc học, sử dụng hạt nhân không khác gì kỹ thuật tính năng truyền thống được áp dụng phổ biến trong hồi quy tuyến tính và mô hình GLM, như lấy nhật ký của biến dự báo dương trước khi đưa nó vào công thức hồi quy. Toán học chủ yếu chỉ ở đó để giúp đảm bảo hạt nhân chơi tốt với thuật toán SVM, có lợi thế được khoe khoang về độ thưa và tỷ lệ tốt cho các bộ dữ liệu lớn.
Nếu bạn vẫn quan tâm, đây là cách nó hoạt động. Về cơ bản, chúng tôi mất bản sắc chúng tôi muốn giữ, , và xây dựng một không gian và sản phẩm bên trong như vậy mà nó giữ theo định nghĩa. Để làm điều này, chúng ta định nghĩa một bản tóm tắt không gian vector V trong đó mỗi vector là một hàm từ không gian cuộc sống dữ liệu trong, X , với số thực R . Vectơ f trong V là một hàm được hình thành từ sự kết hợp tuyến tính hữu hạn của các lát nhân: f ( x Đó là thuận lợi để ghi f gọn hơn là f =
Sản phẩm bên trong không gian không phải là sản phẩm chấm thông thường, mà là sản phẩm bên trong trừu tượng dựa trên nhân:
Với không gian đặc trưng được xác định theo cách này, là một ánh xạ X → V , lấy mỗi điểm x đến "lát hạt nhân" tại thời điểm đó:
Bạn có thể chứng minh rằng là không gian sản phẩm bên trong khi K là hạt nhân xác định dương. Xem bài viết này để biết chi tiết. (Kudos cho f coppens vì đã chỉ ra điều này!)
Câu trả lời này đưa ra một lời giải thích đại số tuyến tính tốt đẹp, nhưng đây là một viễn cảnh hình học, với cả trực giác và bằng chứng.
Đối với bất kỳ điểm cố định , chúng ta có hàm lát nhân K z ( x ) = K ( z , x ) . Đồ thị của K z chỉ là một vết sưng Gaussian tập trung tại z. Bây giờ, nếu không gian đặc trưng chỉ là chiều hữu hạn, điều đó có nghĩa là chúng ta có thể lấy một bộ va chạm hữu hạn tại một tập hợp các điểm cố định và tạo thành bất kỳ vết sưng Gaussian nào ở bất kỳ nơi nào khác. Nhưng rõ ràng không có cách nào chúng ta có thể làm điều này; bạn không thể tạo ra một vết sưng mới từ những vết sưng cũ, bởi vì vết sưng mới có thể thực sự khác xa với vết sưng cũ. Vì vậy, cho dù chúng ta có bao nhiêu vectơ đặc trưng (bumps), chúng ta luôn có thể thêm các bumps mới và trong không gian tính năng, đây là các vectơ độc lập mới. Vì vậy, không gian tính năng không thể là chiều hữu hạn; nó phải là vô hạn
Chúng tôi sử dụng cảm ứng. Giả sử bạn có một bộ tùy ý các điểm như vậy mà vectơ Φ ( xđộc lập tuyến tính trong không gian đặc trưng. Bây giờ hãy tìm một điểm x ( n + 1 ) khác biệt vớinđiểm này, trên thực tế là một tỷ sigmas cách xa tất cả chúng. Chúng tôi cho rằngΦ( x ( n + 1 ) )là tuyến tính độc lập từ đầu vectơ tính năng Φ ( x ( i ) ) .
Chứng minh bằng mâu thuẫn. Giả sử ngược lại
Bây giờ lấy sản phẩm bên trong ở cả hai bên với một tùy ý . Bởi bản sắc ⟨ Φ ( z ) , Φ ( x ) ⟩ = K ( z , x ) , ta được
Ở đây là một biến tự do, vì vậy phương trình này là một danh tính cho biết hai hàm giống nhau. Cụ thể, nó nói rằng một Gaussian tập trung tại x ( n + 1 ) có thể được biểu diễn dưới dạng kết hợp tuyến tính của Gaussian tại các điểm khác x ( i ) . Rõ ràng về mặt hình học, người ta không thể tạo ra một vết sưng Gauss tập trung tại một điểm từ sự kết hợp hữu hạn của các va chạm Gaussian tập trung tại các điểm khác, đặc biệt khi tất cả các va chạm Gaussian khác cách xa một tỷ sigmas. Vì vậy, giả định của chúng tôi về sự phụ thuộc tuyến tính đã dẫn đến một mâu thuẫn, như chúng tôi đặt ra để hiển thị.
Ma trận hạt nhân của hạt nhân Gaussian luôn có thứ hạng đầy đủ cho . Điều này có nghĩa là mỗi lần bạn thêm một ví dụ mới, thứ hạng sẽ tăng thêm 1 . Cách dễ nhất để thấy điều này nếu bạn đặt σ rất nhỏ. Sau đó, ma trận hạt nhân gần như là đường chéo.
Thực tế là cấp bậc luôn tăng bởi một phương tiện mà tất cả các dự trong không gian đặc trưng là tuyến tính độc lập (không trực giao, nhưng độc lập). Do đó, mỗi ví dụ thêm một chiều mới cho khoảng của các hình chiếu Φ ( x 1 ) , . . . , Φ ( x m ) . Vì bạn có thể thêm vô số ví dụ vô hạn, không gian tính năng phải có kích thước vô hạn. Thật thú vị, tất cả các hình chiếu của không gian đầu vào vào không gian đặc trưng đều nằm trên một hình cầu, vì | | Φ ( x ) | |. Tuy nhiên, hình dạng của hình cầu là phẳng. Bạn có thể đọc thêm về điều đó trong
Burges, CJC (1999). Hình học và bất biến trong các phương pháp dựa trên hạt nhân. Trong B. Schölkopf, CJC Burges, & AJ Smola (Eds.), Những tiến bộ trong phương pháp hạt nhân hỗ trợ việc học vectơ (trang 89 phản ứng). Báo chí MIT.
Đối với nền và các ký hiệu tôi tham khảo câu trả lời Làm thế nào để tính ranh giới quyết định từ các vectơ hỗ trợ? .
Vì vậy, các tính năng trong không gian 'gốc' là các vectơ , kết quả nhị phân y i ∈ { - 1 , + 1 } và các số nhân Lagrange là α i .
Được biết, các hạt nhân có thể được viết như (' ' đại diện cho sản phẩm bên trong.) Trường hợp Φ là một (ngầm và chưa biết) chuyển đến một tính năng mới không gian.
Tôi sẽ cố gắng đưa ra một số lời giải thích 'trực quan' về những gì vẻ thích, vì vậy câu trả lời này là không có bằng chứng chính thức, nó chỉ muốnđưa ra một số cảm giác như thế nào tôi nghĩ rằng tác phẩm này. Đừng ngần ngại sửa tôi nếu tôi sai. Cơ sở cho lời giải thích của tôi là phần 2.2.1 củapdf này
Tôi phải 'biến đổi' không gian tính năng của mình (vì vậy ) của tôi thành không gian tính năng 'mới' trong đó phân tách tuyến tính sẽ được giải quyết.
Đối với mỗi quan sát , tôi xác định các hàm ϕ i ( x ) = K ( x i , x ) , vì vậy tôi có một hàm ϕ i cho mỗi phần tử của mẫu đào tạo của tôi. Những chức năng φ i trải rộng trên một không gian vectơ. Không gian véc tơ kéo dài bởi φ i , lưu ý nó V = s p một n ( φ i , i = 1 , 2 , ... N ) . ( N là kích thước của mẫu đào tạo).
Tôi sẽ cố gắng tranh luận rằng không gian vectơ này là không gian vectơ trong đó có thể phân tách tuyến tính. Theo định nghĩa của nhịp, mỗi vector trong không gian vector có thể được viết như là một sự kết hợp tuyến tính của φ i , tức là: Σ N i = 1 γ i φ i , nơi γ i là số thực. Vì vậy, trên thực tế, V = { v = Σ N i = 1 γ i φ i | ( Γ 1 , γ
namely !
The are known from our observations, the are the Lagrange multipliers that the SVM has found. In other words SVM find, through the use of a kernel and by solving a quadratic programming problem, a linear separation in the -spave.
This is my intuitive understanding of how the 'kernel trick' allows one to 'implicitly' transform the original feature space into a new feature space , with a different dimension. This dimension depends on the kernel you use and for the RBF kernel this dimension can go up to the size of the training sample. As training samples may have any size this could go up to 'infinite'. Obviously, in very high dimensional spaces the risk of overfitting will increase.
So kernels are a technique that allows SVM to transform your feature space , see also What makes the Gaussian kernel so magical for PCA, and also in general?
Unfortunately, fcop's explanation is quite incorrect. First of all he says "It is known that the Kernel can be written as... where ... is an (implicit and unknown) transformation to a new feature space." It's NOT unknown. This is in fact the space the features are mapped to and this is the space that could be infinite dimensional like in the RBF case. All the kernel does is take the inner product of that transformed feature vector with a transformed feature vector of a training example and applies some function to the result. Thus it implicitly represents this higher dimensional feature vector. Think of writing (x+y)^2 instead of x^2+2xy+y^2 for example. Now think what infinite series is represented implicitly by the exponential function... there you have your infinite feature space. This has absolutely nothing to do with the fact that your training set could be infinitely large.
The right way to think about SVMs is that you map your features to a possibly infinite dimensional feature space which happens to be implicitly representable in yet another finite dimensional "Kernel" feature space whose dimension could be as large as the training set size.