Tôi nghĩ chìa khóa của phép thuật là sự mượt mà. Câu trả lời dài của tôi sau đây chỉ đơn giản là để giải thích về sự trơn tru này. Nó có thể hoặc không thể là một câu trả lời bạn mong đợi.
Câu trả lời ngắn:
Cho một hạt nhân xác định dương , tồn tại không gian hàm H tương ứng của nó . Các thuộc tính của hàm được xác định bởi kernel. Hóa ra nếu k là hạt nhân Gaussian thì các hàm trong H rất trơn tru. Vì vậy, một hàm đã học (ví dụ: hàm hồi quy, các thành phần chính trong RKHS như trong PCA kernel) rất trơn tru. Thông thường giả định độ mịn là hợp lý cho hầu hết các bộ dữ liệu mà chúng tôi muốn giải quyết. Điều này giải thích tại sao một hạt nhân Gaussian là ma thuật.kHkH
Câu trả lời dài cho lý do tại sao một nhân Gaussian cho các chức năng trơn tru:
Một tích cực nhất định hạt nhân xác định (ngầm) một sản phẩm bên trong k ( x , y ) = ⟨ φ ( x ) , φ ( y ) ⟩ H
cho tính năng vector φ ( x ) được xây dựng từ đầu vào của bạn x , và
H là một không gian Hilbert. Ký hiệu ⟨ φ ( x ) , φ ( y ) ⟩k(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩
có nghĩa là một sản phẩm bên trong giữa và ϕ ( y ) . Với mục đích của chúng tôi, bạn có thể tưởng tượng H là không gian Euclide thông thường nhưng có thể có số lượng kích thước không xác định. Hãy tưởng tượng vector bình thường mà là dài vô hạn như φ ( x ) = ( φ 1 ( x ) , φ 2 ( x ) , ... ) . Trong các phương thức kernel, Hϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),…)Hlà một không gian của các hàm được gọi là tái tạo không gian hạt nhân Hilbert (RKHS). Không gian này có một tài sản đặc biệt gọi là `` tái tạo tài sản '' mà là . Điều này nói rằng để đánh giá f ( x ) , trước tiên, bạn xây dựng một vectơ đặc trưng (dài vô hạn như đã đề cập) cho f . Sau đó, bạn xây dựng vector đặc trưng của bạn cho x được biểu thị bởi φ ( x ) (dài vô hạn). Đánh giá của f ( x )f(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)được đưa ra bằng cách lấy một sản phẩm bên trong của hai. Rõ ràng, trong thực tế, không ai sẽ xây dựng một vectơ dài vô hạn. Vì chúng tôi chỉ quan tâm đến sản phẩm bên trong của nó, chúng tôi chỉ trực tiếp đánh giá kernel . Bỏ qua việc tính toán các tính năng rõ ràng và tính toán trực tiếp sản phẩm bên trong của nó được gọi là "thủ thuật hạt nhân".k
Các tính năng là gì?
ϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩kk(x,y)=k(x−y)k^k
ff:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Vậy khi nào thì định mức này là hữu hạn, thuộc về không gian? Đó là khi giảm nhanh hơn để tổng hợp hội tụ. Bây giờ, biến đổi Fourier của hạt nhân Gaussianf 2 l k l k ( x , y ) = exp ( - ‖ x - y ‖ 2ff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
là một Gaussian khác trong đó giảm nhanh theo cấp số nhân với . Vì vậy, nếu ở trong không gian này, biến đổi Fourier của nó phải giảm nhanh hơn so với . Điều này có nghĩa là chức năng sẽ chỉ có một vài thành phần tần số thấp với trọng lượng cao. Một tín hiệu chỉ có các thành phần tần số thấp không '`lung lay' 'nhiều. Điều này giải thích tại sao một nhân Gaussian cung cấp cho bạn một chức năng trơn tru.lfkk^llfk
Thêm: Điều gì về một hạt nhân Laplace?
Nếu bạn xem xét hạt nhân Laplace ,
biến đổi Fourier của nó là phân phối Cauchy giảm chậm hơn nhiều so với hàm mũ hàm trong biến đổi Fourier của hạt nhân Gaussian. Điều này có nghĩa là một hàm sẽ có nhiều thành phần tần số cao hơn. Kết quả là, hàm được cung cấp bởi hạt nhân Laplace là '`rougher' 'hơn hàm được cung cấp bởi hạt nhân Gaussian.k(x,y)=exp(−∥x−y∥σ)f
Một thuộc tính của hạt nhân Gaussian mà các hạt nhân khác không có là gì?
Bất kể chiều rộng của Gaussian, một thuộc tính là hạt nhân Gaussian là '`phổ quát' '. Theo trực giác, điều này có nghĩa là, với hàm liên tục (tùy ý), tồn tại một hàm sao cho và
gần nhau (theo nghĩa của đến độ chính xác tùy ý cần thiết. Về cơ bản, điều này có nghĩa là nhân Gaussian cung cấp các hàm có thể xấp xỉ các hàm "đẹp" (giới hạn, liên tục) tùy ý. Hạt nhân Gaussian và Laplace là phổ quát. Một hạt nhân đa thức, ví dụ, là không.gf∈Hfg∥⋅∥∞)
Tại sao chúng ta không đặt tiêu chuẩn thông qua, giả sử, một tệp Cauchy và mong đợi kết quả tương tự?
Nói chung, bạn có thể làm bất cứ điều gì bạn thích miễn là kết quả
là dương. Độ chính xác dương được định nghĩa là
cho tất cả , và tất cả
(tập hợp các số tự nhiên) . Nếu không xác định dương, thì nó không tương ứng với không gian sản phẩm bên trong. Tất cả các phân tích bị phá vỡ vì bạn thậm chí không có một không gian các hàm
như đã đề cập. Tuy nhiên, nó có thể làm việc theo kinh nghiệm. Ví dụ: hạt nhân tiếp tuyến hyperbol (xem số 7 trên trang này )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
được dự định bắt chước các đơn vị kích hoạt sigmoid trong các mạng thần kinh, chỉ xác định dương cho một số cài đặt của và . Tuy nhiên, nó đã được báo cáo rằng nó hoạt động trong thực tế.αc
Còn các loại tính năng khác thì sao?
Tôi nói các tính năng không phải là duy nhất. Đối với nhân Gaussian, một bộ tính năng khác được cung cấp bởi sự mở rộng Mercer . Xem Phần 4.3.1 của cuốn sách quy trình Gaussian nổi tiếng . Trong trường hợp này, các tính năng là các đa thức Hermite được đánh giá tại .ϕ(x)x