Điều gì làm cho hạt nhân Gaussian trở nên kỳ diệu cho PCA, và nói chung?

67

Tôi đã đọc về kernel PCA ( 1 , 2 , 3 ) với các hạt nhân Gaussian và đa thức.

Làm thế nào để hạt nhân Gaussian tách biệt dường như bất kỳ loại dữ liệu phi tuyến nào đặc biệt tốt? Vui lòng đưa ra một phân tích trực quan, cũng như một phân tích liên quan đến toán học nếu có thể.
Thuộc tính của hạt nhân Gaussian (với lý tưởng $\sigma$ ) mà các hạt nhân khác không có là gì? Mạng lưới thần kinh, SVM và mạng RBF xuất hiện trong tâm trí.
Tại sao chúng ta không đặt tiêu chuẩn thông qua, giả sử, một Cau Cau PDF và mong đợi kết quả tương tự?

— Simon Kuang
nguồn

1

+1. Câu hỏi tuyệt vời mà tôi gần như bỏ qua, vì nó không có thẻ [pca]! Chỉnh sửa ngay.

— amip nói phục hồi Monica

4

Câu hỏi hay. Tôi tự hỏi liệu câu trả lời có thể là "oh yeah, nhiều hạt nhân khác cũng sẽ hoạt động tốt nhưng gaussian rất nổi tiếng / dễ dàng"

— Stumpy Joe Pete

@StumpyJoePete Tôi không nghĩ đó là một câu trả lời tầm thường. Thông số vị trí của phân phối khác cũng có nghĩa là gì? Những gì tham số quy mô phân phối khác cũng là phương sai của nó? Những gì phân phối khác là rất trực quan? Chắc chắn không phải là bản phân phối Cauchy - nó thậm chí không có ý nghĩa!

— Shadowtalker

3

@ssdecontrol Tôi rất vui khi được chứng minh là sai; Tôi đã đưa ra cả câu hỏi và một trong những câu trả lời - Tôi chỉ nghĩ rằng câu trả lời nhàm chán, tẻ nhạt, giảm phát của mình làm cho một mặc định tốt mà một câu trả lời thực sự phải từ chối.

— Stumpy Joe Pete

Tôi nghĩ rằng điều này có thể giúp: stats.stackexchange.com/questions/168051/ cấp

54

Tôi nghĩ chìa khóa của phép thuật là sự mượt mà. Câu trả lời dài của tôi sau đây chỉ đơn giản là để giải thích về sự trơn tru này. Nó có thể hoặc không thể là một câu trả lời bạn mong đợi.

Câu trả lời ngắn:

Cho một hạt nhân xác định dương , tồn tại không gian hàm tương ứng của nó . Các thuộc tính của hàm được xác định bởi kernel. Hóa ra nếu là hạt nhân Gaussian thì các hàm trong rất trơn tru. Vì vậy, một hàm đã học (ví dụ: hàm hồi quy, các thành phần chính trong RKHS như trong PCA kernel) rất trơn tru. Thông thường giả định độ mịn là hợp lý cho hầu hết các bộ dữ liệu mà chúng tôi muốn giải quyết. Điều này giải thích tại sao một hạt nhân Gaussian là ma thuật. $k$ $\mathcal{H}$ $k$ $\mathcal{H}$

Câu trả lời dài cho lý do tại sao một nhân Gaussian cho các chức năng trơn tru:

Một tích cực nhất định hạt nhân xác định (ngầm) một sản phẩm bên trong cho tính năng vector được xây dựng từ đầu vào của bạn , và là một không gian Hilbert. Ký hiệu $k(x,y)$ $k(x,y)=\left\langle \phi(x),\phi(y)\right\rangle _{\mathcal{H}}$ $\phi(x)$ $x$ $\mathcal{H}$ $\left\langle \phi(x),\phi(y)\right\rangle$ có nghĩa là một sản phẩm bên trong giữa và . Với mục đích của chúng tôi, bạn có thể tưởng tượng là không gian Euclide thông thường nhưng có thể có số lượng kích thước không xác định. Hãy tưởng tượng vector bình thường mà là dài vô hạn như . Trong các phương thức kernel, $\phi(x)$ $\phi(y)$ $\mathcal{H}$ $\phi(x)=\left(\phi_{1}(x),\phi_{2}(x),\ldots\right)$ $\mathcal{H}$ là một không gian của các hàm được gọi là tái tạo không gian hạt nhân Hilbert (RKHS). Không gian này có một tài sản đặc biệt gọi là `` tái tạo tài sản '' mà là . Điều này nói rằng để đánh giá , trước tiên, bạn xây dựng một vectơ đặc trưng (dài vô hạn như đã đề cập) cho . Sau đó, bạn xây dựng vector đặc trưng của bạn cho được biểu thị bởi (dài vô hạn). Đánh giá của $f(x)=\left\langle f,\phi(x)\right\rangle$ $f(x)$ $f$ $x$ $\phi(x)$ $f(x)$ được đưa ra bằng cách lấy một sản phẩm bên trong của hai. Rõ ràng, trong thực tế, không ai sẽ xây dựng một vectơ dài vô hạn. Vì chúng tôi chỉ quan tâm đến sản phẩm bên trong của nó, chúng tôi chỉ trực tiếp đánh giá kernel . Bỏ qua việc tính toán các tính năng rõ ràng và tính toán trực tiếp sản phẩm bên trong của nó được gọi là "thủ thuật hạt nhân". $k$

Các tính năng là gì?

$\phi_{1}(x),\phi_{2}(x),\ldots$ $k$ $\left\langle \phi(x),\phi(y)\right\rangle$ $k$ $k(x,y)=k(x-y)$ $\hat{k}$ $k$

$f$ $f:=\left(\cdots,\hat{f}_{l}/\sqrt{\hat{k}_{l}},\cdots\right)$ $f$ $k$ $x$ $\phi(x)$ $\left(\cdots,\sqrt{\hat{k}_{l}}\exp\left(-ilx\right),\cdots\right)$ $i=\sqrt{-1}$

$f\in\mathcal{H}$

$\|f\|_{\mathcal{H}}^{2}=\left\langle f,f\right\rangle _{\mathcal{H}}=\sum_{l=-\infty}^{\infty}\frac{\hat{f}_{l}^{2}}{\hat{k}_{l}}.$

Vậy khi nào thì định mức này là hữu hạn, thuộc về không gian? Đó là khi giảm nhanh hơn để tổng hợp hội tụ. Bây giờ, biến đổi Fourier của hạt nhân Gaussian $f$ $\hat{f}_{l}^{2}$ $\hat{k}_{l}$ $k(x,y)=\exp\left(-\frac{\|x-y\|^{2}}{\sigma^{2}}\right)$

là một Gaussian khác trong đó giảm nhanh theo cấp số nhân với . Vì vậy, nếu ở trong không gian này, biến đổi Fourier của nó phải giảm nhanh hơn so với . Điều này có nghĩa là chức năng sẽ chỉ có một vài thành phần tần số thấp với trọng lượng cao. Một tín hiệu chỉ có các thành phần tần số thấp không '`lung lay' 'nhiều. Điều này giải thích tại sao một nhân Gaussian cung cấp cho bạn một chức năng trơn tru. $\hat{k}_{l}$ $l$ $f$ $k$

Thêm: Điều gì về một hạt nhân Laplace?

Nếu bạn xem xét hạt nhân Laplace , biến đổi Fourier của nó là phân phối Cauchy giảm chậm hơn nhiều so với hàm mũ hàm trong biến đổi Fourier của hạt nhân Gaussian. Điều này có nghĩa là một hàm sẽ có nhiều thành phần tần số cao hơn. Kết quả là, hàm được cung cấp bởi hạt nhân Laplace là '`rougher' 'hơn hàm được cung cấp bởi hạt nhân Gaussian. $k(x,y)=\exp\left(-\frac{\|x-y\|}{\sigma}\right)$ $f$

Một thuộc tính của hạt nhân Gaussian mà các hạt nhân khác không có là gì?

Bất kể chiều rộng của Gaussian, một thuộc tính là hạt nhân Gaussian là '`phổ quát' '. Theo trực giác, điều này có nghĩa là, với hàm liên tục (tùy ý), tồn tại một hàm sao cho và gần nhau (theo nghĩa của đến độ chính xác tùy ý cần thiết. Về cơ bản, điều này có nghĩa là nhân Gaussian cung cấp các hàm có thể xấp xỉ các hàm "đẹp" (giới hạn, liên tục) tùy ý. Hạt nhân Gaussian và Laplace là phổ quát. Một hạt nhân đa thức, ví dụ, là không. $g$ $f\in\mathcal{H}$ $f$ $g$ $\|\cdot\|_{\infty})$

Tại sao chúng ta không đặt tiêu chuẩn thông qua, giả sử, một tệp Cauchy và mong đợi kết quả tương tự?

Nói chung, bạn có thể làm bất cứ điều gì bạn thích miễn là kết quả là dương. Độ chính xác dương được định nghĩa là cho tất cả , và tất cả (tập hợp các số tự nhiên) . Nếu không xác định dương, thì nó không tương ứng với không gian sản phẩm bên trong. Tất cả các phân tích bị phá vỡ vì bạn thậm chí không có một không gian các hàm như đã đề cập. Tuy nhiên, nó có thể làm việc theo kinh nghiệm. Ví dụ: hạt nhân tiếp tuyến hyperbol (xem số 7 trên trang này ) $k$ $\sum_{i=1}^{N}\sum_{j=1}^{N}k(x_{i},x_{j})\alpha_{i}\alpha_{j}>0$ $\alpha_{i}\in\mathbb{R}$ $\{x_{i}\}_{i=1}^{N}$ $N\in\mathbb{N}$ $k$ $\mathcal{H}$

$k(x,y) = tanh(\alpha x^\top y + c)$

được dự định bắt chước các đơn vị kích hoạt sigmoid trong các mạng thần kinh, chỉ xác định dương cho một số cài đặt của và . Tuy nhiên, nó đã được báo cáo rằng nó hoạt động trong thực tế. $\alpha$ $c$

Còn các loại tính năng khác thì sao?

Tôi nói các tính năng không phải là duy nhất. Đối với nhân Gaussian, một bộ tính năng khác được cung cấp bởi sự mở rộng Mercer . Xem Phần 4.3.1 của cuốn sách quy trình Gaussian nổi tiếng . Trong trường hợp này, các tính năng là các đa thức Hermite được đánh giá tại . $\phi(x)$ $x$

— wij
nguồn

2

Tôi chưa định thưởng tiền thưởng nhưng tôi rất muốn trao giải cho câu trả lời này, bởi vì nó rất nhắm đến câu hỏi và so sánh rõ ràng với các hạt nhân khác

— Shadowtalker

Cuối cùng câu hỏi này đã có một câu trả lời tuyệt vời! (+1) Tôi đã bối rối trong một thời gian ngắn với ký hiệu bạn đã sử dụng ở đây: - và trong các đoạn sau. Sẽ không có ký hiệu rõ ràng hơn rõ ràng hơn bằng cách tách một hàm hoạt động trên không gian ban đầu và một vectơ , trong đó là một chức năng? Nhân tiện, chức năng nào được đảm bảo được "sao chép" bởi "tài sản sao chép"? Tất cả? Tiếp diễn? Trơn tru?

f (x) = ⟨ f, ϕ (x) ⟩

$f(x)=\left\langle f,\phi(x)\right\rangle$

f (x) = ⟨ Ψ (f), ϕ (x) ⟩

$f(x)=\left\langle \Psi(f),\phi(x)\right\rangle$

f (\cdot)

$f(\cdot)$

Ψ (f) \in H

$\Psi(f) \in \mathcal H$

Ψ (\cdot)

$\Psi(\cdot)$

— amip nói rằng Phục hồi lại

@amoeba Trong tài liệu, người ta không phân biệt đại diện của và chính chức năng. Nếu cần, đôi khi họ sử dụng để biểu diễn và cho một hàm. Tất cả các hàm trong không gian đều có thuộc tính sao chép. Mịn hay không, được chỉ định bởi kernel. :)

f

$f$

f

$f$

f (\cdot)

$f(\cdot)$

H

$\mathcal{H}$

— wij

Cập nhật bài viết. Đã thêm một chút về nhân tanh.

— wij

Hmmm, tôi nghĩ rằng tôi đang bối rối ở đây. Chúng tôi bắt đầu với một không gian vectơ , nơi các điểm dữ liệu sống. Sau đó, chúng tôi chọn một tích cực nhất định hạt nhân . Sau đó, chúng tôi cho rằng Định lý 1 giữ: có thể được nhận ra dưới dạng một sản phẩm chấm trên một số không gian Hilbert , sao cho , trong đó . Được chứ. Và bây giờ bạn nói rằng bất kỳ hàm hoạt động trên đều có thể được coi là một sản phẩm vô hướng của biểu diễn

X

$\mathcal X$

x

$x$

k (\cdot, \cdot) : X \times X \to R

$k(\cdot, \cdot): \mathcal X \times \mathcal X \to \mathbb R$

k

$k$

H

$\mathcal H$

k (x, y) = ⟨ ϕ (x), ϕ (y) ⟩

$k(x,y) = \langle \phi(x), \phi(y)\rangle$

ϕ : X \to H

$\phi:\mathcal X \to \mathcal H$

f (x)

$f(x)$

X

$\mathcal X$

f \in H

$f\in \mathcal H$ với ? Thê nay đung không?

ϕ (x)

$\phi(x)$

— amip nói rằng Phục hồi lại

18

Tôi sẽ cố hết sức để trả lời câu hỏi này không phải vì tôi là một chuyên gia về chủ đề này (hoàn toàn ngược lại), mà bởi vì tôi tò mò về lĩnh vực và chủ đề, kết hợp với một ý tưởng rằng đó có thể là một kinh nghiệm giáo dục tốt . Dù sao, đây là kết quả của nghiên cứu nghiệp dư ngắn gọn của tôi về chủ đề này.

TL; DR : Tôi sẽ xem xét đoạn văn sau từ tài liệu nghiên cứu "Mối liên hệ giữa các toán tử chính quy và các vectơ hỗ trợ" là câu trả lời ngắn cho câu hỏi này:

Hạt nhân Gaussian có xu hướng mang lại hiệu suất tốt theo các giả định về độ mịn chung và nên được xem xét đặc biệt nếu không có kiến thức bổ sung về dữ liệu.

Bây giờ, một câu trả lời chi tiết (theo sự hiểu biết tốt nhất của tôi; để biết chi tiết toán học, vui lòng sử dụng tài liệu tham khảo).

Như chúng ta đã biết, phân tích thành phần chính (PCA) là một cách tiếp cận rất phổ biến để giảm kích thước , một mình và để phân loại dữ liệu tiếp theo: http://www.visiondummy.com/2014/05/feature-extraction-USE-pca . Tuy nhiên, trong các tình huống, khi dữ liệu mang các phụ thuộc phi tuyến tính (nói cách khác, không thể tách rời tuyến tính ), PCA truyền thống không được áp dụng (không hoạt động tốt). Đối với những trường hợp đó, các phương pháp khác có thể được sử dụng và PCA phi tuyến tính là một trong số đó.

Phương pháp tiếp cận, trong đó PCA dựa trên việc sử dụng chức năng kernel thường được đề cập, sử dụng thuật ngữ ô "kernel PCA" ( kPCA ). Sử dụng hạt nhân hàm cơ sở Gaussian (RBF) có lẽ là biến thể phổ biến nhất. Cách tiếp cận này được mô tả chi tiết trong nhiều nguồn, nhưng tôi rất thích một lời giải thích tuyệt vời của Sebastian Raschka trong bài đăng trên blog này . Tuy nhiên, trong khi đề cập đến khả năng sử dụng các hàm kernel, ngoài Gaussian RBF, bài đăng tập trung vào cái sau do tính phổ biến của nó. Bài đăng trên blog tuyệt vời này , giới thiệu các xấp xỉ kernel và thủ thuật kernel , đề cập đến một lý do có thể khác cho sự phổ biến của nhân Gaussian cho PCA: chiều vô hạn.

Những hiểu biết bổ sung có thể được tìm thấy trong một số câu trả lời trên Quora. Cụ thể, đọc cuộc thảo luận tuyệt vời này cho thấy một số điểm về lý do tiềm năng của sự phổ biến của hạt nhân Gaussian, như sau.

Hạt nhân Gaussian là phổ quát :

Các hạt nhân Gaussian là các hạt nhân phổ quát, nghĩa là việc sử dụng chúng với chính quy hóa phù hợp đảm bảo một công cụ dự đoán tối ưu toàn cầu, giúp giảm thiểu cả các lỗi ước lượng và xấp xỉ của một bộ phân loại.

Hạt nhân Gaussian là hình tròn (dẫn đến chiều vô hạn nêu trên?)
Hạt nhân Gaussian có thể đại diện cho "địa hình rất khác nhau"
Điểm sau đây, hỗ trợ cho kết luận chính ở trên, được cung cấp tốt hơn bằng cách trích dẫn tác giả:

Hạt nhân Gaussian RBF rất phổ biến và tạo ra một hạt nhân mặc định tốt, đặc biệt là không có kiến thức chuyên môn về dữ liệu và miền vì nó cũng loại bỏ hạt nhân đa thức và tuyến tính. Hạt nhân tuyến tính và hạt nhân đa thức là một trường hợp đặc biệt của hạt nhân Gaussian RBF. Các hạt nhân Gaussian RBF là mô hình không tham số, về cơ bản có nghĩa là độ phức tạp của mô hình là vô hạn vì số lượng các hàm phân tích là vô hạn.

Hạt nhân Gaussian là tối ưu (về độ mịn , đọc thêm ở đây - cùng tác giả):

Một hạt nhân Gaussian chỉ là một bộ lọc thông dải; nó chọn giải pháp trơn tru nhất. [...] Một hạt nhân Gaussian hoạt động tốt nhất khi tổng vô hạn của các đạo hàm bậc cao hội tụ nhanh nhất - và điều đó xảy ra đối với các giải pháp trơn tru nhất.

Cuối cùng, điểm bổ sung từ câu trả lời tốt đẹp này :

Hạt nhân Gaussian hỗ trợ các mô hình phức tạp vô hạn
Hạt nhân Gaussian linh hoạt hơn

GHI CHÚ:

Điểm được tham chiếu ở trên về hạt nhân Gaussian là lựa chọn tối ưu , đặc biệt là khi không có kiến thức trước về dữ liệu, được hỗ trợ bởi câu sau từ câu trả lời CV này :

Trong trường hợp không có kiến thức chuyên môn, hạt nhân Radial Basis Function tạo ra một hạt nhân mặc định tốt (một khi bạn đã thiết lập thì đó là một vấn đề đòi hỏi một mô hình phi tuyến tính).

Đối với những người tò mò về sự khác biệt không thiết yếu giữa hạt nhân Gaussian RBF và hạt nhân Gaussian tiêu chuẩn, câu trả lời này có thể được quan tâm: https://stats.stackexchange.com/a/79193/31372 .

Đối với những người quan tâm đến việc triển khai kPCA cho niềm vui hoặc kinh doanh, bài đăng blog tốt đẹp này có thể hữu ích. Nó được viết bởi một trong những tác giả (người tạo?) Của Accord.NET - một khung công tác mã nguồn mở .NET rất thú vị để phân tích thống kê, học máy, xử lý tín hiệu và nhiều hơn nữa.

— Alexanderr Blekh
nguồn

5

Tôi đánh giá cao và hoan nghênh nỗ lực sáng tác câu trả lời này, nhưng đồng thời phải nói rằng nó trích dẫn từ rất nhiều nguồn không có thẩm quyền và chỉ cung cấp loại giải thích lượn sóng chung chung này có thể đúng nhưng có thể đúng cũng hoàn toàn sai. Vì vậy, hạt nhân RBF là một hạt nhân đứng yên đẳng hướng với không gian Hilbert tái tạo vô hạn chiều. Tốt Có những hạt nhân khác với những tính chất này? Nếu vậy, tại sao RBF sẽ tốt hơn tất cả chúng? Trên thực tế, có bất kỳ sự hỗ trợ thực nghiệm nào cho tuyên bố rằng RBF vượt trội so với các đối thủ như vậy không?

— amip nói rằng Phục hồi lại

@amoeba: Cảm ơn bạn vì những lời tốt đẹp. Đối với các nguồn mà tôi đã sử dụng, bạn hoàn toàn đúng - đó là một sự pha trộn và một số nguồn chỉ là ý kiến. Tuy nhiên, một số nguồn (ví dụ, các bài đăng trên blog) tự trích dẫn các bài báo vững chắc. Tại thời điểm này, tôi bị thu hút nhiều hơn bởi chất lượng của một lời giải thích hơn là sự nghiêm ngặt của nó. Theo như câu hỏi của bạn, tôi đang chuẩn bị để giải quyết chúng sau. Tôi cần đọc thêm một chút lý thuyết. Tôi đã biên soạn các nguồn với sự hỗ trợ theo kinh nghiệm, nhưng cần thêm thời gian để hệ thống hóa chúng (và một số giấc ngủ, :).

— Alexanderr Blekh 7/1/2015

1

Tôi có cảm giác rằng Gaussian có entropy tối đa trong số các phân phối đối xứng thực sự đóng một vai trò trong điểm đầu tiên của bạn về hiệu suất tốt theo giả định chung

— Shadowtalker

2

Ngoài ra @AleksandrBlekh đây là một phần tổng hợp tuyệt vời. Mọi người rách rưới trên Quora nhưng nó không kém thẩm quyền so với việc liên kết với một câu trả lời khác ở đây

— Shadowtalker

@ssdecontrol: Cảm ơn bạn vì những lời tốt đẹp. Vui mừng khi chúng ta ở cùng một trang về chủ đề này. Tôi có một số thông tin bổ sung để giải quyết nhận xét của amip, vì vậy hãy xem không gian này, nếu bạn quan tâm.

— Alexanderr Blekh

8

Hãy để tôi đặt vào hai xu của tôi.

Cách tôi nghĩ về hạt nhân Gaussian là phân loại lân cận gần nhất theo một nghĩa nào đó. Những gì một nhân Gaussian làm là nó đại diện cho mỗi điểm với khoảng cách đến tất cả các điểm khác trong tập dữ liệu. Bây giờ hãy nghĩ về các phân loại có ranh giới tuyến tính hoặc đa thức, các ranh giới được giới hạn trong các hình dạng nhất định. Tuy nhiên, khi bạn nhìn vào người hàng xóm gần nhất, ranh giới thực tế có thể có bất kỳ hình dạng nào. Đó là tôi nghĩ tại sao chúng ta nghĩ về hạt nhân Gaussian cũng không phải là tham số, nghĩa là điều chỉnh ranh giới tùy thuộc vào dữ liệu. Một cách khác để nghĩ về điều đó là hạt nhân Gaussian điều chỉnh theo hình dạng cục bộ trong một khu vực, tương tự như cách một người hàng xóm gần nhất điều chỉnh ranh giới bằng cách nhìn vào khoảng cách đến các điểm khác trong khu vực địa phương.

Tôi không có một lập luận toán học cho điều này, nhưng tôi nghĩ rằng thực tế rằng hạt nhân Gaussian trên thực tế ánh xạ tới một không gian vô hạn có liên quan đến thành công của nó. Đối với các hạt nhân tuyến tính và đa thức, các sản phẩm chấm được lấy trong không gian chiều hữu hạn; do đó dường như mạnh mẽ hơn để làm mọi thứ trong một không gian lớn hơn. Tôi hy vọng ai đó có một nắm bắt tốt hơn về những điều này. Điều đó cũng có nghĩa là nếu chúng ta có thể tìm thấy các hạt nhân khác có không gian chiều vô hạn, thì chúng cũng sẽ khá mạnh mẽ. Thật không may, tôi không quen thuộc với bất kỳ hạt nhân như vậy.

Đối với điểm cuối cùng của bạn, tôi nghĩ rằng Cauchy pdf hoặc bất kỳ pdf nào khác bằng cách nào đó đo khoảng cách đến các điểm khác sẽ hoạt động tốt như nhau. Một lần nữa, tôi không có một lập luận toán học tốt cho nó, nhưng kết nối với người hàng xóm gần nhất làm cho điều này trở nên hợp lý.

Biên tập:

Dưới đây là một số ý tưởng về cách nghĩ về trình phân loại sử dụng hạt nhân Gaussian làm phân loại lân cận gần nhất. Đầu tiên, chúng ta hãy nghĩ về những gì một phân loại hàng xóm gần nhất làm. Về cơ bản, một bộ phân loại lân cận gần nhất là một bộ phân loại tiêu chuẩn sử dụng khoảng cách giữa các điểm làm đầu vào. Chính thức hơn, hãy tưởng tượng chúng ta tạo một đại diện tính năng cho mỗi điểm trong tập dữ liệu bằng cách tính khoảng cách của nó với tất cả các điểm khác. Ở trên, là hàm khoảng cách. Sau đó, điều mà một trình phân loại lân cận gần nhất làm là dự đoán nhãn lớp cho một điểm dựa trên biểu diễn tính năng này và nhãn lớp cho dữ liệu. trong đó $\phi_i$ $x_i$

ϕ_{i} = (d (x_{i}, x_{1}), d (x_{i}, x_{2}), \dots, d (x_{i}, x_{n}))

$\phi_i = (d(x_i,x_1), d(x_i, x_2), \ldots, d(x_i, x_n))$

d

$d$

p_{i} = f (ϕ_{i}, y)

$p_i = f(\phi_i, y)$

p_{i}

$p_i$ là dự đoán cho điểm dữ liệu và là một vectơ của nhãn lớp cho .

x_{i}

$x_i$

y

$y$

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

Cách tôi nghĩ về hạt nhân là họ làm một điều tương tự; họ tạo ra một đại diện tính năng của từng điểm bằng cách sử dụng các giá trị kernel của nó với các điểm khác trong tập dữ liệu. Tương tự như trường hợp hàng xóm gần nhất, chính thức hơn, đây sẽ là Bây giờ kết nối với hàng xóm gần nhất là khá rõ ràng; nếu hàm kernel của chúng ta là một số đo liên quan đến các thước đo khoảng cách mà chúng ta sử dụng trong các trình phân loại lân cận gần nhất, thì trình phân loại dựa trên kernel của chúng sẽ tương tự như một mô hình lân cận gần nhất.

ϕ_{i} = (k (x_{i}, x_{1}), k (x_{i}, x_{2}), \dots, k (x_{i}, x_{n}))

$\phi_i = (k(x_i, x_1), k(x_i, x_2), \ldots, k(x_i, x_n))$

Lưu ý: Các trình phân loại chúng tôi đào tạo bằng hạt nhân không hoạt động trực tiếp với các biểu diễn , nhưng tôi nghĩ đó là những gì chúng làm ngầm. $\phi_i$

— người hút thuốc
nguồn

Giải thích hàng xóm gần nhất là thú vị. Bạn có nghĩ rằng bạn có thể mở rộng về điều đó một chút không? Tôi nghĩ rằng tôi nhận được nó nhưng tôi không chắc chắn tôi làm.

— Shadowtalker

@ssdecontrol Tôi đã thêm một số ý kiến; Tôi hy vọng chúng hữu ích.

— Goker

6

Lý do là kích thước VC cho các hạt nhân Gaussian là vô hạn, và do đó, với các giá trị chính xác cho các tham số (sigma), chúng có thể phân loại một số lượng lớn các mẫu tùy ý một cách chính xác.

RBF hoạt động tốt bởi vì chúng đảm bảo rằng ma trận là thứ hạng đầy đủ. Ý tưởng là và các thuật ngữ ngoài đường chéo có thể được làm nhỏ tùy ý bằng cách giảm giá trị của . Lưu ý rằng kernel tương ứng với một sản phẩm chấm trong không gian tính năng. Trong không gian tính năng này, kích thước là vô hạn (bằng cách xem xét việc mở rộng chuỗi theo cấp số nhân). Do đó, người ta có thể thấy điều này khi chiếu những điểm đó theo các chiều khác nhau để bạn có thể tách chúng ra. $K(x_{i},x_{j})$ $K(x_{i},x_{i}) > 0$ $\sigma$

Xem xét ngược lại, trường hợp hạt nhân tuyến tính, chỉ có thể phá vỡ bốn điểm trên mặt phẳng.

Bạn có thể xem bài báo này , mặc dù nó rất kỹ thuật. Một trong những cuốn sách tiêu chuẩn về SVM sẽ làm cho khái niệm này dễ tiếp cận hơn.

— chiều
nguồn

1

'RBF hoạt động tốt bởi vì chúng đảm bảo rằng ma trận có đầy đủ thứ hạng': điều này đúng với mọi hàm nhân (Mercer) hợp lệ (bao gồm cả hàm tuyến tính) vì vậy tôi không chắc nó giải thích như thế nào - sự phù hợp của RBF.

K (x_{i}, x_{j})

$K(x_i,x_j)$

— dùng603

2

Ngoài những gì @ user603 vừa viết: còn có các hạt nhân phổ biến khác với kích thước VC vô hạn (kích thước của không gian đích) không? Nếu vậy, họ có tốt như RBF không?

— amip nói phục hồi Monica

2

Không phải kích thước VC là một thuộc tính của một bộ phân loại, không phải là thuộc tính của kernel?

— wij

2

@ user603: điều này không đúng Hạt nhân Mercer chỉ yêu cầu ma trận hạt nhân là semidefinite dương; chúng có thể là số ít. Ví dụ, hạt nhân tuyến tính trong thực tế cung cấp ma trận hạt nhân số ít nếu nằm trong tập hợp các điểm của bạn. (Tất nhiên, hầu hết các hạt nhân đều có giá trị xác định hoàn toàn tích cực và do đó đây không phải là một đặc tính đặc biệt của RBF Gaussian.)

x_{i} = 0

$x_i = 0$

— Dougal