Tôi có một số dữ liệu tồn tại trên biểu đồ . Các đỉnh thuộc về một trong hai lớp và tôi quan tâm đến việc đào tạo một SVM để phân biệt giữa hai lớp. Một hạt nhân thích hợp cho điều này là hạt nhân khuếch tán , trong đó là Laplacian của và là một tham số điều chỉnh.
Điều chỉnh SVM yêu cầu lựa chọn các siêu đường kính, vì vậy tôi phải điều chỉnhThông thường, chúng tôi sử dụng xác thực chéo cho vấn đề này, nhưng điều đó có vẻ không phù hợp ở đây, vì bỏ qua một đỉnh từ thay đổi toàn bộ biểu đồ, thậm chí có thể làm tăng số lượng các thành phần được kết nối! Nếu số lượng các thành phần được kết nối thay đổi, một số đỉnh trở nên không thể truy cập được từ các phần khác và chúng ta phải đối mặt với một bộ dữ liệu rất khác so với chúng ta đã bắt đầu. Đó là, không chỉ chúng ta thiếu đỉnh bị loại bỏ , mà chúng ta cũng thiếu thông tin về tất cả các đỉnh trong biểu đồ tiếp giáp với đỉnh đó.
Khái niệm cơ bản về xác thực chéo là chúng tôi muốn ước tính cách thức mô hình sẽ thực hiện khi nó được trình bày với dữ liệu mới. Trong các vấn đề tiêu chuẩn, việc bỏ qua một số dữ liệu của bạn để kiểm tra không làm thay đổi giá trị của dữ liệu đào tạo còn lại. Tuy nhiên, trong trường hợp dữ liệu biểu đồ, không rõ mô hình sẽ thấy dữ liệu "mới" trong cài đặt CV nghĩa là gì. Bỏ qua các đỉnh hoặc cạnh có khả năng thay đổi hoàn toàn dữ liệu. Ví dụ: hãy tưởng tượng một đồ thị là đồ thị star, trong đó một đỉnh có cạnh với đỉnh và tất cả các đỉnh khác có 1 cạnh. Bỏ qua đỉnh trung tâm để xây dựng dữ liệu huấn luyệnsẽ hoàn toàn ngắt kết nối đồ thị và ma trận kernel sẽ là đường chéo! Nhưng tất nhiên, sẽ có thể đào tạo một mô hình về dữ liệu đào tạo này được cung cấp trong . Điều ít rõ ràng hơn là ý nghĩa của việc kiểm tra hiệu năng ngoài mẫu của mô hình kết quả. Có ai tính toán lại ma trận hạt nhân cho và cung cấp điều đó để đưa ra dự đoán không?
Hoặc, thay vào đó, người ta bắt đầu bằng cách tính toàn bộ ma trận hạt nhân của và bỏ qua các hàng và cột cần thiết để tạo ra ma trận hạt nhân được sử dụng để ước tính SVM? Điều này trình bày các vấn đề khái niệm riêng của nó, vì việc bao gồm nút trung tâm trong có nghĩa là mọi đỉnh có thể truy cập được từ mọi đỉnh khác và ma trận hạt nhân dày đặc. Liệu sự bao gồm này có nghĩa là có sự rò rỉ thông tin trên các nếp gấp và làm sai lệch đầu ra xác thực chéo? Một mặt, dữ liệu về các nút trung tâm bị bỏ qua vẫn còn, vì nút trung tâm bị bỏ qua làm cho biểu đồ được kết nối. Mặt khác, chúng tôi không biết gì về nhãn trong số các nút bị bỏ qua, vì vậy chúng tôi có thể thoải mái khi chúng tôi nhận được các ước tính ngoài mẫu không thiên vị một cách hợp lý từ việc thực hiện CV theo cách này.
Làm thế nào để chọn một siêu đường kính cho các vấn đề của loại này? Là CV không hoàn hảo nhưng có thể chấp nhận được, hay chúng ta cần các phương pháp chuyên biệt? Là điều chỉnh siêu tham số thậm chí có thể ở tất cả trong bối cảnh của tôi?