Các mô hình quy trình Gaussian thường ổn với các bộ dữ liệu chiều cao (tôi đã sử dụng chúng với dữ liệu microarray, v.v.). Chìa khóa của họ là trong việc lựa chọn các giá trị tốt cho các tham số siêu (điều khiển hiệu quả sự phức tạp của mô hình theo cách tương tự như chính quy hóa).
Các phương thức thưa thớt và phương thức nhập giả cho nhiều bộ dữ liệu với số lượng mẫu lớn (> khoảng 4000 cho máy tính của tôi) thay vì số lượng lớn các tính năng. Nếu bạn có một máy tính đủ mạnh để thực hiện phân tách Cholesky của ma trận hiệp phương sai (n by n trong đó n là số lượng mẫu), thì có lẽ bạn không cần các phương pháp này.
Nếu bạn là người dùng MATLAB, thì tôi rất muốn giới thiệu hộp công cụ GPML và cuốn sách của Rasmussen và Williams là nơi tốt để bắt đầu.
TUY NHIÊN, nếu bạn quan tâm đến việc lựa chọn tính năng, thì tôi sẽ tránh các GP. Cách tiếp cận tiêu chuẩn để lựa chọn tính năng với GP là sử dụng hạt nhân Xác định mức độ liên quan tự động (ví dụ: covSEard trong GPML), sau đó đạt được lựa chọn tính năng bằng cách điều chỉnh các tham số kernel để tối đa hóa khả năng cận biên. Thật không may, điều đó rất có khả năng kết thúc quá mức phù hợp với khả năng cận biên và kết thúc với một mô hình hoạt động (có thể nhiều) tệ hơn một mô hình với hàm cơ sở xuyên tâm đơn giản (covSEiso trong GPML).
Hiện tại, trọng tâm nghiên cứu của tôi nằm ở sự phù hợp quá mức trong việc lựa chọn mô hình và tôi đã phát hiện ra rằng đây là vấn đề tối đa hóa bằng chứng trong các GP vì nó được tối ưu hóa dựa trên xác thực chéo của các siêu đối xứng trong các mô hình hạt nhân, để biết chi tiết thấy tài liệu này , và cái này .
Lựa chọn tính năng cho các mô hình phi tuyến tính là rất khó khăn. Thường thì bạn có được hiệu suất tốt hơn bằng cách sử dụng mô hình tuyến tính và sử dụng các phương pháp tiếp cận loại chính quy L1 (Lasso / LARS / Mạng đàn hồi, v.v.) để đạt được các phương pháp rừng thưa hoặc ngẫu nhiên.