Hồi quy quy trình Gaussian cho các tập dữ liệu chiều cao


10

Chỉ muốn xem có ai có kinh nghiệm áp dụng hồi quy quy trình Gaussian (GPR) cho các tập dữ liệu chiều cao không. Tôi đang xem xét một số phương pháp GPR thưa thớt khác nhau (ví dụ GPR đầu vào giả thưa) để xem những gì có thể hoạt động cho các tập dữ liệu chiều cao trong đó lựa chọn tính năng lý tưởng là một phần của quá trình chọn tham số.

Bất kỳ đề xuất về giấy tờ / mã / hoặc các phương pháp khác nhau để thử chắc chắn được đánh giá cao.

Cảm ơn.


2
Như đã nêu, câu hỏi này khá mơ hồ. Các câu hỏi khép kín, cụ thể và có động lực tốt có xu hướng nhận được sự chú ý nhiều nhất và câu trả lời tốt nhất ở đây. (Ví dụ: nếu bạn có một vấn đề cụ thể mà bạn đang cố gắng giải quyết, hãy xem xét việc cung cấp đủ chi tiết để người đọc có thể hiểu những gì bạn đang cố gắng làm.)
Hồng y

Câu trả lời:


13

Các mô hình quy trình Gaussian thường ổn với các bộ dữ liệu chiều cao (tôi đã sử dụng chúng với dữ liệu microarray, v.v.). Chìa khóa của họ là trong việc lựa chọn các giá trị tốt cho các tham số siêu (điều khiển hiệu quả sự phức tạp của mô hình theo cách tương tự như chính quy hóa).

Các phương thức thưa thớt và phương thức nhập giả cho nhiều bộ dữ liệu với số lượng mẫu lớn (> khoảng 4000 cho máy tính của tôi) thay vì số lượng lớn các tính năng. Nếu bạn có một máy tính đủ mạnh để thực hiện phân tách Cholesky của ma trận hiệp phương sai (n by n trong đó n là số lượng mẫu), thì có lẽ bạn không cần các phương pháp này.

Nếu bạn là người dùng MATLAB, thì tôi rất muốn giới thiệu hộp công cụ GPML và cuốn sách của Rasmussen và Williams là nơi tốt để bắt đầu.

TUY NHIÊN, nếu bạn quan tâm đến việc lựa chọn tính năng, thì tôi sẽ tránh các GP. Cách tiếp cận tiêu chuẩn để lựa chọn tính năng với GP là sử dụng hạt nhân Xác định mức độ liên quan tự động (ví dụ: covSEard trong GPML), sau đó đạt được lựa chọn tính năng bằng cách điều chỉnh các tham số kernel để tối đa hóa khả năng cận biên. Thật không may, điều đó rất có khả năng kết thúc quá mức phù hợp với khả năng cận biên và kết thúc với một mô hình hoạt động (có thể nhiều) tệ hơn một mô hình với hàm cơ sở xuyên tâm đơn giản (covSEiso trong GPML).

Hiện tại, trọng tâm nghiên cứu của tôi nằm ở sự phù hợp quá mức trong việc lựa chọn mô hình và tôi đã phát hiện ra rằng đây là vấn đề tối đa hóa bằng chứng trong các GP vì nó được tối ưu hóa dựa trên xác thực chéo của các siêu đối xứng trong các mô hình hạt nhân, để biết chi tiết thấy tài liệu này , và cái này .

Lựa chọn tính năng cho các mô hình phi tuyến tính là rất khó khăn. Thường thì bạn có được hiệu suất tốt hơn bằng cách sử dụng mô hình tuyến tính và sử dụng các phương pháp tiếp cận loại chính quy L1 (Lasso / LARS / Mạng đàn hồi, v.v.) để đạt được các phương pháp rừng thưa hoặc ngẫu nhiên.


Cảm ơn Dikran. Tôi đã thử nhìn vào glmnet trong R cho các mô hình tuyến tính chính quy. Thật không may, dự đoán của tôi cuối cùng đều giống nhau (tôi nghĩ ý nghĩa của tập huấn luyện của tôi). Các mô hình tuyến tính dường như có một thời gian khó rút tín hiệu trong dữ liệu của tôi. Đó là lý do tại sao tôi đang tìm kiếm các mô hình phi tuyến tính có thể xử lý nhiều tính năng / tương tác tính năng tiềm năng. Tôi khá chắc chắn rằng đó là hỏi rất nhiều mặc dù. Bất kỳ đề nghị trên mặt trận đó? Tôi không có vấn đề P >> N. Sử dụng 150 tính năng, 1000 ví dụ.
tomas

Này Dikran. Đó là một câu hỏi khá mơ hồ tôi đã hỏi trong các ý kiến ​​của tôi xin lỗi về điều đó. Tôi đặt một câu hỏi cụ thể hơn lên bảng. Cảm ơn một lần nữa vì sự giúp đỡ của bạn. stats.stackexchange.com/questions/30411/...
Tomas

không có vấn đề gì, thường tìm ra những câu hỏi khó hơn trả lời chúng! Tôi sẽ xem xét các câu hỏi khác.
Dikran Marsupial

Cảm ơn câu trả lời này. Trong trường hợp các tính năng chiều cao nhưng tập dữ liệu không quá lớn (n ~ 10k d ~ 1k), có thể sử dụng ARD để tăng tốc tính toán không? Tôi đang sử dụng hộp công cụ GPML. Chúng ta có thể tự động "khai thác" ma trận hiệp phương sai để tập trung vào các tính năng có liên quan không?
Emile

1
các " r.csail.mit.edu/papers/v8/cawley07a.html " liên kết không hoạt động ... Có một điều này? jmlr.org/ con / v8 / cawley07a.html . Có lẽ thêm trích dẫn đầy đủ thay vì chỉ liên kết sẽ có lợi :-)
Tò mò

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.