Có một phương pháp ngược lại với giảm chiều?


9

Tôi mới tham gia vào lĩnh vực học máy, nhưng đã thực hiện phần chia sẻ xử lý tín hiệu của mình. Xin vui lòng cho tôi biết nếu câu hỏi này đã được dán nhãn sai.

Tôi có dữ liệu hai chiều được xác định bởi ít nhất ba biến, với cách mô hình phi tuyến tính quá phức tạp để mô phỏng.

Tôi đã đạt được mức độ thành công khác nhau khi trích xuất hai thành phần chính từ dữ liệu bằng các phương thức như PCA và ICA (từ thư viện python Scikit-Learn), nhưng có vẻ như các phương thức này (hoặc ít nhất là, việc triển khai các phương thức này) bị hạn chế để trích xuất nhiều thành phần như có kích thước trong dữ liệu, ví dụ: 2 thành phần từ đám mây điểm 2D.

Khi vẽ sơ đồ dữ liệu, rõ ràng với con mắt được đào tạo rằng có ba xu hướng tuyến tính khác nhau, ba đường màu hiển thị các hướng.

lô dữ liệu

Khi sử dụng PCA, thành phần chính được căn chỉnh theo một trong các vạch màu và phần còn lại ở 90 °, như mong đợi. Khi sử dụng ICA, thành phần đầu tiên được căn chỉnh với đường màu xanh lam và thành phần thứ hai nằm ở giữa màu đỏ và xanh lục. Tôi đang tìm kiếm một công cụ có thể tái tạo cả ba thành phần trong tín hiệu của tôi.

EDIT, Thông tin bổ sung: Tôi ở đây làm việc trong một tập hợp nhỏ của mặt phẳng pha lớn hơn. Trong tập hợp nhỏ này, mỗi biến đầu vào tạo ra một thay đổi tuyến tính trên mặt phẳng, nhưng hướng và biên độ của thay đổi này là phi tuyến tính và phụ thuộc vào vị trí chính xác trên mặt phẳng lớn hơn mà tôi đang làm việc. Tại một số nơi, hai trong số các biến có thể bị suy biến: chúng tạo ra sự thay đổi theo cùng một hướng. ví dụ, giả sử mô hình phụ thuộc vào X, Y và Z. Một thay đổi trong biến X sẽ tạo ra một biến thể dọc theo đường màu xanh; Y gây ra một biến thể dọc theo đường màu xanh lá cây; Z, dọc theo màu đỏ.


3
Nếu tôi hiểu chính xác, khái niệm bạn đang tìm kiếm là nhúng . Tra cứu các phương thức kernelPCA nói riêng.
Emre

1
Tôi không chắc chắn về điều này, vì vậy tôi không đăng nó như là một câu trả lời. Trong một kiểu mô hình mạng thần kinh, bạn có thể giữ nguyên chiều của lớp ẩn> chiều của lớp đầu vào. Sau đó, bạn có thể sử dụng lớp ẩn làm đầu vào cho một mô hình / mạng khác. Nhưng làm như vậy đòi hỏi rất nhiều dữ liệu.
Azrael

Khi bạn nói dữ liệu 2 chiều, được xác định bởi ít nhất ba biến, bạn sử dụng thuật ngữ 'biến' theo nghĩa nào? Các lớp học sẽ là một sự thay thế phù hợp? Điều đáng chú ý là PCA trích xuất các kích thước biến thể tối đa từ dữ liệu, đây không nhất thiết phải là biến đổi phân biệt đối xử nhất để áp dụng. Bạn đã nhìn vào cụm?
image_doctor

Bạn có biết gì về tính phi tuyến của mô hình không? Mặc dù nó có thể quá phức tạp để mô phỏng, nhưng biết rằng nó hầu hết được tạo thành từ đa thức bậc 3 hạn chế đáng kể kỹ thuật tính năng, ví dụ như bạn có thể thêm tất cả các polys độ 3 và sau đó PCA trở lại 3D.
AN6U5

Tôi đã thảo luận với một người bạn thống kê của tôi, người đã đề nghị sử dụng kernel PCA trên dẫn xuất dữ liệu của tôi, vì tôi đang tìm kiếm độ dốc. Sẽ lấy số lượng phái sinh là "kỹ thuật tính năng"?
PhilMacKay

Câu trả lời:


8

Câu trả lời ngắn gọn là có.

Về cơ bản, bạn sẽ thực hiện một số loại kỹ thuật tính năng. Điều này có nghĩa là xây dựng một loạt các chức năng của dữ liệu của bạn, thường là:

φj(x):RpR ,  j= =1,...,K

Trong đó, kết hợp với nhau, xác định một dữ liệu chuyển đổi vector có độ dài .Kφ(x)K

Có một số cách, tốt hơn và tồi tệ hơn, làm điều này. Bạn có thể muốn tìm kiếm các điều khoản như:

  1. Splines và mô hình phụ gia tổng quát.
  2. Thủ thuật kernel (cách tạo mô hình trong đó ).K
  3. Tính năng kỹ thuật (thuộc loại thủ công, ví dụ: thêm cột vào dữ liệu của bạn).x2
  4. Học sâu, học đại diện

Như bạn có thể đoán từ một túi kỹ thuật đa dạng như vậy, đây là một khu vực rộng lớn. Không cần phải nói thực sự nhưng phải cẩn thận để tránh thừa.

Bài viết này Học đại diện: Đánh giá và quan điểm mới liên quan đến một số vấn đề xung quanh những gì làm cho một tập hợp các tính năng cụ thể 'tốt', từ quan điểm học tập sâu.


-2

Tôi đoán bạn đang tìm kiếm các tính năng trích xuất các tính năng mới. Một tính năng đại diện tốt nhất cho bộ dữ liệu. Nếu đó là trường hợp thì chúng ta gọi phương pháp đó là "trích xuất tính năng".

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.