A1. Giảm kích thước là gì: Nếu bạn nghĩ về dữ liệu trong một ma trận, trong đó các hàng là các thể hiện và các cột là các thuộc tính (hoặc các tính năng), thì việc giảm kích thước sẽ ánh xạ ma trận dữ liệu này sang một ma trận mới với ít cột hơn. Để trực quan hóa, nếu bạn nghĩ mỗi cột ma trận (thuộc tính) là một thứ nguyên trong không gian đặc trưng, thì việc giảm kích thước là hình chiếu của các thể hiện từ không gian chiều cao hơn (nhiều cột hơn) sang không gian phụ chiều thấp hơn (ít cột hơn).
Mục tiêu tiêu biểu cho sự chuyển đổi này là (1) lưu giữ thông tin trong ma trận dữ liệu, đồng thời giảm độ phức tạp tính toán; (2) cải thiện khả năng phân tách của các lớp khác nhau trong dữ liệu.
A2. Giảm kích thước dưới dạng lựa chọn tính năng hoặc trích xuất tính năng: Tôi sẽ sử dụng bộ dữ liệu Iris phổ biến , được cho là 'thế giới xin chào' của khoa học dữ liệu. Tóm lại, bộ dữ liệu Iris có 3 lớp và 4 thuộc tính (cột). Tôi sẽ minh họa lựa chọn và trích xuất tính năng cho nhiệm vụ giảm kích thước tập dữ liệu Iris từ 4 xuống 2.
Tôi tính toán phương sai cặp khôn ngoan của bộ dữ liệu này bằng thư viện trong Python có tên là seaborn. Mã là: sns.pairplot (iris, hue = "loài", markers = ["o", "s", "D"]) Hình tôi nhận được là
tôi có thể chọn cặp thuộc tính (2 chiều) cung cấp cho tôi sự tách biệt lớn nhất giữa 3 lớp (loài) trong bộ dữ liệu Iris. Đây sẽ là một trường hợp lựa chọn tính năng.
Tiếp theo là khai thác tính năng. Ở đây, tôi đang chiếu không gian đặc trưng 4 chiều của Iris sang không gian con 2 chiều mới, không phải là trục được căn chỉnh với không gian ban đầu. Đây là những thuộc tính mới. Chúng thường dựa trên sự phân phối trong không gian chiều cao ban đầu. Phương pháp phổ biến nhất là Phân tích thành phần chính, tính toán Eigenvector trong không gian ban đầu.
Rõ ràng, chúng tôi không bị hạn chế chỉ sử dụng phép chiếu tuyến tính và toàn cầu vào một không gian con dựa trên Eigenvector. Chúng ta có thể sử dụng các phương pháp chiếu phi tuyến tính là tốt. Dưới đây là một ví dụ về PCA phi tuyến tính sử dụng mạng thần kinh
Các thuộc tính (kích thước) trong ví dụ cuối cùng được trích xuấttừ 4 thuộc tính ban đầu sử dụng mạng thần kinh. Bạn có thể thử nghiệm nhiều hương vị khác nhau của PCA cho chính bộ dữ liệu iris bằng mã phương pháp pca này .
Tóm tắt: Mặc dù các phương pháp trích xuất tính năng có thể có hiệu suất vượt trội so với lựa chọn tính năng, sự lựa chọn được đưa ra bởi ứng dụng. Các thuộc tính từ trích xuất tính năng thường mất đi sự diễn giải vật lý, có thể hoặc không thể là một vấn đề dựa trên nhiệm vụ hiện tại. Ví dụ: nếu bạn đang thiết kế một nhiệm vụ thu thập dữ liệu rất tốn kém với các cảm biến tốn kém và cần tiết kiệm cho các thuộc tính (số lượng cảm biến khác nhau), bạn muốn thu thập một mẫu thử nghiệm nhỏ bằng cách sử dụng tất cả các cảm biến có sẵn và sau đó chọn những cảm biến có sẵn là thông tin nhất cho các nhiệm vụ thu thập dữ liệu lớn.