Giảm kích thước giám sát


13

Tôi có một bộ dữ liệu bao gồm 15K mẫu được dán nhãn (gồm 10 nhóm). Tôi muốn áp dụng giảm kích thước thành 2 chiều, điều đó sẽ xem xét kiến ​​thức về nhãn.

Khi tôi sử dụng các kỹ thuật giảm kích thước không giám sát "tiêu chuẩn" như PCA, âm mưu phân tán dường như không liên quan gì đến các nhãn đã biết.

Liệu những gì tôi đang tìm kiếm có một tên? Tôi muốn đọc một số tài liệu tham khảo của các giải pháp.


3
Nếu bạn đang tìm kiếm các phương pháp tuyến tính, thì phân tích phân biệt tuyến tính (LDA) là những gì bạn nên sử dụng.
amip nói phục hồi Monica

@amoeba: Cảm ơn. Tôi đã sử dụng nó và nó thực hiện tốt hơn nhiều!
Roy

Vui mừng vì nó đã giúp. Tôi đã cung cấp một câu trả lời ngắn gọn với một số tài liệu tham khảo thêm.
amip nói phục hồi Monica

1
Một khả năng đầu tiên là giảm xuống không gian chín chiều bao trùm các trung tâm lớp, sau đó sử dụng PCA để tiếp tục giảm xuống hai chiều.
A. Donda

Liên quan: stats.stackexchange.com/questions/16305 (có thể trùng lặp, mặc dù có thể theo cách khác. Tôi sẽ quay lại vấn đề này sau khi tôi cập nhật câu trả lời của mình bên dưới.)
amoeba nói Rebstate Monica

Câu trả lời:


27

Phương pháp tuyến tính tiêu chuẩn nhất về giảm kích thước được giám sát được gọi là phân tích phân biệt tuyến tính (LDA). Nó được thiết kế để tìm phép chiếu chiều thấp giúp tối đa hóa sự phân tách lớp. Bạn có thể tìm thấy rất nhiều thông tin về nó dưới thẻ của chúng tôi và trong bất kỳ sách giáo khoa máy học nào, ví dụ như có sẵn miễn phí Các yếu tố của học thống kê .

Đây là một hình ảnh mà tôi tìm thấy ở đây với một tìm kiếm nhanh chóng trên google; nó hiển thị các phép chiếu PCA và LDA một chiều khi có hai lớp trong bộ dữ liệu (nguồn gốc được thêm bởi tôi):

PCA vs LDA

Một cách tiếp cận khác được gọi là bình phương tối thiểu một phần (PLS). LDA có thể được hiểu là tìm kiếm các phép chiếu có tương quan cao nhất với nhãn nhóm mã hóa biến giả (theo nghĩa này LDA có thể được xem là trường hợp đặc biệt của phân tích tương quan chính tắc, CCA). Ngược lại, PLS tìm kiếm các phép chiếu có hiệp phương sai cao nhất với nhãn nhóm. Trong khi LDA chỉ mang lại 1 trục cho trường hợp của hai nhóm (như trong hình trên), PLS sẽ tìm thấy nhiều trục được sắp xếp theo hiệp phương sai. Lưu ý rằng khi có nhiều hơn hai nhóm có trong tập dữ liệu, có những "hương vị" khác nhau của PLS sẽ tạo ra kết quả hơi khác nhau.

Cập nhật (2018)

Tôi nên tìm thời gian để mở rộng câu trả lời này; chủ đề này có vẻ là phổ biến nhưng câu trả lời ban đầu của tôi ở trên là rất ngắn và không đủ chi tiết.

k


1
đồ họa đẹp, giải thích nhiều
Titou 2/2/2017
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.