Tóm tắt: PCA có thể được thực hiện trước LDA để thường xuyên hóa vấn đề và tránh sự phù hợp quá mức.
Hãy nhớ lại rằng các phép chiếu LDA được tính toán thông qua sự xuất hiện của , trong đó và nằm trong phạm vi giữa và giữa các lớp. Nếu có ít hơn điểm dữ liệu (trong đó là chiều của không gian của bạn, tức là số lượng tính năng / biến), thì sẽ là số ít và do đó không thể đảo ngược. Trong trường hợp này, đơn giản là không có cách nào để thực hiện LDA trực tiếp, nhưng nếu ai đó áp dụng PCA trước, nó sẽ hoạt động. @Aaron đã đưa ra nhận xét này trong các bình luận cho câu trả lời của anh ấy, và tôi đồng ý với điều đó (nhưng không đồng ý với câu trả lời của anh ấy nói chung, như bạn sẽ thấy bây giờ).Σ W Σ B N N Σ WΣ- 1WΣBΣWΣBNNΣW
Tuy nhiên, đây chỉ là một phần của vấn đề. Bức tranh lớn hơn là LDA rất dễ có xu hướng phù hợp với dữ liệu. Lưu ý rằng ma trận hiệp phương sai trong lớp được đảo ngược trong các tính toán LDA; đối với ma trận chiều cao đảo ngược là một hoạt động thực sự nhạy cảm, chỉ có thể được thực hiện một cách đáng tin cậy nếu ước tính của thực sự tốt. Nhưng ở kích thước cao , thực sự rất khó để có được ước tính chính xác về và trong thực tế, người ta thường phải có nhiều hơn điểm dữ liệu để bắt đầu hy vọng rằng ước tính đó là tốt. khác N » 1 Σ W N Σ WΣWN≫ 1ΣWNΣW sẽ gần như là số ít (tức là một số giá trị riêng sẽ rất thấp) và điều này sẽ gây ra sự phù hợp quá mức, tức là phân tách lớp gần như hoàn hảo trên dữ liệu đào tạo với hiệu suất cơ hội trên dữ liệu thử nghiệm.
Để giải quyết vấn đề này, người ta cần thường xuyên hóa vấn đề. Một cách để làm điều đó là sử dụng PCA để giảm tính chiều. Có những phương pháp khác, được cho là tốt hơn, ví dụ như phương pháp LDA (rLDA) thông thường chỉ đơn giản sử dụng với nhỏ thay vì (cái này được gọi là ước tính thu nhỏ ), nhưng làm PCA trước tiên về mặt khái niệm là cách tiếp cận đơn giản nhất và thường hoạt động tốt.λ Σ W( 1 - λ ) ΣW+ λ tôiλΣW
Hình minh họa
Dưới đây là một minh họa về vấn đề quá phù hợp. Tôi đã tạo 60 mẫu cho mỗi lớp trong 3 lớp từ phân phối Gaussian tiêu chuẩn (trung bình bằng 0, phương sai đơn vị) trong các không gian 10-, 50-, 100- và 150 chiều và áp dụng LDA để chiếu dữ liệu trên 2D:
Lưu ý làm thế nào khi chiều tăng trưởng, các lớp trở nên tốt hơn và tách biệt tốt hơn, trong khi thực tế không có sự khác biệt giữa các lớp.
Chúng ta có thể thấy PCA giúp ngăn chặn tình trạng thừa như thế nào nếu chúng ta làm cho các lớp hơi tách biệt. Tôi đã thêm 1 vào tọa độ đầu tiên của lớp thứ nhất, 2 cho tọa độ đầu tiên của lớp thứ hai và 3 cho tọa độ đầu tiên của lớp thứ ba. Bây giờ chúng được tách ra một chút, xem phần phụ bên trái trên cùng:
Quá mức (hàng trên cùng) vẫn còn rõ ràng. Nhưng nếu tôi xử lý trước dữ liệu bằng PCA, luôn giữ 10 chiều (hàng dưới cùng), thì quá mức sẽ biến mất trong khi các lớp vẫn cách nhau gần như tối ưu.
Tái bút Để tránh những hiểu lầm: Tôi không cho rằng PCA + LDA là một chiến lược chính quy hóa tốt (ngược lại, tôi sẽ khuyên bạn nên sử dụng rLDA), tôi chỉ đơn giản chứng minh rằng đó là một chiến lược khả thi .
Cập nhật. Chủ đề rất giống nhau đã được thảo luận trước đây trong các chủ đề sau với câu trả lời thú vị và toàn diện được cung cấp bởi @cbeleites:
Xem thêm câu hỏi này với một số câu trả lời hay:
best practice
. PCA và LDA, như các kỹ thuật giảm kích thước, rất khác nhau. Đôi khi mọi người làm PCA trước LDA, nhưng nó có nguy cơ vứt bỏ (với các PC bị loại bỏ) các khía cạnh phân biệt đối xử quan trọng. Câu hỏi mà bạn hỏi đã thực sự được hỏi trong một số hình thức nhiều lần trên trang web này. Vui lòng tìm kiếm "PCA LDA", để đọc những gì mọi người nói với nó.