Khi nào bạn sẽ sử dụng PCA thay vì LDA trong phân loại?


10

Tôi đang đọc bài viết này về sự khác biệt giữa Phân tích thành phần nguyên tắc và Phân tích nhiều phân biệt đối xử (Phân tích phân biệt đối xử tuyến tính) và tôi đang cố gắng hiểu tại sao bạn lại sử dụng PCA thay vì MDA / LDA.

Giải thích được tóm tắt như sau:

nói một cách đại khái trong PCA, chúng tôi đang cố gắng tìm ra các trục có phương sai tối đa trong đó dữ liệu được lan truyền nhiều nhất (trong một lớp, vì PCA coi toàn bộ dữ liệu là một lớp) và trong MDA, chúng tôi cũng tối đa hóa sự lan truyền giữa các lớp.

Không phải bạn luôn muốn tối đa hóa phương sai và tối đa hóa sự lây lan giữa các lớp sao?


1
xin lỗi, tôi có nghĩa là nhiều phân tích phân biệt đối xử dường như cũng được gọi là nhiều phân tích phân biệt tuyến tính
chris

1
Bạn nên làm rõ câu hỏi của mình, vì hiện tại nó không quan trọng: bạn nên ưu tiên PCA hơn MDA khi không có lớp nào bị phân biệt đối xử trong dữ liệu của bạn. Tôi nghĩ bạn nên xác định đây là về phân loại trong câu hỏi.
Firebug

1
LDA là một thuật ngữ phổ biến hơn nhiều so với MDA. Không cần phải nói "nhiều tuyến tính", "tuyến tính" là đủ.
amip nói rằng Phục hồi lại

Câu trả lời:


11

Bạn đang thiếu một cái gì đó sâu sắc hơn: PCA không phải là một phương pháp phân loại.

PCA trong học máy được coi là một phương pháp kỹ thuật tính năng. Khi bạn áp dụng PCA cho dữ liệu của mình, bạn đảm bảo sẽ không có mối tương quan giữa các tính năng kết quả. Nhiều thuật toán phân loại được hưởng lợi từ đó.

Bạn luôn phải ghi nhớ các thuật toán có thể có các giả định về dữ liệu và nếu các giả định đó không giữ được thì chúng có thể hoạt động kém.

LDA phải tính toán nghịch đảo ma trận hiệp phương sai để chiếu dữ liệu (kiểm tra các luồng và câu trả lời: PCA có nên được thực hiện trước khi tôi phân loại không?có hợp lý khi kết hợp PCA và LDA không? ). Nếu bạn có ít dữ liệu, điều này không ổn định và bạn nhận được các phép chiếu quá mức đối với các điểm dữ liệu của mình, tức là ma trận hiệp phương sai trong lớp duy nhất. PCA thường được sử dụng để tránh điều đó, làm giảm độ mờ của vấn đề.

Vì vậy, câu trả lời là bạn không bao giờ sử dụng PCA để phân loại, nhưng bạn có thể sử dụng nó để cố gắng cải thiện hiệu suất của LDA.


7

Trong khi câu trả lời phổ biến của Fireorms là chính xác, tôi muốn thêm một góc nhìn khác:

Học tập không giám sát so với giám sát:

LDA rất hữu ích để tìm các kích thước nhằm mục đích tách cụm, do đó bạn sẽ phải biết các cụm trước đó. LDA không nhất thiết phải là một bộ phân loại, nhưng có thể được sử dụng như một. Do đó, LDA chỉ có thể được sử dụng trong học tập có giám sát

PCA là một cách tiếp cận chung để khử nhiễugiảm kích thước và không yêu cầu thêm thông tin nào như nhãn lớp trong học tập có giám sát. Do đó, nó có thể được sử dụng trong học tập không giám sát.


2
+1, đặc biệt là cho LDA is not neccesarily a classifier. Một độc giả (OP cũng vậy) cũng được khuyến nghị đọc câu hỏi liên quan này: Làm thế nào LDA, một kỹ thuật phân loại, cũng đóng vai trò là kỹ thuật giảm kích thước như PCA .
ttnphns

và câu trả lời ở đây so sánh kết quả đầu ra và âm mưu của LDA và PCA là mờ. giảm.
ttnphns

(+1) LDA thực sự là một kỹ thuật giảm kích thước, khái quát hóa sự phân biệt tuyến tính của Fisher, mà mọi người thường coi là một tiêu chí phân loại.
Firebug

2

LDA được sử dụng để khắc lên không gian đa chiều.

PCA được sử dụng để thu gọn không gian đa chiều.

Ví dụ: Các đối tượng 3D đổ bóng 2D. PCA thường cho phép chúng ta thu gọn hàng trăm kích thước không gian thành một số ít chiều không gian thấp hơn trong khi vẫn giữ được 70% - 90% thông tin quan trọng.

Làm thế nào tôi có thể thấy kích thước và hình dạng bàn tay của bạn từ bóng của nó. Tôi không thể nói với bạn mọi thứ về hình dạng của bàn tay bạn. Nhưng bằng cách có một bộ sưu tập 3 hoặc 4 bóng từ các góc đã biết tối ưu. Sau đó tôi có thể nói với bạn hầu hết mọi thứ về kích thước và hình dạng của bàn tay.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.