Làm thế nào LDA, một kỹ thuật phân loại, cũng đóng vai trò là kỹ thuật giảm kích thước như PCA


19

Trong bài viết này , tác giả liên kết phân tích phân biệt tuyến tính (LDA) với phân tích thành phần chính (PCA). Với kiến ​​thức hạn hẹp của mình, tôi không thể theo dõi làm thế nào LDA có thể hơi giống với PCA.

Tôi đã luôn nghĩ rằng LDA là một dạng thuật toán phân loại, tương tự như hồi quy logistic. Tôi sẽ đánh giá cao một số trợ giúp trong việc hiểu LDA tương tự như PCA như thế nào, đó là kỹ thuật giảm kích thước như thế nào.


2
Thật không đúng khi gọi LDA chỉ là một kỹ thuật phân loại. Đây là một kỹ thuật tổng hợp, gồm 2 giai đoạn: đầu tiên là giảm tính chiều, sau đó phân loại. Khi giảm kích thước, nó được giám sát, không giống như PCA. Khi phân loại, nó xem xét xác suất cận biên, không giống như hồi quy logistic.
ttnphns

Rõ ràng nhất là sử dụng thuật ngữ "giảm kích thước" để chỉ đối phó với các phương pháp học tập không giám sát, ví dụ: phân tích phân cụm và dự phòng. LDA được giám sát chặt chẽ việc học tập vì vậy sẽ tạo ra sự thiên vị quá mức nếu nó được sử dụng trong bước đầu tiên của việc giảm dữ liệu.
Frank Harrell

Một câu hỏi cũ hơn rất giống nhau: stats.stackexchange.com/q/22884 / 3277 .
ttnphns

1
Frank, các chiến lược khác nhau, ví dụ, về lựa chọn tính năng, có thể được áp dụng ở giai đoạn đầu tiên của LDA (bao gồm cả cách tiếp cận từng bước đối với bạn :-).
ttnphns

Câu trả lời:


22

Như tôi đã lưu ý trong nhận xét cho câu hỏi của bạn, phân tích phân biệt là một quy trình tổng hợp với hai giai đoạn riêng biệt - giảm kích thước (giám sát) và giai đoạn phân loại. Khi giảm kích thước, chúng tôi trích xuất các hàm phân biệt thay thế các biến giải thích ban đầu. Sau đó, chúng tôi phân loại (thường theo cách tiếp cận của Bayes) cho các lớp sử dụng các hàm đó.

Một số người có xu hướng không nhận ra bản chất hai giai đoạn rõ ràng này của LDA đơn giản vì họ chỉ làm quen với LDA với 2 lớp (được gọi là phân tích phân biệt đối xử của Fisher ). Trong phân tích như vậy, chỉ có một chức năng phân biệt tồn tại và phân loại là đơn giản, và vì vậy mọi thứ có thể được giải thích trong sách giáo khoa trong một "vượt qua" duy nhất mà không mời các khái niệm giảm không gian và phân loại Bayes.

LDA có liên quan chặt chẽ với MANOVA. Cái sau là một mặt "bề mặt và rộng" của mô hình tuyến tính (đa biến) trong khi bức tranh "chiều sâu và trọng tâm" của nó là phân tích tương quan chính tắc (CCA). Vấn đề là mối tương quan giữa hai bộ biến đa biến không phải là một chiều và được giải thích bằng một vài cặp biến "tiềm ẩn" được gọi là biến thiên chính tắc.

Khi giảm kích thước, LDA về mặt lý thuyết là CCA với hai bộ biến, một bộ là biến khoảng "giải thích" tương quan và bộ còn lại là biến giả (hoặc mã tương phản khác) đại diện cho các nhóm , các lớp quan sát.kk1k

Trong CCA, chúng tôi coi hai bộ biến tương quan X và Y là bằng nhau về quyền. Do đó, chúng tôi trích xuất các biến thiên chính tắc từ cả hai phía và chúng tạo thành các cặp: biến thiên 1 từ tập X và biến thiên 1 từ tập Y với tương quan chính tắc giữa chúng tối đa; sau đó biến thiên 2 từ tập X và biến thiên 2 từ tập Y với tương quan chính tắc nhỏ hơn, v.v. Trong LDA, chúng ta thường không quan tâm đến số lượng trong các biến thiên chính tắc từ phía tập hợp lớp; tuy nhiên chúng tôi quan tâm đến các biến thể kinh điển từ phía giải thích. Chúng được gọi là chức năng phân biệt chính tắc hoặc phân biệt đối xử .

Các phân biệt đối xử là những gì tương quan tối đa với "dòng" của sự tách biệt giữa các nhóm. Phân biệt đối xử 1 giải thích phần chính của sự tách biệt; phân biệt đối xử 2 chọn một số sự tách biệt không giải thích được do tính trực giao của sự tách biệt trước đó; descriminat 3 giải thích một số phần còn lại của sự tách biệt trực giao với hai phần trước, v.v. Trong LDA với các biến đầu vào (thứ nguyên) và lớp, số lượng phân biệt đối xử (giảm kích thước) có thể là và khi các giả định của LDA giữ số lượng này phân biệt hoàn toàn giữa các lớp và có thể phân loại đầy đủ dữ liệu cho các lớp ( xem ).k m i n ( k - 1 , p )pkmin(k1,p)

Nhắc lại, đây thực sự là CCA. LDA với 3+ lớp thậm chí còn được gọi là "LDA chính tắc". Mặc dù CCALDA thường được triển khai theo thuật toán khác nhau đôi chút, theo quan điểm về hiệu quả của chương trình, chúng "đủ" để có thể tính toán lại các kết quả (hệ số, v.v.) thu được trong một quy trình so với các quy trình khác. Hầu hết tính đặc hiệu của LDA nằm trong lĩnh vực mã hóa các biến phân loại đại diện cho các nhóm. Đây là vấn đề nan giải tương tự được quan sát thấy trong (M) ANOVA. Đề án mã hóa khác nhau dẫn đến cách giải thích khác nhau của các hệ số.

Vì LDA (như giảm kích thước) có thể được hiểu là một trường hợp cụ thể của CCA, bạn chắc chắn phải khám phá câu trả lời này khi so sánh CCA với PCA và hồi quy. Điểm chính ở đây là CCA, theo nghĩa nào đó, gần với hồi quy hơn PCA vì CCA là một kỹ thuật được giám sát (một tổ hợp tuyến tính tiềm ẩn được rút ra để tương quan với một cái gì đó bên ngoài) và PCA không (một kết hợp tuyến tính tiềm ẩn được vẽ để tóm tắt nội bộ). Đây là hai nhánh giảm chiều.

Khi nói đến toán học, bạn có thể thấy rằng trong khi phương sai của các thành phần chính tương ứng với giá trị riêng của đám mây dữ liệu (ma trận hiệp phương sai giữa các biến), thì phương sai của các phân biệt đối xử không liên quan rõ ràng với các giá trị riêng được tạo ra trong LDA. Lý do là trong LDA, giá trị riêng không tóm tắt hình dạng của đám mây dữ liệu; thay vào đó, chúng liên quan đến số lượng trừu tượng của tỷ lệ giữa lớp giữa biến thể trong lớp trong đám mây.

Vì vậy, các thành phần chính tối đa hóa phương sai và phân biệt đối xử tối đa hóa tách lớp; một trường hợp đơn giản trong đó PC không phân biệt được các lớp đủ tốt nhưng một hình ảnh phân biệt đối xử có thể là những hình ảnh này . Khi được vẽ dưới dạng các dòng trong phân biệt đối tượng không gian đặc trưng ban đầu thường không xuất hiện trực giao (tuy nhiên không tương quan), nhưng PC thì có.


Chú thích cho sự tỉ mỉ. Làm thế nào, trong kết quả của họ, LDA có liên quan chính xác đến CCA . Nhắc lại: nếu bạn thực hiện LDA với pcác biến và klớp và bạn thực hiện CCA với Set1 là các pbiến đó và Set2 là k-1biến giả chỉ báo đại diện cho các nhóm (thực tế, không nhất thiết là biến chỉ báo - các loại biến tương phản khác, như độ lệch hoặc Helmert - sẽ làm ), sau đó các kết quả tương đương với các biến thiên chính tắc được trích xuất cho Set1 - chúng tương ứng trực tiếp với các hàm phân biệt được trích xuất trong LDA. Mối quan hệ chính xác là gì?

Đại số và thuật ngữ của LDA được giải thích ở đây , và đại số và thuật ngữ của CCA được giải thích ở đây . Tương quan Canonical sẽ giống nhau. Nhưng những gì về hệ số và giá trị "độ trễ" (điểm số) thì sao? Hãy xem xét một thứ biệt thức và phóng viên ( th) variate kinh điển. Cho họ,jjj

CCA standardized coefficientLDA raw coefficient=CCA canonical variate valueLDA discriminant value=pooled within class variance in the variate pooled within class variance in the discriminant

"Tập hợp trong phương sai lớp" là trung bình có trọng số của phương sai nhóm với weight = n-1trong một nhóm. Trong phân biệt đối xử, đại lượng này là (đọc trong liên kết đại số LDA) và do đó, hệ số tỷ lệ để chuyển sang kết quả CCA từ kết quả LDA chỉ đơn giản là . Nhưng vì phương sai chính tắc được chuẩn hóa trong toàn bộ mẫu, nên hệ số này bằng với (được chuẩn hóa trong các nhóm). Vì vậy, chỉ cần chia kết quả LDA (hệ số và điểm số) cho của người phân biệt đối xử để có kết quả CCA.1 st. độ lệch của biệt thứcσ

pooled within class variance in the variate
st. deviation of the discriminantσ

Sự khác biệt giữa CCA và LDA là do LDA "biết" rằng có các lớp (nhóm): bạn trực tiếp chỉ ra các nhóm để tính toán bên trong và giữa các ma trận phân tán. Điều đó làm cho cả hai tính toán nhanh hơn và kết quả thuận tiện hơn cho việc phân loại tiếp theo bởi những người phân biệt đối xử. Mặt khác, CCA không nhận thức được các lớp và xử lý dữ liệu như thể tất cả chúng là các biến liên tục - nói chung chung hơn nhưng là cách tính toán chậm hơn. Nhưng kết quả là tương đương, và tôi đã chỉ ra cách làm.

Cho đến nay, người ta đã ngụ ý rằng các hình k-1nộm được nhập vào CCA theo cách điển hình, tức là tập trung (như các biến của Set1). Người ta có thể hỏi, liệu có thể nhập tất cả các hình knộm và không tập trung chúng (để thoát khỏi sự kỳ dị)? Vâng, nó là có thể, mặc dù có lẽ ít thuận tiện hơn. Sẽ xuất hiện một phương sai chính tắc bổ sung zero-eigenvalue, các hệ số cho nó sẽ bị loại bỏ. Kết quả khác vẫn còn hiệu lực. Ngoại trừ các df s để kiểm tra tầm quan trọng của tương quan chính tắc. Df cho tương quan thứ 1 sẽ p*klà sai và df đúng, như trong LDA, là p*(k-1).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.