Đại số của LDA. Sức mạnh phân biệt đối xử của một phân tích phân biệt đối xử và tuyến tính


13

Rõ ràng,

phân tích Fisher nhằm tối đa hóa sự phân tách giữa các lớp, đồng thời giảm thiểu sự phân tán trong lớp. Do đó, một thước đo hữu ích về khả năng phân biệt đối xử của một biến được đưa ra bởi số lượng đường chéo: .Bii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Tôi hiểu rằng kích thước ( p x p) của ma trận giữa ( B ) và bên trong lớp ( W ) được cho bởi số lượng biến đầu vào , p. Với điều này, làm thế nào có thể là "thước đo hữu ích của sức mạnh phân biệt đối xử" của một biến? Ít nhất hai biến được yêu cầu để xây dựng ma trận B và W, vì vậy các dấu vết tương ứng sẽ đại diện cho nhiều hơn một biến.Bii/Wii

Cập nhật: Tôi có đúng không khi nghĩ rằng không phải là dấu vết trên dấu vết, trong đó tổng được ngụ ý, nhưng phần tử ma trận chia cho ? Hiện tại đó là cách duy nhất tôi có thể dung hòa biểu thức với khái niệm này. B i i W i iBii/WiiBiiWii

Câu trả lời:


23

Dưới đây là một câu chuyện ngắn về Phân tích Phân biệt Tuyến tính (LDA) như một câu trả lời cho câu hỏi.

Khi chúng ta có một biến và k nhóm (lớp) để phân biệt bởi nó, đây là ANOVA. Sức mạnh phân biệt đối xử của biến là SSbetween groups/SSwithin groups , hoặc B/W .

Khi chúng ta có biến , đây là MANOVA. Nếu các biến không tương quan trong toàn bộ mẫu cũng như trong các nhóm, thì khả năng phân biệt đối xử ở trên, B / W , được tính tương tự và có thể được viết là t r a c e ( S b ) / t r a c e ( S w ) , trong đó S w là ma trận phân tán trong nhóm được gộp chung (tức là tổng số ma trận k SSCP của các biến, tập trung vào trọng tâm của các nhóm tương ứng); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p Sblà ma trận phân tán giữa các nhóm , trong đó S t là ma trận phân tán cho toàn bộ dữ liệu (ma trận SSCP của các biến tập trung vào grand centroid. ("Ma trận phân tán" chỉ là ma trận hiệp phương sai mà không bị lệch bằng mẫu_size-1.)=StSwSt

Khi có một số mối tương quan giữa các biến - và thường là có - ở trên được biểu thị bằng S - 1 w S b không phải là vô hướng nữa mà là ma trận. Điều này đơn giản là do có p biến phân biệt đối xử ẩn đằng sau sự phân biệt "tổng thể" này và một phần chia sẻ nó.B/WSw1Sbp

Bây giờ, chúng ta có thể muốn nhấn chìm MANOVA và phân tách thành các biến tiềm ẩn mới và trực giao lẫn nhau (số của chúng là m i n ( p , k - 1 ) ) được gọi là các hàm phân biệt hoặc phân biệt đối xử - là số mạnh nhất phân biệt đối xử, thứ 2 đứng sau, vv Giống như chúng ta làm điều đó trong phân tích thành phần Dự đoán. Chúng tôi thay thế các biến tương quan ban đầu bằng các phân biệt đối xử không tương quan mà không mất sức mạnh phân biệt đối xử. Bởi vì mỗi phân biệt đối xử tiếp theo yếu hơn và yếu hơn, chúng tôi có thể chấp nhận một tập hợp nhỏ của m đầu tiênSw1Sbmin(p,k1)mphân biệt đối xử mà không mất sức mạnh phân biệt đối xử (một lần nữa, tương tự như cách chúng ta sử dụng PCA). Đây là bản chất của LDA về kỹ thuật giảm kích thước (LDA cũng là một kỹ thuật phân loại của Bayes, nhưng đây là một chủ đề hoàn toàn riêng biệt).

LDA do đó giống với PCA. PCA phân hủy "tính tương quan", LDA phân hủy "sự tách biệt". Trong LDA, do ma trận trên biểu thị "sự tách biệt" không đối xứng, nên một thủ thuật đại số bỏ qua được sử dụng để tìm giá trị riêng và hàm riêng 1 . Eigenvalue của mỗi hàm phân biệt (một biến tiềm ẩn) là khả năng phân biệt đối xử của nó B / W mà tôi đã nói trong đoạn đầu tiên. Ngoài ra, điều đáng nói là các phân biệt đối xử, mặc dù không tương quan, không trực giao về mặt hình học như các trục được vẽ trong không gian biến ban đầu.1B/W

Một số chủ đề có khả năng liên quan mà bạn có thể muốn đọc:

LDA được MANOVA "đào sâu" vào việc phân tích cấu trúc tiềm ẩn và là một trường hợp cụ thể của phân tích tương quan Canonical (tương đương chính xác giữa chúng như vậy ). Cách LDA phân loại các đối tượng và hệ số của Fisher là gì. (Hiện tại tôi chỉ liên kết với câu trả lời của riêng mình, vì tôi nhớ chúng, nhưng có nhiều câu trả lời hay và tốt hơn từ những người khác trên trang web này).


tính toán giai đoạn trích xuất LDAnhư sau. Eigenvalues ​​( L ) của S - 1 w S b giống như ma trận đối xứng ( U - 1 ) S b U - 1 , trong đó Ugốc Choleskycủa S w : một ma trận tam giác trên theo đó U U = S w . Đối với các hàm riêng của S - 1 w S b , chúng được cho bởi V1 LSw1Sb(U1)SbU1USwUU=SwSw1Sb , trong đó E là các hàm riêng của ma trận trên ( U - 1 ) S b U - 1 . (Lưu ý: U , có hình tam giác,có thể được đảo ngược- sử dụng ngôn ngữ cấp thấp - nhanh hơn so với sử dụng chức năng "inv" chung chung của các gói.)V=U1EE(U1)SbU1U

Phương pháp giải quyết giải pháp thay thế mô tả của được thực hiện trong một số chương trình (ví dụ trong SPSS), trong khi trong các chương trình khác, đã nhận ra phương pháp "quasi zca-làm trắng", chậm hơn một chút , cho kết quả tương tự và được mô tả ở nơi khác . Để tóm tắt nó ở đây: lấy ZCA-trắng ma trận cho S w - các vuông đối xứng gốc. S - 1 / 2 w (những gì được thực hiện thông qua eigendecomposition); sau đó eigendecomposition của S - 1 / 2 w S b S - 1 /Sw1SbSwSw1/2 (mà là một ma trận đối xứng) mang lại giá trị riêng biệt thứcLvà vector riêngMột, theo đó các vector riêng biệt thứcV=S - 1 / 2 w Một. Phương pháp "quasi zca-làm trắng" có thể được viết lại để được thực hiện thông qua phân tách giá trị số ít của dữ liệu casewise thay vì làm việc vớima trận phân tánSwSb; điều đó thêm độ chính xác tính toán (điều quan trọng trong tình huống gần như đơn lẻ), nhưng hy sinh tốc độ.Sw1/2SbSw1/2LAV=Sw1/2ASwSb

OK, hãy chuyển sang số liệu thống kê thường được tính trong LDA. Mối tương quan Canonical tương ứng với giá trị riêng là . Trong đó giá trị riêng của một người phân biệt đối xử làB/Wcủa ANOVA của phân biệt đối xử đó, bình phương tương quan chính tắc làB/T(T = tổng bình phương) của ANOVA đó.Γ=L/(L+1)B/WB/T

Nếu bạn bình thường hóa (thành SS = 1) các cột của hàm riêng thì các giá trị này có thể được xem như là các cosin hướng của phép quay các biến-trục thành các phân biệt trục; vì vậy với sự giúp đỡ của họ, người ta có thể vẽ các phân biệt đối xử như các trục trên biểu đồ phân tán được xác định bởi các biến ban đầu (các hàm riêng, như các trục trong không gian của các biến đó, không trực giao).V

Các unstandardized hệ số biệt thức hoặc trọng lượng chỉ đơn giản là các vector riêng quy mô . Đây là các hệ số dự đoán tuyến tính của các phân biệt đối xử bởi các biến ban đầu tập trung. Các giá trị của các hàm phân biệt (điểm số phân biệt đối xử) làXC, trong đóXlà các biến ban đầu được căn giữa (dữ liệu đa biến đầu vào với mỗi cột được căn giữa). Phân biệt đối xử là không tương quan. Và khi được tính theo công thức trên, họ cũng có một thuộc tính mà ma trận hiệp phương sai trong lớp của họ là ma trận danh tính.C=Nk VXCX

Các thuật ngữ không đổi tùy chọn đi kèm với các hệ số không đạt tiêu chuẩn và cho phép bỏ trung tâm các phân biệt đối xử nếu các biến đầu vào có ý nghĩa khác không là , trong đó d i a g ( ˉ X ) là ma trận đường chéo của phương tiện p biến 'và p là tổng trên các biến.C0=pdiag(X¯)Cdiag(X¯)p

Trong các hệ số phân biệt được tiêu chuẩn hóa , sự đóng góp của các biến vào phân biệt đối xử được điều chỉnh theo thực tế là các biến có phương sai khác nhau và có thể được đo bằng các đơn vị khác nhau; (trong đó diag (Sw) là ma trận đường chéo với đường chéo củaSw). Mặc dù được "chuẩn hóa", các hệ số này đôi khi có thể vượt quá 1 (vì vậy đừng nhầm lẫn). Nếu các biến đầu vào được chuẩn hóa z trong từng lớp riêng biệt, thì các hệ số được tiêu chuẩn hóa = các biến không chuẩn. Hệ số có thể được sử dụng để giải thích các phân biệt đối xử.K=diag(Sw)VSw

Gộp tương quan trong nhóm ( "ma trận cấu trúc", đôi khi được gọi là tải trọng) giữa các biến và biệt thức được đưa ra bởi . Mối tương quan không nhạy cảm với các vấn đề cộng tác và tạo thành một hướng dẫn thay thế (cho các hệ số) trong việc đánh giá các đóng góp của các biến và trong việc giải thích các phân biệt đối xử.R=diag(Sw)1SwV


Xem đầu ra hoàn chỉnh của giai đoạn trích xuất phân tích phân biệt dữ liệu mống mắt tại đây .

Đọc này câu trả lời sau đó thoải mái mà giải thích một chút chính thức hơn và trình bày chi tiết những điều tương tự như tôi đã làm ở đây.

Câu hỏi này liên quan đến vấn đề chuẩn hóa dữ liệu trước khi thực hiện LDA.


Như đã nói trong câu trả lời của bạn, chủ yếu LDA được sử dụng để giảm kích thước, nhưng nếu mục đích chỉ là phân loại, thì chúng ta chỉ có thể sử dụng phương pháp Bayes, phải không? Nhưng nếu mục đích là giảm kích thước, thì chúng ta phải thực hiện phương pháp của Fisher để tìm ra những hướng mà chúng ta sẽ chiếu đầu vào ban đầu , phải không? X

1
Đúng. Tuy nhiên, từ "Cách tiếp cận của Fisher" là mơ hồ. Nó có thể có nghĩa là 2 điều: 1) LDA (cho 2 lớp) riêng của mình ; 2) Chức năng phân loại của Fisher trong LDA.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.