Phân loại trong LDA diễn ra như sau (phương pháp tiếp cận quy tắc của Bayes). [Về trích xuất phân biệt đối xử người ta có thể nhìn vào đây .]
Theo định lý Bayes, tìm kiếm, cho khả năng mà chúng tôi đang làm việc với lớp trong khi đang quan sát điểm x là P ( k | x ) = P ( k ) * P ( x | k ) / P ( x ) , nơikxP(k|x)=P(k)∗P(x|k)/P(x)
- xác suất vô điều kiện (nền) của lớp k ; P ( x ) - xác suất vô điều kiện (nền) của điểm x ; P ( x | k ) - xác suất xuất hiện điểm x trong lớp k , nếu lớp được xử lý là k .P(k)kP(x)xP(x|k)xkk
"Quan sát điểm hiện tại " là điều kiện cơ bản, P ( x ) = 1 , và do đó mẫu số có thể được bỏ qua. Do đó, P ( k | x ) = P ( k ) * P (xP(x)=1 .P(k|x)=P(k)∗P(x|k)
là xác suất trước (phân tích trước) rằng lớp gốc cho x là k ; P ( k ) được chỉ định bởi người dùng. Thông thường theo mặc định, tất cả các lớp đều nhận được P ( k ) = 1 / number_of_groupes bằng nhau. Để tính P ( k | x ) , tức là xác suất sau (phân tích hậu) xác suất rằng lớp gốc cho x là k , người ta phải biết P ( xP(k)xkP(k)P(k)P(k|x)xk .P(x|k)
- xác suấtmỗi se- không thể tìm thấy, đối với người phân biệt đối xử, vấn đề chính của LDA, là các biến liên tục, không rời rạc. Số lượng biểu thị P ( x | k ) trong trường hợp này và tỷ lệ với nó làmật độ xác suất(hàm PDF). Bằng cách này, chúng ta cần tính toán PDF cho điểm x trong lớp k , P D F ( x | k ) , trongphân phối chuẩn p -chiều hai chiều được hình thành bởi các giá trị của pP(x|k)P(x|k)xkPDF(x|k)ppphân biệt đối xử. [Xem Wikipedia phân phối bình thường nhiều biến số]
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
trong đó - bình phương khoảng cách Mahalanobis [Xem khoảng cách Wikipedia Mahalanobis] trong không gian của người phân biệt đối xử từ điểm x đến một trung tâm lớp; S - ma trận hiệp phương sai giữa các phân biệt đối xử , được quan sát trong lớp đó.dxS
Tính theo cách này cho mỗi lớp. P ( k ) * P D F ( x | k ) cho điểm x và lớp k bày tỏ sự ưa chuộng cho P ( k ) * P ( x | k ) đối với chúng tôi. Nhưng với dự trữ trên mà PDF không có xác suất mỗi lần, chỉ tỷ lệ thuận với nó, chúng ta nên bình thường hóaPDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k) , chia cho tổng của P ( k ) * P D F ( x | k ) s khắp các lớp học. Ví dụ: nếu có tất cả 3 lớp, k , l , m , thìP(k)∗PDF(x|k)P(k)∗PDF(x|k)klm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
Điểm được LDA gán cho lớp mà P ( k | x ) là cao nhất.xP(k|x)
Ghi chú. Đây là cách tiếp cận chung. Nhiều chương trình LDA theo mặc định sử dụng ma trận trong lớp S được gộp chung cho tất cả các lớp trong công thức cho PDF ở trên. Nếu vậy, công thức đơn giản hóa rất nhiều vì S như vậy trong LDA là ma trận danh tính (xem chú thích dưới cùng ở đây ), và do đó | S | = 1 và d biến thành khoảng cách euclide bình phương (nhắc nhở: nhóm S trong nhóm chúng ta đang nói đến là hiệp phương sai giữa các phân biệt đối xử, - không phải giữa các biến đầu vào, ma trận thường được chỉ định là S w ).SS|S|=1dSSw
Ngoài ra . Trước khi phương pháp phân loại Bayes ở trên được giới thiệu cho LDA, Fisher, người tiên phong LDA, đã đề xuất tính toán cái gọi là các hàm phân loại tuyến tính của Fisher để phân loại các điểm trong LDA. Đối với điểm , điểm số của lớp k là tổ hợp tuyến tính b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , trong đó V 1 ,xkbkv1V1x+bkv2V2x+...+Constk là các biến dự đoán trong phân tích.V1,V2,...Vp
Hệ số , g là số lớp và s v w là phần tử của ma trận phân tán trong lớp gộp của p V- biến.bkv=(n−g)∑pwsvwV¯kwgsvwp V
.Constk=log(P(k))−(∑pvbkvV¯kv)/2
Điểm được chỉ định cho lớp có điểm cao nhất. Kết quả phân loại thu được bằng phương pháp của Fisher này (mà bỏ qua khai thác của biệt thức tham gia vào eigendecomposition phức tạp) là giống hệt với những thu được bằng cách Bayes' phương pháp duy nhất nếu gộp trong lớp ma trận hiệp phương sai được sử dụng với Bayes' phương pháp dựa trên biệt thức (xem mục 'Ghi chú' ở trên) và tất cả các phân biệt đối xử đang được sử dụng trong phân loại. Phương pháp của Bayes tổng quát hơn vì nó cũng cho phép sử dụng các ma trận trong lớp riêng biệt .x