Phân tích phân biệt tuyến tính và quy tắc Bayes: phân loại

Mối quan hệ giữa phân tích phân biệt tuyến tính và quy tắc Bayes là gì? Tôi hiểu rằng LDA được sử dụng trong phân loại bằng cách cố gắng giảm thiểu tỷ lệ phương sai trong nhóm và giữa phương sai nhóm, nhưng tôi không biết cách sử dụng quy tắc Bayes trong đó.

classification discriminant-analysis bayes

— zca0
nguồn

Các hàm phân biệt được trích xuất để tối đa hóa biến thể giữa các nhóm thành tỷ lệ biến thể trong nhóm. Nó không liên quan gì đến phân loại, đó là giai đoạn thứ hai và độc lập của LDA.

— ttnphns

Phân loại trong LDA diễn ra như sau (phương pháp tiếp cận quy tắc của Bayes). [Về trích xuất phân biệt đối xử người ta có thể nhìn vào đây .]

Theo định lý Bayes, tìm kiếm, cho khả năng mà chúng tôi đang làm việc với lớp trong khi đang quan sát điểm là , nơi $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

- xác suất vô điều kiện (nền) của lớp ; - xác suất vô điều kiện (nền) của điểm ; - xác suất xuất hiện điểm trong lớp , nếu lớp được xử lý là . $P(k)$ $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

"Quan sát điểm hiện tại " là điều kiện cơ bản, , và do đó mẫu số có thể được bỏ qua. Do đó, $x$ $P(x)=1$ . $P(k|x) = P(k)*P(x|k)$

là xác suất trước (phân tích trước) rằng lớp gốc cho là ; được chỉ định bởi người dùng. Thông thường theo mặc định, tất cả các lớp đều nhận được = 1 / number_of_groupes bằng nhau. Để tính , tức là xác suất sau (phân tích hậu) xác suất rằng lớp gốc cho là , người ta phải biết $P(k)$ $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ . $P(x|k)$

- xác suấtmỗi se- không thể tìm thấy, đối với người phân biệt đối xử, vấn đề chính của LDA, là các biến liên tục, không rời rạc. Số lượng biểu thị trong trường hợp này và tỷ lệ với nó làmật độ xác suất(hàm PDF). Bằng cách này, chúng ta cần tính toán PDF cho điểm trong lớp , , trongphân phối chuẩn -chiều hai chiều được hình thành bởi các giá trị của $P(x|k)$ $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$ phân biệt đối xử. [Xem Wikipedia phân phối bình thường nhiều biến số]

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

trong đó - bình phương khoảng cách Mahalanobis [Xem khoảng cách Wikipedia Mahalanobis] trong không gian của người phân biệt đối xử từ điểm đến một trung tâm lớp; - ma trận hiệp phương sai giữa các phân biệt đối xử , được quan sát trong lớp đó. $d$ $x$ $\bf S$

Tính theo cách này cho mỗi lớp. cho điểm và lớp bày tỏ sự ưa chuộng cho đối với chúng tôi. Nhưng với dự trữ trên mà PDF không có xác suất mỗi lần, chỉ tỷ lệ thuận với nó, chúng ta nên bình thường hóa $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ , chia cho tổng của s khắp các lớp học. Ví dụ: nếu có tất cả 3 lớp, , , , thì $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Điểm được LDA gán cho lớp mà là cao nhất. $x$ $P(k|x)$

Ghi chú. Đây là cách tiếp cận chung. Nhiều chương trình LDA theo mặc định sử dụng ma trận trong lớp gộp chung cho tất cả các lớp trong công thức cho PDF ở trên. Nếu vậy, công thức đơn giản hóa rất nhiều vì như vậy trong LDA là ma trận danh tính (xem chú thích dưới cùng ở đây ), và do đó và biến thành khoảng cách euclide bình phương (nhắc nhở: nhóm trong nhóm chúng ta đang nói đến là hiệp phương sai giữa các phân biệt đối xử, - không phải giữa các biến đầu vào, ma trận thường được chỉ định là ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Ngoài ra . Trước khi phương pháp phân loại Bayes ở trên được giới thiệu cho LDA, Fisher, người tiên phong LDA, đã đề xuất tính toán cái gọi là các hàm phân loại tuyến tính của Fisher để phân loại các điểm trong LDA. Đối với điểm , điểm số của lớp là tổ hợp tuyến tính , trong đó $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ là các biến dự đoán trong phân tích. $V1, V2,...V_p$

Hệ số , là số lớp và là phần tử của ma trận phân tán trong lớp gộp của biến. $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

. $Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$

Điểm được chỉ định cho lớp có điểm cao nhất. Kết quả phân loại thu được bằng phương pháp của Fisher này (mà bỏ qua khai thác của biệt thức tham gia vào eigendecomposition phức tạp) là giống hệt với những thu được bằng cách Bayes' phương pháp duy nhất nếu gộp trong lớp ma trận hiệp phương sai được sử dụng với Bayes' phương pháp dựa trên biệt thức (xem mục 'Ghi chú' ở trên) và tất cả các phân biệt đối xử đang được sử dụng trong phân loại. Phương pháp của Bayes tổng quát hơn vì nó cũng cho phép sử dụng các ma trận trong lớp riêng biệt . $x$

— ttnphns
nguồn

This is Bayesian approach right? What is the Fisher's approach for this?

— zca0

Added to the answer upon your request

— ttnphns

+1 for distinguishing between Bayes' and Fisher's approach of LDA. I'm a new-comer in LDA, and the books I read teach me LDA in Bayes' approach, which classifies

X

$X$ to class

K

$K$ with the highest

p (K | X)

$p(K|X)$ , so I have to compute all the

p (K | X)

$p(K|X)$ for each class

K

$K$ , right? By Fisher's approach, I just need to figure out the discriminants and their corresponding coefs, and no need to compute the posterior for each class, right?

— avocado

And I think the Bayes' approach is more understandable, and why do we need to use the Fisher's approach?

— avocado

We don't need. Just for historical matter.

— ttnphns

Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vector $x$ and class conditional densities $f_1(x)$ and $f_2(x)$ the Bayes rule will classify $x$ as belonging to group 1 if $f_1(x) \geq f_2(x)$ and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if $f_1$ and $f_2$ are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).

— Michael R. Chernick
nguồn