Phương pháp tiếp cận của Bayesian và Fisher để phân tích phân biệt tuyến tính


10

Tôi biết 2 cách tiếp cận để làm LDA, cách tiếp cận Bayescách tiếp cận của Fisher .

Giả sử chúng ta có dữ liệu , trong đó là bộ dự báo chiều và là biến phụ thuộc của các lớp(x,y)xpyK

Theo cách tiếp cận của Bayes , chúng tôi tính toán và đã nói trong sách, giả sử là Gaussian, giờ chúng ta có hàm phân biệt đối với lớp thứ là , tôi có thể thấy là tuyến tính hàm của , vì vậy đối với tất cả các lớp chúng ta có các hàm phân biệt tuyến tính

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)k
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKK

Tuy nhiên, theo cách tiếp cận của Fisher , chúng tôi cố gắng chiếu không gian đến để trích xuất các tính năng mới nhằm giảm thiểu phương sai trong lớp và tối đa hóa phương sai giữa các lớp , giả sử ma trận chiếu là với mỗi cột là hình chiếu phương hướng. Cách tiếp cận này giống như một kỹ thuật giảm kích thước .x(K1)W

Câu hỏi của tôi là

(1) Chúng ta có thể giảm kích thước bằng cách sử dụng phương pháp Bayes không? Ý tôi là, chúng ta có thể sử dụng cách tiếp cận Bayes để phân loại bằng cách tìm các hàm phân biệt mang lại giá trị lớn nhất cho , nhưng các hàm phân biệt có thể được sử dụng để chiếu vào không gian con chiều thấp hơn ? Giống như cách tiếp cận của Fisher .fk(x)xfk(x)x

(2) Làm và làm thế nào hai cách tiếp cận liên quan với nhau? Tôi không thấy bất kỳ mối quan hệ nào giữa chúng, bởi vì người ta dường như chỉ có thể thực hiện phân loại với giá trị và cái còn lại chủ yếu nhằm mục đích giảm kích thước.fk(x)

CẬP NHẬT

Nhờ @amoeba, theo cuốn sách của ESL, tôi đã tìm thấy điều này: nhập mô tả hình ảnh ở đây

và đây là hàm phân biệt tuyến tính, xuất phát qua định lý Bayes cộng với giả sử tất cả các lớp có cùng ma trận hiệp phương sai . Và hàm phân biệt này là CÙNG như một tôi đã viết ở trên.Σfk(x)

Tôi có thể sử dụng làm hướng để chiếu , để giảm kích thước không? Tôi không chắc chắn về điều này, vì AFAIK, việc giảm kích thước đạt được bằng cách thực hiện phân tích phương sai giữa các bên trong .Σ1μkx

CẬP NHẬT

Từ phần 4.3.3, đây là cách các dự đoán đó xuất phát:

nhập mô tả hình ảnh ở đây

và tất nhiên nó giả sử một hiệp phương sai được chia sẻ giữa các lớp, đó là ma trận hiệp phương sai chung (đối với hiệp phương sai trong lớp)W , phải không? Vấn đề của tôi là làm thế nào để tôi tính này từ dữ liệu? Vì tôi sẽ có ma trận hiệp phương sai khác nhau trong lớp nếu tôi cố gắng tính từ dữ liệu. Vì vậy, tôi phải hồ bơi tất cả các lớp hiệp phương sai với nhau để có được một trong những phổ biến?WKW


1
Bạn đặt câu hỏi trộn lẫn hai điều. Tôi nghĩ rằng bạn đã không tiêu hóa cuộc trò chuyện của chúng tôi về câu hỏi trước đây của bạn . Những gì bạn mô tả đầu tiên là cách tiếp cận Bayes để phân loại (không phải là "cách tiếp cận Bayes với LDA"). Cách tiếp cận này có thể được sử dụng (1) với các biến ban đầu là phân loại hoặc (2) với các phân biệt đối xử thu được trong LDA là phân loại. Cách tiếp cận của Fisher là gì?
ttnphns

1
(Tiếp) Chà, "Fisher's LDA" chỉ đơn giản là LDA với K = 2. Khi thực hiện phân loại trong LDA Fisher như vậy đã phát minh ra các công thức của riêng mình để thực hiện phân loại. Những công thức này cũng có thể hoạt động với K> 2. Phương pháp phân loại của ông ngày nay hầu như không được sử dụng vì cách tiếp cận của Bayes mang tính khái quát hơn.
ttnphns

1
@ttnphns, lý do tại sao tôi bối rối là vì hầu hết mỗi cuốn sách tôi đề cập đến nói về LDA sử dụng phương pháp Bayes này, giảng về LDA như một mô hình thế hệ, họ không đề cập đến tỷ lệ phương sai giữa các nhóm .

1
@loganecolss: Bạn đã thấy câu trả lời của tôi dưới đây chưa? Bạn có câu hỏi nào về nó không? Tôi hơi bối rối, vì tôi nghĩ rằng tôi đã giải thích những gì bạn đang hỏi lại trong các bình luận. Phương pháp "giữa phương sai" tương đương về mặt toán học với "phương pháp Bayes" với giả định hiệp phương sai bằng nhau. Bạn có thể nghĩ về điều này như một định lý toán học đáng ngạc nhiên, nếu bạn muốn. Bằng chứng được đưa ra trong cuốn sách của Hastie có sẵn miễn phí trên mạng và trong một số sách giáo khoa về máy học khác. Vì vậy, tôi không chắc "cách xác thực duy nhất để làm LDA" có nghĩa là gì; Hai cách này giống hệt nhau.
amip nói phục hồi Monica

1
@loganecolss: Tin tôi đi, chúng tương đương nhau :) Vâng, bạn sẽ có thể rút ra các phép chiếu, nhưng bạn cần một giả định bổ sung về ma trận hiệp phương sai bằng nhau (như tôi đã viết trong câu trả lời của tôi). Xem bình luận của tôi dưới đây.
amip nói phục hồi Monica

Câu trả lời:


10

Tôi sẽ chỉ cung cấp một câu trả lời không chính thức ngắn và giới thiệu cho bạn phần 4.3 của Các yếu tố của học thống kê để biết chi tiết.

Cập nhật: "Các yếu tố" xảy ra bao gồm rất chi tiết chính xác các câu hỏi bạn đang hỏi ở đây, bao gồm cả những gì bạn đã viết trong bản cập nhật của mình. Phần có liên quan là 4.3 và đặc biệt là 4.3.2-4.3.3.

(2) Làm và làm thế nào hai cách tiếp cận liên quan với nhau?

Họ chắc chắn làm. Cách bạn gọi là phương pháp "Bayes" là tổng quát hơn và chỉ giả định các phân phối Gaussian cho mỗi lớp. Hàm khả năng của bạn về cơ bản là khoảng cách Mahalanobis từ đến trung tâm của mỗi lớp.x

Tất nhiên bạn đúng rằng với mỗi lớp, nó là hàm tuyến tính của . Tuy nhiên, lưu ý rằng tỷ lệ khả năng của hai lớp khác nhau (mà bạn sẽ sử dụng để thực hiện phân loại thực tế, tức là chọn giữa các lớp) - tỷ lệ này sẽ không tuyến tính trong nếu các lớp khác nhau có khác nhau ma trận hiệp phương sai. Trong thực tế, nếu một người tìm ra ranh giới giữa các lớp, họ hóa ra là bậc hai, do đó, nó còn được gọi là phân tích phân biệt đối xử bậc hai , QDA.xx

Một cái nhìn sâu sắc quan trọng là các phương trình đơn giản hóa đáng kể nếu giả định rằng tất cả các lớp có hiệp phương sai giống hệt nhau [ Cập nhật: nếu bạn giả định tất cả cùng, đây có thể là một phần của sự hiểu lầm] . Trong trường hợp đó, ranh giới quyết định trở thành tuyến tính và đó là lý do tại sao thủ tục này được gọi là phân tích phân biệt tuyến tính, LDA.

Phải mất một số thao tác đại số để nhận ra rằng trong trường hợp này, các công thức thực sự trở nên chính xác tương đương với những gì mà Fisher đã thực hiện bằng cách sử dụng phương pháp của mình. Hãy nghĩ về điều đó như một định lý toán học. Xem sách giáo khoa của HỌ cho tất cả các môn toán.

(1) Chúng ta có thể giảm kích thước bằng cách sử dụng phương pháp Bayes không?

Nếu theo "cách tiếp cận Bayes", bạn có nghĩa là đối phó với các ma trận hiệp phương sai khác nhau trong mỗi lớp, thì không. Ít nhất nó sẽ không phải là giảm kích thước tuyến tính (không giống như LDA), vì những gì tôi đã viết ở trên.

Tuy nhiên, nếu bạn hài lòng khi giả sử ma trận hiệp phương sai được chia sẻ, thì chắc chắn là có, bởi vì "phương pháp Bayes" đơn giản là tương đương với LDA. Tuy nhiên, nếu bạn kiểm tra Hastie 4.3.3, bạn sẽ thấy rằng các phép chiếu chính xác không được đưa ra bởi như bạn đã viết (tôi thậm chí không hiểu ý nghĩa của nó: những phép chiếu này phụ thuộc vào , và những gì thường có nghĩa là chiếu là một cách để chiếu tất cả các điểm từ tất cả các lớp vào cùng một đa chiều chiều thấp hơn), nhưng bằng cách đầu tiên [tổng quát] eigenvector của , trong đó là ma trận hiệp phương sai của các lớp trung tâm .Σ1μkkΣ1MMμk


1
+1. Tôi cũng có thể liên kết với câu trả lời của riêng mình khi đề cập đến số liệu thống kê QDA.stackexchange.com/a/71571/3277 .
ttnphns

+1 cho phần giải quyết câu hỏi của tôi 2). Tôi biết rằng bằng cách thực hiện phân tích phương sai giữa các bên trong , tôi có thể tìm ra hướng tốt nhất để chiếu biến ban đầu và có được những phân biệt đối xử đó. Điều tôi đang vật lộn với bây giờ là tôi có thể tìm thấy các hướng chiếu đó bằng Bayesian mà không đề cập đến tỷ lệ phương sai giữa các bên trong không? X

@loganecolss: Như tôi đã nói, bạn cần giả sử thêm rằng tất cả các lớp có cùng một ma trận hiệp phương sai! Sau đó, bắt đầu với phương pháp Bayes của bạn + giả định này, bạn có thể rút ra các phép chiếu LDA tiêu chuẩn. Ý tưởng là để chéo hóa . Điều này được viết trong một số chi tiết trong Các yếu tố của học thống kê, phần 4.3. Σ
amip nói phục hồi Monica

Tôi sẽ đọc phần đó sau. Như bạn đã nói, giả sử tất cả các lớp có cùng ma trận hiệp phương sai, tôi có thể rút ra một hàm mà tôi đã viết trong bài đăng của mình , phải không? Và thực sự là một hàm tuyến tính của , và theo nhận xét của bạn, có nên là ma trận chiếu LDA không? fk(x)fk(x)xΣ1μk

Tôi cập nhật bài đăng của mình, thêm một đoạn clip của phần 4.3
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.