Khi các lớp được phân tách tốt, các ước tính tham số cho hồi quy logistic không ổn định một cách đáng ngạc nhiên. Hệ số có thể đi đến vô cùng. LDA không gặp phải vấn đề này.
Nếu có các giá trị đồng biến có thể dự đoán kết quả nhị phân một cách hoàn hảo thì thuật toán hồi quy logistic, tức là ghi điểm của Fisher, thậm chí không hội tụ. Nếu bạn đang sử dụng R hoặc SAS, bạn sẽ nhận được cảnh báo rằng xác suất bằng 0 và một đã được tính toán và thuật toán đã bị sập. Đây là trường hợp cực đoan của sự phân tách hoàn hảo nhưng ngay cả khi dữ liệu chỉ được phân tách ở mức độ lớn và không hoàn hảo, công cụ ước tính khả năng tối đa có thể không tồn tại và ngay cả khi nó tồn tại, các ước tính không đáng tin cậy. Kết quả phù hợp là không tốt chút nào. Có rất nhiều chủ đề liên quan đến vấn đề phân tách trên trang web này vì vậy bằng mọi cách hãy xem xét.
Ngược lại, người ta không thường gặp phải các vấn đề ước tính với phân biệt đối xử của Fisher. Nó vẫn có thể xảy ra nếu ma trận giữa hoặc trong ma trận hiệp phương sai là số ít nhưng đó là một trường hợp khá hiếm. Trong thực tế, nếu có sự tách biệt hoàn toàn hoặc gần như hoàn toàn thì tốt hơn bởi vì người phân biệt đối xử có nhiều khả năng thành công hơn.
Một điều đáng nói nữa là trái với niềm tin phổ biến LDA không dựa trên bất kỳ giả định phân phối nào. Chúng tôi chỉ hoàn toàn yêu cầu sự bình đẳng của ma trận hiệp phương sai dân số vì một công cụ ước lượng gộp được sử dụng cho ma trận hiệp phương sai trong phạm vi. Theo các giả định bổ sung về tính quy phạm, xác suất trước bằng nhau và chi phí phân loại sai, LDA là tối ưu theo nghĩa là nó giảm thiểu xác suất phân loại sai.
Làm thế nào để LDA cung cấp quan điểm chiều thấp?
Dễ thấy hơn đối với trường hợp có hai quần thể và hai biến. Dưới đây là một hình ảnh đại diện về cách LDA hoạt động trong trường hợp đó. Hãy nhớ rằng chúng tôi đang tìm kiếm sự kết hợp tuyến tính của các biến để tối đa hóa khả năng phân tách.
Do đó, dữ liệu được chiếu trên vectơ có hướng tốt hơn để đạt được sự phân tách này. Làm thế nào chúng ta thấy rằng vectơ là một vấn đề thú vị của đại số tuyến tính, về cơ bản chúng ta tối đa hóa thương số Rayleigh, nhưng bây giờ chúng ta hãy bỏ qua điều đó. Nếu dữ liệu được chiếu trên vectơ đó, kích thước sẽ giảm từ hai xuống một.
pg min(g−1,p)
Nếu bạn có thể đặt tên nhiều ưu hoặc nhược điểm, điều đó sẽ tốt đẹp.
Tuy nhiên, đại diện chiều thấp không đến mà không có nhược điểm, điều quan trọng nhất tất nhiên là mất thông tin. Đây không phải là vấn đề khi dữ liệu có thể phân tách tuyến tính nhưng nếu chúng không bị mất thông tin có thể là đáng kể và bộ phân loại sẽ hoạt động kém.
Cũng có thể có trường hợp bình đẳng của ma trận hiệp phương sai có thể không phải là một giả định có thể sử dụng được. Bạn có thể sử dụng một bài kiểm tra để đảm bảo nhưng những bài kiểm tra này rất nhạy cảm với sự khởi hành từ tính quy tắc, do đó bạn cần đưa ra giả định bổ sung này và cũng kiểm tra nó. Nếu người ta thấy rằng các quần thể là bình thường với ma trận hiệp phương sai không bằng nhau thì có thể sử dụng quy tắc phân loại bậc hai (QDA) nhưng tôi thấy rằng đây là một quy tắc khá khó xử, không đề cập đến phản trực giác ở các chiều cao.
Nhìn chung, ưu điểm chính của LDA là sự tồn tại của một giải pháp rõ ràng và sự tiện lợi tính toán của nó, điều này không xảy ra đối với các kỹ thuật phân loại tiên tiến hơn như SVM hoặc mạng thần kinh. Cái giá chúng ta phải trả là tập hợp các giả định đi kèm với nó, cụ thể là độ phân tách tuyến tính và đẳng thức của ma trận hiệp phương sai.
Hi vọng điêu nay co ich.
EDIT : Tôi nghi ngờ tuyên bố của tôi rằng LDA đối với các trường hợp cụ thể mà tôi đã đề cập không yêu cầu bất kỳ giả định phân phối nào ngoài sự bình đẳng của ma trận hiệp phương sai đã khiến tôi phải trả giá. Điều này không kém phần đúng tuy nhiên vì vậy hãy để tôi được cụ thể hơn.
x¯i, i=1,2Spooled
maxa(aTx¯1−aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda
Giải pháp của vấn đề này (lên đến hằng số) có thể được hiển thị là
a=S−1pooledd=S−1pooled(x¯1−x¯2)
Điều này tương đương với LDA mà bạn có được theo giả định về tính quy tắc, ma trận hiệp phương sai bằng nhau, chi phí phân loại sai và xác suất trước, phải không? Vâng, ngoại trừ bây giờ chúng tôi đã không giả định bình thường.
Không có gì ngăn bạn sử dụng phân biệt đối xử ở trên trong tất cả các cài đặt, ngay cả khi ma trận hiệp phương sai không thực sự bằng nhau. Nó có thể không tối ưu theo nghĩa chi phí dự kiến của phân loại sai (ECM) nhưng đây là việc học có giám sát để bạn luôn có thể đánh giá hiệu suất của nó, ví dụ như sử dụng quy trình tạm dừng.
Người giới thiệu
Giám mục, Christopher M. Mạng lưới thần kinh để nhận dạng mẫu. Báo chí đại học Oxford, 1995.
Johnson, Richard Arnold và Dean W. Wicotta. Ứng dụng phân tích thống kê đa biến. Tập 4. Vách đá Englewood, NJ: Hội trường Prentice, 1992.