Như AdamO gợi ý trong nhận xét trên, bạn thực sự không thể làm tốt hơn đọc Chương 4 của Các yếu tố của học thống kê (mà tôi sẽ gọi là HTF) so sánh LDA với các phương pháp phân loại tuyến tính khác, đưa ra nhiều ví dụ và cũng thảo luận về việc sử dụng của LDA như là một kỹ thuật giảm kích thước trong tĩnh mạch của PCA, như ttnphns chỉ ra, là khá phổ biến.
Từ quan điểm phân loại, tôi nghĩ sự khác biệt chính là điều này. Hãy tưởng tượng rằng bạn có hai lớp và bạn muốn tách chúng ra. Mỗi lớp có một hàm mật độ xác suất. Tình huống tốt nhất có thể xảy ra là nếu bạn biết các hàm mật độ này, bởi vì sau đó bạn có thể dự đoán một điểm sẽ thuộc về lớp nào bằng cách đánh giá mật độ cụ thể của lớp tại thời điểm đó.
Một số loại phân loại hoạt động bằng cách tìm một xấp xỉ với các hàm mật độ của các lớp. LDA là một trong số đó; nó làm cho giả định rằng mật độ là đa biến bình thường với cùng một ma trận hiệp phương sai. Đây là một giả định mạnh mẽ, nhưng nếu nó gần đúng, bạn sẽ có được một bộ phân loại tốt. Nhiều phân loại khác cũng áp dụng cách tiếp cận này, nhưng cố gắng linh hoạt hơn so với giả định tính quy tắc. Ví dụ, xem trang 108 của HTF.
Mặt khác, trên trang 210, HTF cảnh báo:
Nếu phân loại là mục tiêu cuối cùng, thì việc học tốt mật độ lớp riêng biệt có thể là không cần thiết, và trên thực tế có thể gây hiểu nhầm.
Một cách tiếp cận khác chỉ đơn giản là tìm kiếm một ranh giới giữa hai lớp, đó là những gì mà tri giác làm. Một phiên bản tinh vi hơn của điều này là máy vectơ hỗ trợ. Các phương thức này cũng có thể được kết hợp với việc thêm các tính năng vào dữ liệu bằng cách sử dụng một kỹ thuật gọi là kernelization. Điều này không hoạt động với LDA vì nó không bảo toàn tính quy tắc, nhưng không có vấn đề gì đối với một bộ phân loại chỉ tìm kiếm một siêu phẳng tách biệt.
Sự khác biệt giữa LDA và một bộ phân loại tìm kiếm một siêu phẳng tách biệt giống như sự khác biệt giữa thử nghiệm t và một số thay thế không thay đổi trong thống kê thông thường. Cái sau mạnh hơn (ví dụ như ngoại lệ), nhưng cái trước là tối ưu nếu các giả định của nó được thỏa mãn.
Một nhận xét nữa: có thể đáng nói rằng một số người có thể có lý do văn hóa khi sử dụng các phương pháp như LDA hoặc hồi quy logistic, có thể bắt buộc phải phun ra các bảng ANOVA, kiểm tra giả thuyết và trấn an những thứ như thế. LDA được phát minh bởi Fisher; perceptionron ban đầu là một mô hình cho tế bào thần kinh của người hoặc động vật và không có mối liên hệ nào với các số liệu thống kê. Nó cũng hoạt động theo cách khác; một số người có thể thích các phương pháp như máy vectơ hỗ trợ vì chúng có loại tín dụng hipster tiên tiến mà phương pháp thế kỷ hai mươi không thể phù hợp. Điều đó không có nghĩa là họ tốt hơn. (Một ví dụ điển hình về điều này được thảo luận trong Machine Learning for Hackers , nếu tôi nhớ lại chính xác.)