Phân tích phân biệt tuyến tính và dữ liệu không được phân phối thông thường


8

Nếu tôi hiểu chính xác, Phân tích phân biệt tuyến tính (LDA) giả định dữ liệu phân tán bình thường, các tính năng độc lập và hiệp phương sai giống hệt nhau cho mọi lớp cho tiêu chí tối ưu.

Vì giá trị trung bình và phương sai được ước tính từ dữ liệu đào tạo, không phải nó đã vi phạm rồi sao?

Tôi tìm thấy một trích dẫn trong một bài báo (Li, Tao, Shenghuo Zhu và Mitsunori Ogihara. Sử dụng phân tích phân biệt đối xử để phân loại nhiều lớp: Một cuộc điều tra thử nghiệm . Hệ thống thông tin và kiến ​​thức 10, số 4 (2006): 453. .)

"phân tích phân biệt tuyến tính thường đạt được hiệu suất tốt trong các nhiệm vụ nhận diện khuôn mặt và đối tượng, mặc dù các giả định về ma trận hiệp phương sai chung giữa các nhóm và tính quy phạm thường bị vi phạm (Duda, et al., 2001)"

- thật không may, tôi không thể tìm thấy phần tương ứng trong Duda et. al. "Phân loại mẫu".

Bất kỳ kinh nghiệm hoặc suy nghĩ về việc sử dụng LDA (so với LDA thường xuyên hoặc QDA) cho dữ liệu không bình thường trong bối cảnh giảm kích thước?


1
Bạn hỏi cụ thể về LDA đa lớp. Điều gì khiến bạn nghĩ rằng LDA nhiều lớp và LDA hai lớp hành xử khác nhau về mặt này (vi phạm các quy tắc và / hoặc các giả định hiệp phương sai chung)?
amip

Nếu tôi không thiếu thứ gì ở đây, thì nó nên dựa trên những giả định tương tự, phải không? Tôi chỉ không thấy bất kỳ giả định nào trong bài viết của Rao liên quan đến tính quy phạm, nhưng tôi đã khái quát câu hỏi

Câu trả lời:


11

Đây là những gì Hastie et al. phải nói về nó (trong bối cảnh LDA hai lớp) trong Các yếu tố của học thống kê, phần 4.3:

Do đạo hàm LDA này thông qua các bình phương tối thiểu không sử dụng giả định Gaussian cho các tính năng, nên khả năng ứng dụng của nó vượt ra ngoài phạm vi của dữ liệu Gaussian. Tuy nhiên, đạo hàm của điểm chặn hoặc điểm cắt cụ thể được đưa ra trong (4.11) không yêu cầu dữ liệu Gaussian. Do đó, điều hợp lý là thay vào đó chọn điểm cắt giảm thiểu thực tế lỗi đào tạo cho một tập dữ liệu nhất định. Đây là một cái gì đó chúng tôi đã tìm thấy để làm việc tốt trong thực tế, nhưng chưa thấy nó được đề cập trong tài liệu.

Tôi không hiểu đầy đủ về đạo hàm thông qua các bình phương tối thiểu mà chúng đề cập đến, nhưng nói chung [Cập nhật: Tôi sẽ tóm tắt ngắn gọn tại một số điểm] Tôi nghĩ rằng đoạn này có ý nghĩa: ngay cả khi dữ liệu không phải là Gaussian hoặc lớp hiệp phương sai rất khác nhau, trục LDA có thể vẫn sẽ mang lại một số phân biệt đối xử. Tuy nhiên, điểm cắt trên trục này (tách hai lớp) do LDA đưa ra có thể bị tắt hoàn toàn. Tối ưu hóa nó một cách đáng kể có thể cải thiện đáng kể phân loại.

Lưu ý rằng điều này chỉ đề cập đến hiệu suất phân loại. Nếu tất cả những gì bạn đang theo là giảm kích thước, thì trục LDA là tất cả những gì bạn cần. Vì vậy, dự đoán của tôi là để giảm kích thước, LDA thường sẽ làm một công việc tốt ngay cả khi các giả định bị vi phạm.

Về rLDA và QDA: rLDA phải được sử dụng nếu không có đủ điểm dữ liệu để ước tính một cách đáng tin cậy hiệp phương sai trong lớp (và rất quan trọng trong trường hợp này). Và QDA là một phương pháp phi tuyến tính, vì vậy tôi không chắc chắn làm thế nào để sử dụng nó để giảm kích thước.


Cảm ơn một lần nữa cho thông tin phản hồi có giá trị và kỹ lưỡng này! Tôi sẽ để câu hỏi mở trong vài ngày để thu thập thêm một số ý kiến

Vài ngày đã trôi qua :)
amip

Tôi có thể biết rằng trong bối cảnh giảm kích thước bằng LDA / FDA. LDA/FDA can start with n dimensions and end with k dimensions, where k < n. Đúng không? Hoặc Đầu ra làc-1 where c is the number of classes and the dimensionality of the data is n with n>c.
aan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.