Chuẩn hóa các tính năng khi sử dụng LDA làm bước tiền xử lý


9

Nếu Phân tích phân biệt tuyến tính nhiều lớp (đôi khi tôi cũng đọc Phân tích phân biệt nhiều lần) được sử dụng để giảm kích thước (hoặc chuyển đổi sau khi giảm kích thước thông qua PCA), tôi hiểu rằng nói chung là "bình thường hóa điểm Z" (hoặc tiêu chuẩn hóa) của các tính năng sẽ không cần thiết, ngay cả khi chúng được đo trên các thang đo hoàn toàn khác nhau, đúng không? Vì LDA có một thuật ngữ tương tự như khoảng cách Mahalanobis đã ngụ ý khoảng cách Euclide bình thường hóa?

Vì vậy, nó không chỉ không cần thiết, mà kết quả sau một LDA về các tính năng được tiêu chuẩn hóa và không được chuẩn hóa sẽ hoàn toàn giống nhau!?


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesKhông, tuyên bố này là không chính xác. Vấn đề tiêu chuẩn hóa với LDA cũng giống như trong bất kỳ phương pháp đa biến nào. Ví dụ: PCA. Khoảng cách Mahalanobis không liên quan gì đến chủ đề đó.
ttnphns

Cảm ơn, thật tuyệt nếu bạn có thể bình luận về "vấn đề tiêu chuẩn hóa" này trong PCA chẳng hạn. Nếu các tính năng không được chuẩn hóa cho PCA, không phải một số tính năng đóng góp (có trọng số) nhiều hơn nếu chúng được đo ở một tỷ lệ khác và cho tôi các trục thành phần hoàn toàn khác nhau? Và đối với LDA, tại sao nó không cần thiết? Là kết quả (các phân biệt tuyến tính) khác nhau, nếu không, tại sao?

2
Khi bạn chuẩn hóa (nghĩa là trung tâm, sau đó chia tỷ lệ), bạn sẽ thực sự phân tích các mối tương quan. Nếu bạn không chuẩn hóa, chỉ trung tâm, bạn thực sự sẽ phân tích hiệp phương sai. Kết quả sẽ khác nhau, điều này là bình thường, vì nó giống như bạn xử lý các dữ liệu khác nhau. Thực tế này không nên làm bạn lo lắng. Bạn có thể thích đọc số liệu thống kê chủ đề.stackexchange.com / q / 62677/32777 .
ttnphns

2
@SebastianRaschka, amip: Tôi phải xem xét lại nhận xét của mình The issue of standardization with LDA is the same as in any multivariate method. Trên thực tế, với kết quả LDA (trái ngược với PCA chẳng hạn), kết quả sẽ không khác nhau cho dù bạn chỉ tập trung (LDA bên trong luôn luôn tập trung vào các biến, để trích xuất dữ liệu phân biệt đối xử) hoặc chuẩn hóa dữ liệu.
ttnphns

2
(Tiếp) Giá trị bản địa, hệ số chuẩn hóa, tương quan cấu trúc, điểm số phân biệt đối xử - mọi thứ sẽ giống nhau. Chỉ người bản địa sẽ khác nhau. Lý do tại sao không có ảnh hưởng của tiêu chuẩn hóa đối với các kết quả chính trong LDA là LDA phân rã tỷ lệ giữa hiệp phương sai giữa và không phải là hiệp phương sai có độ lớn (như PCA).
ttnphns

Câu trả lời:


13

Tín dụng cho câu trả lời này được gửi tới @ttnphns, người đã giải thích mọi thứ trong các ý kiến ​​trên. Tuy nhiên, tôi muốn cung cấp một câu trả lời mở rộng.

Đối với câu hỏi của bạn: Kết quả LDA trên các tính năng được tiêu chuẩn hóa và không được tiêu chuẩn hóa có giống nhau không? --- câu trả lời là . Trước tiên tôi sẽ đưa ra một lập luận không chính thức, và sau đó tiến hành một số phép toán.

Hãy tưởng tượng một tập dữ liệu 2D được hiển thị dưới dạng một biểu đồ tán xạ ở một bên của một quả bóng (hình ảnh bóng ban đầu được chụp từ đây ): LDA trên một chiếc balo

xy


W1BWBBv=λWv

XT=XXXXnew= =XΛΛTnew= =ΛTΛWnewBnew

v

Bv= =λWv.
ΛΛΛ-1v
ΛBΛΛ-1v= =λΛWΛΛ-1v,
BnewΛ-1v= =λWnewΛ-1v,
Λ-1vλ

XvXΛ(Λ-1v)= =Xv


2
XXΛΛ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.