Tóm lại
Cả một chiều MANOVA và LDA bắt đầu với phân hủy tổng ma trận tán xạ vào ma trận tán xạ trong lớp W và giữa các tầng lớp ma trận tán xạ B , sao cho T = W + B . Lưu ý rằng điều này là hoàn toàn tương tự như cách một chiều ANOVA phân hủy tổng bình phương T vào trong lớp và giữa các lớp tiền-of-ô vuông: T = B + W . Trong ANOVA, tỷ lệ B / W sau đó được tính toán và được sử dụng để tìm giá trị p: tỷ lệ này càng lớn thì giá trị p càng nhỏ. MANOVA và LDA hợp thành một đại lượng đa biến tương tự W - 1TWBT=W+BTT=B+WB/WW−1B .
Từ đây họ khác nhau. Mục đích duy nhất của MANOVA là kiểm tra xem phương tiện của tất cả các nhóm có giống nhau không; giả thuyết này sẽ có nghĩa là nên kích thước tương đương W . Vì vậy, MANOVA thực hiện phân phối lại W - 1 B và tìm giá trị riêng của nó λ i . Ý tưởng bây giờ là kiểm tra xem chúng có đủ lớn để từ chối null không. Có bốn cách phổ biến để hình thành một thống kê vô hướng trong toàn bộ tập hợp các giá trị riêng λ i . Một cách là lấy tổng của tất cả các giá trị riêng. Một cách khác là lấy giá trị riêng tối đa. Trong mỗi trường hợp, nếu thống kê được chọn đủ lớn, giả thuyết khống sẽ bị bác bỏ.BWW−1Bλiλi
Ngược lại, LDA thực hiện quá trình phân chia và xem xét các hàm riêng (không phải giá trị riêng). Các hàm riêng này xác định các hướng trong không gian biến và được gọi là các trục phân biệt . Chiếu dữ liệu lên trục phân biệt đầu tiên có phân tách lớp cao nhất (được đo bằng B / W ); lên cái thứ hai - cao thứ hai; v.v. Khi LDA được sử dụng để giảm kích thước, dữ liệu có thể được chiếu, ví dụ trên hai trục đầu tiên và các trục còn lại bị loại bỏ.W−1BB/W
Xem thêm một câu trả lời tuyệt vời của @ttnphns trong một chủ đề khác bao gồm gần như cùng một mặt bằng.
Thí dụ
Chúng ta hãy xem xét trường hợp một chiều với biến phụ thuộc và k = 3 nhóm quan sát (nghĩa là một yếu tố có ba cấp độ). Tôi sẽ lấy bộ dữ liệu Iris nổi tiếng của Fisher và chỉ xem xét chiều dài và chiều rộng vùng kín (để làm cho nó hai chiều). Đây là âm mưu phân tán:M=2k=3
Chúng ta có thể bắt đầu với việc tính toán ANOVA với cả chiều dài / chiều rộng riêng biệt. Tưởng tượng các điểm dữ liệu được chiếu theo chiều dọc hoặc chiều ngang trên trục x và y và ANOVA 1 chiều được thực hiện để kiểm tra nếu ba nhóm có cùng phương tiện. Chúng ta nhận được và p = 10 - 31 cho chiều dài vùng kín và F 2 , 147 = 49 và p = 10 - 17F2,147=119p=10−31F2,147=49p=10−17 cho chiều rộng của vùng kín. Được rồi, vì vậy ví dụ của tôi khá tệ vì ba nhóm khác nhau đáng kể với giá trị p vô lý trên cả hai biện pháp, nhưng dù sao tôi cũng sẽ tuân theo nó.
Bây giờ chúng ta có thể thực hiện LDA để tìm một trục phân tách tối đa ba cụm. Như đã trình bày ở trên, chúng tôi tính toán đầy đủ ma trận tán xạ , trong lớp ma trận tán xạ W và ma trận giữa lớp phân tán B = T - W và tìm vector riêng của W - 1 B . Tôi có thể vẽ cả hai hàm riêng trên cùng một biểu đồ phân tán:TWB=T−WW−1B
Đường đứt nét là các trục phân biệt. Tôi đã vẽ chúng với độ dài tùy ý, nhưng trục dài hơn cho thấy hàm riêng có giá trị riêng lớn hơn (4.1) và ngắn hơn --- cái có giá trị riêng nhỏ hơn (0,02). Lưu ý rằng chúng không trực giao, nhưng toán học của LDA đảm bảo rằng các hình chiếu trên các trục này có mối tương quan bằng không.
F=305p=10−53p=10−5
W−1BB/WF=B/W⋅(N−k)/(k−1)=4.1⋅147/2=305N=150 là tổng số điểm dữ liệu vàk=3 là số lượng nhóm).
λ1=4.1λ2=0.02p = 10- 55
F( 8 , 4 )
p = 10- 55p = 0,26p=10−54∼5p≈0.05p .
MANOVA vs LDA khi học máy so với thống kê
Điều này đối với tôi bây giờ là một trong những trường hợp mẫu mực về cách cộng đồng máy học và cộng đồng thống kê khác nhau tiếp cận cùng một điều. Mỗi sách giáo khoa về học máy bao gồm LDA, hiển thị hình ảnh đẹp, v.v. nhưng nó thậm chí sẽ không bao giờ đề cập đến MANOVA (ví dụ: Giám mục , Hastie và Murphy ). Có lẽ bởi vì mọi người quan tâm nhiều hơn đến độ chính xác phân loại LDA (tương ứng với kích thước hiệu ứng) và không quan tâm đến ý nghĩa thống kê của sự khác biệt nhóm. Mặt khác, sách giáo khoa về phân tích đa biến sẽ thảo luận về nauseam quảng cáo MANOVA, cung cấp nhiều dữ liệu được lập bảng (mảng) nhưng hiếm khi đề cập đến LDA và thậm chí hiếm hơn hiển thị các lô (ví dụAnderson , hoặc Harris ; tuy nhiên, Rencher & Christensen do và Huberty & Olejnik thậm chí còn được gọi là "Phân tích MANOVA và phân biệt đối xử").
Nhân tố MANOVA
Yếu tố MANOVA khó hiểu hơn nhiều, nhưng rất thú vị khi xem xét vì nó khác với LDA theo nghĩa là "LDA giai thừa" không thực sự tồn tại và MANOVA nhân tố không tương ứng trực tiếp với bất kỳ "LDA thông thường" nào.
3⋅2=6
Trong hình này, tất cả sáu "ô" (tôi cũng sẽ gọi chúng là "nhóm" hoặc "lớp") được phân tách rõ ràng, điều này tất nhiên hiếm khi xảy ra trong thực tế. Lưu ý rằng rõ ràng có tác động chính đáng kể của cả hai yếu tố ở đây và cũng có hiệu ứng tương tác đáng kể (vì nhóm phía trên bên phải được chuyển sang bên phải; nếu tôi di chuyển nó sang vị trí "lưới" của nó, thì sẽ không có hiệu ứng tương tác).
Làm thế nào để tính toán MANOVA làm việc trong trường hợp này?
WBABAW−1BA
BBBAB
T=BA+BB+BAB+W.
Bkhông thể được phân tách duy nhất thành tổng của ba yếu tố đóng góp vì các yếu tố không còn trực giao nữa; điều này tương tự như cuộc thảo luận về Loại I / II / III SS trong ANOVA.]
BAMột= T - BMột
Tuy nhiên, tất nhiên không có gì ngăn cản chúng ta nhìn vào người bản địa củaW- 1BMộtvà từ việc gọi chúng là "các trục phân biệt đối xử" cho yếu tố A trong MANOVA.