MANOVA liên quan đến LDA như thế nào?


18

Ở một số nơi tôi đã thấy một tuyên bố rằng MANOVA giống như ANOVA cộng với phân tích phân biệt đối xử tuyến tính (LDA), nhưng nó luôn được thực hiện theo cách vẫy tay. Tôi muốn biết chính xác nó có nghĩa là gì.

Tôi đã tìm thấy nhiều sách giáo khoa mô tả tất cả các chi tiết của tính toán MANOVA, nhưng dường như rất khó để tìm thấy cuộc thảo luận chung tốt (huống chi là hình ảnh ) có thể truy cập được cho một người không phải là một nhà thống kê.


2
Các tài khoản địa phương của riêng tôi về LDA tương đối ANOVA và MANOVA là cái này , cái này . Có thể họ đang vẫy tay, nhưng họ giải quyết chủ đề của bạn ở một mức độ nào đó. Điểm mấu chốt ở đây là "LDA là MANOVA chìm trong cấu trúc tiềm ẩn". MANOVA là một cơ sở thử nghiệm giả thuyết rất phong phú; trong số những thứ khác nó có thể phân tích cấu trúc tiềm ẩn của sự khác biệt; phân tích này bao gồm LDA.
ttnphns

1
@ttnphns, tôi sợ nhận xét trước đó của tôi không được gửi (tôi quên đặt tên người dùng của bạn), vì vậy hãy để tôi nhắc lại: Wow, cảm ơn rất nhiều, câu trả lời được liên kết của bạn dường như rất liên quan đến câu hỏi của tôi và tôi đã bỏ lỡ chúng trong tìm kiếm của tôi trước khi đăng. Tôi sẽ mất một thời gian để tiêu hóa chúng và tôi có thể quay lại với bạn sau đó, nhưng có lẽ bây giờ bạn có thể chỉ cho tôi một số giấy tờ / sách về các chủ đề này? Tôi rất thích xem một cuộc thảo luận chi tiết về công cụ này theo phong cách các câu trả lời được liên kết của bạn.
amip nói rằng Phục hồi Monica

Chỉ cần một tài khoản cũ và cổ điển webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . BTW tôi đã không đọc nó cho đến nay. Một bài viết liên quan khác dl.acm.org/citation.cfm?id=1890259 .
ttnphns

@ttnphns: Cảm ơn bạn. Tôi đã tự viết một câu trả lời cho câu hỏi của mình, về cơ bản cung cấp một số hình ảnh minh họa và một ví dụ cụ thể cho câu trả lời được liên kết tuyệt vời của bạn trên LDA / MANOVA. Tôi nghĩ rằng họ bổ sung cho nhau tốt đẹp.
amip nói rằng Phục hồi lại

Câu trả lời:


21

Tóm lại

Cả một chiều MANOVA và LDA bắt đầu với phân hủy tổng ma trận tán xạ vào ma trận tán xạ trong lớp W và giữa các tầng lớp ma trận tán xạ B , sao cho T = W + B . Lưu ý rằng điều này là hoàn toàn tương tự như cách một chiều ANOVA phân hủy tổng bình phương T vào trong lớp và giữa các lớp tiền-of-ô vuông: T = B + W . Trong ANOVA, tỷ lệ B / W sau đó được tính toán và được sử dụng để tìm giá trị p: tỷ lệ này càng lớn thì giá trị p càng nhỏ. MANOVA và LDA hợp thành một đại lượng đa biến tương tự W - 1TWBT=W+BTT=B+WB/WW1B .

Từ đây họ khác nhau. Mục đích duy nhất của MANOVA là kiểm tra xem phương tiện của tất cả các nhóm có giống nhau không; giả thuyết này sẽ có nghĩa là nên kích thước tương đương W . Vì vậy, MANOVA thực hiện phân phối lại W - 1 B và tìm giá trị riêng của nó λ i . Ý tưởng bây giờ là kiểm tra xem chúng có đủ lớn để từ chối null không. Có bốn cách phổ biến để hình thành một thống kê vô hướng trong toàn bộ tập hợp các giá trị riêng λ i . Một cách là lấy tổng của tất cả các giá trị riêng. Một cách khác là lấy giá trị riêng tối đa. Trong mỗi trường hợp, nếu thống kê được chọn đủ lớn, giả thuyết khống sẽ bị bác bỏ.BWW1Bλiλi

Ngược lại, LDA thực hiện quá trình phân chia và xem xét các hàm riêng (không phải giá trị riêng). Các hàm riêng này xác định các hướng trong không gian biến và được gọi là các trục phân biệt . Chiếu dữ liệu lên trục phân biệt đầu tiên có phân tách lớp cao nhất (được đo bằng B / W ); lên cái thứ hai - cao thứ hai; v.v. Khi LDA được sử dụng để giảm kích thước, dữ liệu có thể được chiếu, ví dụ trên hai trục đầu tiên và các trục còn lại bị loại bỏ.W1BB/W

Xem thêm một câu trả lời tuyệt vời của @ttnphns trong một chủ đề khác bao gồm gần như cùng một mặt bằng.

Thí dụ

Chúng ta hãy xem xét trường hợp một chiều với biến phụ thuộc và k = 3 nhóm quan sát (nghĩa là một yếu tố có ba cấp độ). Tôi sẽ lấy bộ dữ liệu Iris nổi tiếng của Fisher và chỉ xem xét chiều dài và chiều rộng vùng kín (để làm cho nó hai chiều). Đây là âm mưu phân tán:M=2k=3

Âm mưu phân tán của Iris Iris

Chúng ta có thể bắt đầu với việc tính toán ANOVA với cả chiều dài / chiều rộng riêng biệt. Tưởng tượng các điểm dữ liệu được chiếu theo chiều dọc hoặc chiều ngang trên trục x và y và ANOVA 1 chiều được thực hiện để kiểm tra nếu ba nhóm có cùng phương tiện. Chúng ta nhận được p = 10 - 31 cho chiều dài vùng kín và F 2 , 147 = 49p = 10 - 17F2,147=119p=1031F2,147=49p=1017 cho chiều rộng của vùng kín. Được rồi, vì vậy ví dụ của tôi khá tệ vì ba nhóm khác nhau đáng kể với giá trị p vô lý trên cả hai biện pháp, nhưng dù sao tôi cũng sẽ tuân theo nó.

Bây giờ chúng ta có thể thực hiện LDA để tìm một trục phân tách tối đa ba cụm. Như đã trình bày ở trên, chúng tôi tính toán đầy đủ ma trận tán xạ , trong lớp ma trận tán xạ W và ma trận giữa lớp phân tán B = T - W và tìm vector riêng của W - 1 B . Tôi có thể vẽ cả hai hàm riêng trên cùng một biểu đồ phân tán:TWB=TWW1B

Ngư dân Iris LDA

Đường đứt nét là các trục phân biệt. Tôi đã vẽ chúng với độ dài tùy ý, nhưng trục dài hơn cho thấy hàm riêng có giá trị riêng lớn hơn (4.1) và ngắn hơn --- cái có giá trị riêng nhỏ hơn (0,02). Lưu ý rằng chúng không trực giao, nhưng toán học của LDA đảm bảo rằng các hình chiếu trên các trục này có mối tương quan bằng không.

F=305p=1053p=105

W1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150 là tổng số điểm dữ liệu vàk=3 là số lượng nhóm).

λ1=4.1λ2=0.02p= =10-55

F(số 8,4)

Fisher Iris LDA sửa đổi

p= =10-55p= =0,26p=10545p0.05p .

MANOVA vs LDA khi học máy so với thống kê

Điều này đối với tôi bây giờ là một trong những trường hợp mẫu mực về cách cộng đồng máy học và cộng đồng thống kê khác nhau tiếp cận cùng một điều. Mỗi sách giáo khoa về học máy bao gồm LDA, hiển thị hình ảnh đẹp, v.v. nhưng nó thậm chí sẽ không bao giờ đề cập đến MANOVA (ví dụ: Giám mục , HastieMurphy ). Có lẽ bởi vì mọi người quan tâm nhiều hơn đến độ chính xác phân loại LDA (tương ứng với kích thước hiệu ứng) và không quan tâm đến ý nghĩa thống kê của sự khác biệt nhóm. Mặt khác, sách giáo khoa về phân tích đa biến sẽ thảo luận về nauseam quảng cáo MANOVA, cung cấp nhiều dữ liệu được lập bảng (mảng) nhưng hiếm khi đề cập đến LDA và thậm chí hiếm hơn hiển thị các lô (ví dụAnderson , hoặc Harris ; tuy nhiên, Rencher & Christensen do và Huberty & Olejnik thậm chí còn được gọi là "Phân tích MANOVA và phân biệt đối xử").

Nhân tố MANOVA

Yếu tố MANOVA khó hiểu hơn nhiều, nhưng rất thú vị khi xem xét vì nó khác với LDA theo nghĩa là "LDA giai thừa" không thực sự tồn tại và MANOVA nhân tố không tương ứng trực tiếp với bất kỳ "LDA thông thường" nào.

32=6

nhân tố MANOVA

Trong hình này, tất cả sáu "ô" (tôi cũng sẽ gọi chúng là "nhóm" hoặc "lớp") được phân tách rõ ràng, điều này tất nhiên hiếm khi xảy ra trong thực tế. Lưu ý rằng rõ ràng có tác động chính đáng kể của cả hai yếu tố ở đây và cũng có hiệu ứng tương tác đáng kể (vì nhóm phía trên bên phải được chuyển sang bên phải; nếu tôi di chuyển nó sang vị trí "lưới" của nó, thì sẽ không có hiệu ứng tương tác).

Làm thế nào để tính toán MANOVA làm việc trong trường hợp này?

WBABAW1BA

BBBAB

T=BA+BB+BAB+W.
Bkhông thể được phân tách duy nhất thành tổng của ba yếu tố đóng góp vì các yếu tố không còn trực giao nữa; điều này tương tự như cuộc thảo luận về Loại I / II / III SS trong ANOVA.]

BMộtWMột= =T-BMột

Tuy nhiên, tất nhiên không có gì ngăn cản chúng ta nhìn vào người bản địa củaW-1BMộtvà từ việc gọi chúng là "các trục phân biệt đối xử" cho yếu tố A trong MANOVA.


+1, đó là một tài khoản tốt đẹp của nó. Tôi đổi B^-1 Wthành W^-1 B. Hình ảnh của bạn với các phân biệt đối xử như các trục tương tự như cốt truyện của riêng tôi , tôi tin rằng bạn đã sử dụng cùng một phương pháp "xoay vòng phi ngôn ngữ theo cách tiếp cận bình thường hóa".
ttnphns

Tôi thấy hơi mơ hồ MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA tất nhiên không biết về chúng tôi làm LDA. MANOVA đơn giản tiêu thụ nhiều df hơn ANOVA, vì đây là thử nghiệm 2 chiều, đó là lý do tại sao sức mạnh của giá trị p phải là -54 thay vì -55.
ttnphns

Tôi nghi ngờ rằng nên nói về các giá trị p. Thay vào đó, điểm chính mà MANOVA phân tích ma trận W^-1 Bgiống như LDA. LDA tạo ra các biến tiềm ẩn (các phân biệt đối xử) từ nó. MANOVA không; tuy nhiên, nó điều tra ma trận trên một cách toàn diện hơn, tính toán các số liệu thống kê khác nhau (như dấu vết của Pillai, dấu vết của Hotteling) để kiểm tra căn cứ vào chúng.
ttnphns

Cốt truyện sẽ là ẩn dụ của MANOVA (và tôi nghĩ rằng bạn có thể muốn thêm nó vào câu trả lời của mình) trái ngược với LDA (hình ảnh thứ 2 của bạn) sẽ là cốt truyện mà 3 centroid được kết nối với centroid lớn bằng các đường đứt nét .
ttnphns

Cuối cùng, tôi không nghĩ bạn đúng trọng số nên sự khác biệt cao trong thống kê và học máy. Tôi đã học phân tích dữ liệu thống kê trước khi tôi nghe từ machine learninglần đầu tiên. Và các văn bản tôi đọc sau đó đã thảo luận về LDA khá nhiều, cùng với MANOVA.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.