Mối quan hệ giữa hồi quy và phân tích phân biệt tuyến tính (LDA) là gì?


24

Có một mối quan hệ giữa hồi quy và phân tích phân biệt tuyến tính (LDA)? Điểm tương đồng và khác biệt của chúng là gì? Liệu nó có làm nên sự khác biệt nếu có hai lớp hoặc nhiều hơn hai lớp không?


3
Một lưu ý cho người đọc: câu hỏi không rõ ràng, nó có thể được hiểu là hỏi về hồi quy logistic hoặc về hồi quy tuyến tính . OP dường như đã quan tâm đến cả hai khía cạnh (xem bình luận). Câu trả lời được chấp nhận là về hồi quy tuyến tính, nhưng một số câu trả lời khác tập trung vào hồi quy logistic thay thế.
amip nói phục hồi Monica

Câu trả lời:


20

Tôi cho rằng câu hỏi là về LDA và hồi quy tuyến tính (không phải logistic).

Có một mối quan hệ đáng kể và có ý nghĩa giữa hồi quy tuyến tínhphân tích phân biệt tuyến tính . Trong trường hợp biến phụ thuộc (DV) chỉ gồm 2 nhóm, hai phân tích thực sự giống hệt nhau. Mặc dù các tính toán là khác nhau và kết quả - hồi quy và hệ số phân biệt - không giống nhau, chúng chính xác tỷ lệ với nhau.

Bây giờ cho tình huống nhiều hơn hai nhóm. Trước tiên, chúng ta hãy nói rằng LDA (trích xuất của nó, không phải giai đoạn phân loại) là tương đương (kết quả liên quan tuyến tính) với phân tích tương quan chính tắc nếu bạn biến DV nhóm thành một tập hợp các biến giả (với một biến thừa của chúng bị loại bỏ) và thực hiện chính tắc phân tích với bộ "IV" và "người giả". Canonical biến đổi về phía "IV" mà bạn có được những gì LDA gọi là "chức năng phân biệt đối xử" hoặc "phân biệt đối xử".

Vì vậy, sau đó làm thế nào phân tích kinh điển có liên quan đến hồi quy tuyến tính? Phân tích Canonical về bản chất là một MANOVA (theo nghĩa "Hồi quy tuyến tính đa biến" hoặc "Mô hình tuyến tính tổng quát đa biến") đi sâu vào cấu trúc tiềm ẩnvề mối quan hệ giữa các DV và IV. Hai biến thể này được phân rã trong mối quan hệ tương tác của chúng thành "các biến thể kinh điển" tiềm ẩn. Hãy lấy ví dụ đơn giản nhất, Y vs X1 X2 X3. Tối đa hóa mối tương quan giữa hai bên là hồi quy tuyến tính (nếu bạn dự đoán Y theo Xs) hoặc - đó là điều tương tự - là MANOVA (nếu bạn dự đoán Xs theo Y). Mối tương quan là không có chiều (với độ lớn R ^ 2 = dấu vết của Pillai) vì tập hợp nhỏ hơn, Y, chỉ bao gồm một biến. Bây giờ chúng ta hãy lấy hai bộ sau: Y1 Y2 so với X1 x2 x3. Tương quan được tối đa hóa ở đây là 2 chiều vì tập nhỏ hơn chứa 2 biến. Kích thước tiềm ẩn đầu tiên và mạnh mẽ hơn của mối tương quan được gọi là tương quan kinh điển thứ nhất và phần còn lại, trực giao với nó, tương quan kinh điển thứ 2. Vì thế, MANOVA (hoặc hồi quy tuyến tính) chỉ hỏi vai trò một phần (hệ số) của các biến trong toàn bộ tương quan 2 chiều của các tập hợp là gì; trong khi phân tích chính tắc chỉ đi bên dưới để hỏi vai trò một phần của các biến trong chiều tương quan thứ nhất và thứ 2 là gì.

Do đó, phân tích tương quan chính tắc là hồi quy tuyến tính đa biến đi sâu vào cấu trúc tiềm ẩn của mối quan hệ giữa các DV và IV. Phân tích phân biệt đối xử là một trường hợp cụ thể của phân tích tương quan chính tắc ( xem chính xác làm thế nào ). Vì vậy, đây là câu trả lời về mối quan hệ của LDA với hồi quy tuyến tính trong trường hợp chung gồm nhiều hơn hai nhóm.

Lưu ý rằng câu trả lời của tôi hoàn toàn không xem LDA là kỹ thuật phân loại. Tôi đã thảo luận về LDA chỉ là kỹ thuật khai thác tiềm ẩn. Phân loại là giai đoạn thứ hai và độc lập của LDA (tôi đã mô tả nó ở đây ). @Michael Chernick đã tập trung vào nó trong câu trả lời của mình.


Tại sao tôi cần "phân tích tương quan chính tắc" và nó làm gì ở đây? Cảm ơn.
zca0

1
+1 (từ lâu rồi). Bạn có biết bất kỳ tài liệu tham khảo nào thảo luận (một số chi tiết) mối liên hệ này giữa MANOVA / CCA / hồi quy giữa X và ma trận của các hình nộm nhóm Y và LDA (đối với trường hợp chung của hơn hai nhóm) không? Bây giờ tôi đang nghiên cứu chủ đề này và tôi nghĩ rằng tôi đã tìm ra nó ít nhiều, nhưng khi tôi tìm kiếm regression formulation of LDAnó thật khó để tìm thấy thứ gì đó - có nhiều tài liệu nghiên cứu được xuất bản sau năm 2000 nói rằng công thức như vậy không tồn tại hoặc cố gắng đề nghị một. Có lẽ có một tài liệu tham khảo [cũ] tốt?
amip nói phục hồi Monica

3
Mmm .. Chỉ cần một vài giấy tờ đến với tâm trí một cách nhanh chóng : Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Nếu bạn không thể tìm thấy chúng trên internet, tôi có thể gửi cho bạn. Nếu bạn tìm thấy nhiều nguồn tốt hơn - vui lòng cho chúng tôi biết.
ttnphns

1
Đoạn văn của tôi hoàn toàn không ngụ ý rằng bạn có thể có được các hệ số CCA chỉ có kết quả hồi quy (MANOVA) trong tay. Tôi đã nói rằng MANOVA là "bề mặt" và CCA là các lớp "sâu" hơn của cùng một doanh nghiệp phân tích. Tôi không nói chúng là từ đồng nghĩa hay cái này là trường hợp cụ thể của cái kia.
ttnphns

1
Tôi hiểu rồi. Tôi quyết định đăng một câu trả lời khác ở đây, cung cấp các chi tiết toán học về tương đương LDA / hồi quy.
amip nói rằng Phục hồi lại

11

Dưới đây là một tài liệu tham khảo cho một trong những bài báo của Efron: Hiệu quả của hồi quy logistic so với phân tích phân biệt đối xử thông thường , 1975.

Một bài báo khác có liên quan là Ng & Jordan, 2001, On Discriminative vs Generative classifier: So sánh hồi quy logistic và Bayes ngây thơ . Và đây là một bản tóm tắt về một nhận xét về nó bởi Xue & Titterington , 2008, trong đó đề cập đến các bài báo của O'Neill liên quan đến luận án tiến sĩ của ông:

So sánh các phân loại khái quát và phân biệt đối xử là một chủ đề lâu dài. Là một đóng góp quan trọng cho chủ đề này, dựa trên sự so sánh lý thuyết và thực nghiệm của họ giữa phân loại Bayes ngây thơ và hồi quy logistic tuyến tính, Ng và Jordan (NIPS 841 --- 848, 2001) cho rằng tồn tại hai chế độ hiệu suất khác nhau giữa các thế hệ và phân loại phân biệt đối xử về kích thước tập huấn luyện. Trong bài báo này, tuy nhiên, các nghiên cứu mô phỏng và thực nghiệm của chúng tôi, như là một bổ sung cho công việc của họ, tuy nhiên, cho thấy rằng sự tồn tại của hai chế độ riêng biệt có thể không đáng tin cậy như vậy. Ngoài ra, đối với các bộ dữ liệu trong thế giới thực, cho đến nay vẫn chưa có tiêu chí chung về mặt lý thuyết, tiêu chí chung để lựa chọn giữa các phương pháp phân biệt đối xử và khái quát để phân loại một quan sátx thành một lớpy ; sự lựa chọn phụ thuộc vào độ tin cậy tương đối mà chúng ta có về tính chính xác của đặc điểm kỹ thuật củap(y|x) hoặcp(x,y) cho dữ liệu. Điều này có thể phần nào là một minh chứng cho lý do tại sao Efron (J Am Stat PGS 70 (352): 892 --- 898, 1975) và O'Neill (J Am Stat PGS 75 (369): 154 --- 160, 1980 ) thích phân tích phân biệt tuyến tính dựa trên bình thường (LDA) khi không có đặc điểm kỹ thuật sai mô hình xảy ra nhưng các nghiên cứu thực nghiệm khác có thể thích hồi quy logistic tuyến tính thay thế. Hơn nữa, chúng tôi khuyên rằng việc ghép cặp LDA giả sử ma trận hiệp phương sai đường chéo chung (LDA) hoặc phân loại Bayes ngây thơ và hồi quy logistic tuyến tính có thể không hoàn hảo, và do đó có thể không đáng tin cậy cho bất kỳ khiếu nại nào xuất phát từ so sánh giữa LDA hoặc phân loại Bayes ngây thơ và hồi quy logistic tuyến tính được khái quát cho tất cả các phân loại phân biệt và phân biệt.

Có rất nhiều tài liệu tham khảo khác về điều này mà bạn có thể tìm thấy trực tuyến.


+1 cho nhiều tài liệu tham khảo được đặt tốt về chủ đề (hiện đã được làm rõ bởi OP) về hồi quy logistic so với LDA.
Macro

1
Dưới đây là một so sánh khác về các phân loại phân biệt và phân biệt đối xử của Yaroslav Bulatov trên Quora: quora.com/iêu
Pardis

Cũng là một chủ đề liên quan, stats.stackexchange.com/q/95247/3277
ttnphns

7

Mục đích của câu trả lời này là để giải thích mối quan hệ toán học chính xác giữa phân tích phân biệt tuyến tính (LDA) và hồi quy tuyến tính đa biến (MLR). Nó sẽ chỉ ra rằng khung chính xác được cung cấp bằng cách giảm hồi quy xếp hạng (RRR).

Chúng tôi sẽ chỉ ra rằng LDA tương đương với RRR của ma trận chỉ báo lớp trắng trên ma trận dữ liệu.


Ký hiệu

Đặt là ma trận n × d với các điểm dữ liệu x i trong các hàng và các biến trong các cột. Mỗi điểm thuộc về một trong các lớp k hoặc nhóm. Điểm x i thuộc số lớp g ( i ) .Xn×dxikxig(i)

Đặt là thành viên nhóm mã hóa ma trận chỉ số n × k như sau: G i j = 1 nếu x i thuộc lớp jG i j = 0 nếu không. Có n điểm dữ liệu j trong lớp j ; tất nhiên n j = n .Gn×kGij=1xijGij=0njjnj=n

Chúng tôi giả định rằng dữ liệu được căn giữa và vì vậy giá trị trung bình toàn cầu bằng 0, . Đặt là giá trị trung bình của lớp .μ jμ=0μjj

LDA

Tổng ma trận phân tán có thể được phân tách thành tổng của ma trận phân tán giữa lớp và trong lớp được định nghĩa như sau: Người ta có thể xác minh rằng . LDA tìm kiếm các trục phân biệt có phương sai giữa các nhóm tối đa và phương sai trong nhóm tối thiểu của phép chiếu. Cụ thể, trục phân biệt đầu tiên là vectơ đơn vị tối đa hóa và phân biệt đầu tiên các trục xếp chồng lên nhau thành một ma trậnC bC=XXC=Cb+CwwwCbw/(wCww)pWLLDA=tr( W C bW( W

Cb= =ΣjnjμjμjCw= =Σ(xtôi-μg(tôi))(xtôi-μg(tôi)).
C= =Cb+CwwwCbw/(wCww)pW nên tối đa hóa dấu vết
LLDMột= =tr(WCbW(WCwW)-1).

Giả sử là thứ hạng đầy đủ, giải pháp LDA là ma trận của các hàm riêng của (được sắp xếp theo giá trị riêng theo thứ tự giảm dần).W L D A C - 1 w C bCwWLDMộtCw-1Cb

Đây là câu chuyện thông thường. Bây giờ chúng ta hãy thực hiện hai quan sát quan trọng.

Đầu tiên, ma trận phân tán trong lớp có thể được thay thế bằng ma trận phân tán tổng (cuối cùng vì tối đa hóa tương đương với tối đa hóa ), và thực tế, rất dễ thấy rằng có cùng các hàm riêng.b / ( b + w ) C - 1 C bb/wb/(b+w)C-1Cb

Thứ hai, ma trận phân tán giữa các lớp có thể được thể hiện thông qua ma trận thành viên nhóm được xác định ở trên. Thật vậy, là ma trận tổng của nhóm. Để có được ma trận của phương tiện nhóm, nó cần được nhân với một ma trận đường chéo với trên đường chéo; nó do . Do đó, ma trận của phương tiện nhóm là ( sapienti sẽ nhận thấy rằng đó là một công thức hồi quy). Để có được chúng ta cần lấy ma trận phân tán của nó, được tính trọng số theo cùng một ma trận đường chéo, thu được Nếu tất cả giống hệt nhau và bằngn j GG ( GG ) - 1 GXGXnjGG(GG)-1GXC b = XG ( GG ) - 1 GX . n j m XG GX / mCb

Cb= =XG(GG)-1GX.
njm("tập dữ liệu cân bằng"), sau đó biểu thức này đơn giản hóa thành .XGGX/m

Chúng ta có thể định nghĩa ma trận chỉ báo chuẩn hóa là có trong đó có . Sau đó cho cả hai, cân và không cân bằng tập hợp dữ liệu, khái niệm đơn giản là . Lưu ý rằng là, đến một yếu tố không đổi, ma trận chỉ báo được làm trắng : . 1/G~ G1Cb=X1/njG1~ G ~ G = G ( GG ) - 1 / 2Cb= =XG~G~XG~G~= =G(GG)-1/2

hồi quy

Để đơn giản, chúng tôi sẽ bắt đầu với trường hợp của một bộ dữ liệu cân bằng.

Xem xét hồi quy tuyến tính của trên . Nó tìm thấy thu nhỏ . Hồi quy xếp hạng giảm làm tương tự theo ràng buộc rằng phải thuộc cấp bậc . Nếu vậy, có thể được viết là với cả và có cột . Người ta có thể chỉ ra rằng giải pháp xếp hạng hai có thể thu được từ giải pháp xếp hạng bằng cách giữ cột đầu tiên và thêm một cột phụ, v.v.X BG - X B 2 B p B B = D FD F pGXBG-XB2BpBB= =DFDFp

Để thiết lập kết nối giữa LDA và hồi quy tuyến tính, chúng tôi sẽ chứng minh rằng trùng với .W L D ADWLDMột

Bằng chứng là đơn giản. Đối với , có thể tìm thấy tối ưu thông qua hồi quy: . Cắm cái này vào hàm mất, chúng ta sẽ có có thể được viết là theo dõi bằng cách sử dụng danh tính . Sau khi thao tác dễ dàng, chúng ta nhận thấy rằng hồi quy tương đương với tối đa hóa (!) Dấu vết đáng sợ sau: thực tế không có gì khác ngoàiDFF= =(DXXD)-1DXG

G-XD(DXXD)-1DXG2,
Một2= =tr(MộtMột)...=tr ( DC b D ( DC D ) - 1 ) / m~ L L D Một .
tr(DXGGXD(DXXD)-1),
Giáo dục= =tr(DCbD(DCD)-1)/m~LLDMột.

Điều này kết thúc bằng chứng. Đối với các bộ dữ liệu không cân bằng, chúng ta cần thay thế bằng .~ GGG~

Người ta có thể chỉ ra một cách tương tự rằng việc thêm chính quy sườn núi vào hồi quy thứ hạng giảm tương đương với LDA được chuẩn hóa.

Mối quan hệ giữa LDA, CCA và RRR

Trong câu trả lời của mình, @ttnphns đã thực hiện một kết nối với phân tích tương quan chính tắc (CCA). Thật vậy, LDA có thể được chứng minh là tương đương với CCA giữa và . Bên cạnh đó, CCA giữa bất kỳ và có thể được viết như RRR dự đoán làm trắng từ . Phần còn lại sau đây.G Y X Y XXGYXYX

Tài liệu tham khảo

Thật khó để nói ai xứng đáng với tín dụng cho những gì được trình bày ở trên.

Có một bài báo gần đây của Cai et al. (2013) Về sự tương đương của các áp lực cấp thấp và các phân tích dựa trên phân tích phân biệt tuyến tính đưa ra chính xác bằng chứng như trên nhưng tạo ra ấn tượng rằng họ đã phát minh ra phương pháp này. Đây chắc chắn không phải là trường hợp. Torre đã viết một cách xử lý chi tiết về cách mà hầu hết các phương pháp đa biến tuyến tính phổ biến có thể được xem là hồi quy thứ hạng giảm, xem Khung Least-Squares cho Phân tích Thành phần , 2009, và một chương sau về sự thống nhất các phương pháp phân tích thành phần , 2013; ông trình bày lập luận tương tự nhưng cũng không đưa ra bất kỳ tài liệu tham khảo nào. Tài liệu này cũng được đề cập trong sách giáo khoa Kỹ thuật thống kê đa biến hiện đại (2008) bởi Izenman, người đã giới thiệu RRR vào năm 1975.

Mối quan hệ giữa LDA và CCA rõ ràng có từ thời Bartlett, 1938, Các khía cạnh khác của lý thuyết hồi quy bội - đó là tài liệu tham khảo tôi thường gặp (nhưng không xác minh). Mối quan hệ giữa CCA và RRR được mô tả trong Izenman, 1975, hồi quy cấp bậc giảm cho mô hình tuyến tính đa biến . Vì vậy, tất cả những ý tưởng này đã được một thời gian.


+1 từ tôi về các chi tiết và để tham khảo câu trả lời của tôi và giới thiệu RRR ở đây (nâng cao trước vì nó sẽ qua một thời gian không xác định trước khi tôi ngồi xuống xé nát tất cả đại số tuyệt vời / ghê gớm đó!).
ttnphns

0

Hồi quy tuyến tính và phân tích phân biệt tuyến tính rất khác nhau. Hồi quy tuyến tính liên quan đến một biến phụ thuộc với một tập hợp các biến dự đoán độc lập. Ý tưởng là tìm một hàm tuyến tính trong các tham số phù hợp nhất với dữ liệu. Nó thậm chí không phải là tuyến tính trong các hiệp phương sai. Mặt khác, phân tích phân biệt đối xử tuyến tính là một thủ tục để phân loại các đối tượng thành các loại. Đối với bài toán hai lớp, nó tìm cách tìm ra siêu phẳng tách tốt nhất để chia các nhóm thành hai catgories. Ở đây tốt nhất có nghĩa là nó giảm thiểu chức năng mất là sự kết hợp tuyến tính của tỷ lệ lỗi. Đối với ba nhóm trở lên, nó tìm thấy tập hợp siêu phẳng tốt nhất (k-1 cho bài toán lớp k). Trong phân tích phân biệt, các hypoerplanes là tuyến tính trong các biến tính năng.

Điểm tương đồng chính giữa hai là thuật ngữ tuyến tính trong các tiêu đề.


Xin lỗi, tôi đã viết sai. Nên hồi quy và LDA. Tôi đã thấy một số bài viết về phân biệt đối xử tuyến tính thông qua hồi quy, nhưng tôi không biết làm thế nào nó hoạt động. Tôi nghĩ rằng LDA và hồi quy logistic cho hai lớp có một số mối quan hệ nhưng không thể nói rất rõ chúng là gì. Và trong hơn hai lớp, tôi không biết có mối quan hệ nào không.
zca0

1
Có, có một mối quan hệ giữa hồi quy logistic và phân tích phân biệt tuyến tính. Efron và học trò của mình Terry O'Neilll đã viết về điều này vào cuối những năm 1970. Tôi sẽ cố gắng tìm một liên kết đến một tài liệu tham khảo.
Michael R. Chernick

2
Dưới đây là một câu hỏi và câu trả lời liên quan trên CV. stats.stackexchange.com/questions/14697/ Mạnh
Michael R. Chernick

-1 bởi vì thực sự có mối quan hệ sâu sắc giữa LDA và hồi quy, vì cả @ttnphns và bản thân tôi đều giải thích trong câu trả lời của chúng tôi.
amip nói rằng Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.