Có một mối quan hệ giữa hồi quy và phân tích phân biệt tuyến tính (LDA)? Điểm tương đồng và khác biệt của chúng là gì? Liệu nó có làm nên sự khác biệt nếu có hai lớp hoặc nhiều hơn hai lớp không?
Có một mối quan hệ giữa hồi quy và phân tích phân biệt tuyến tính (LDA)? Điểm tương đồng và khác biệt của chúng là gì? Liệu nó có làm nên sự khác biệt nếu có hai lớp hoặc nhiều hơn hai lớp không?
Câu trả lời:
Tôi cho rằng câu hỏi là về LDA và hồi quy tuyến tính (không phải logistic).
Có một mối quan hệ đáng kể và có ý nghĩa giữa hồi quy tuyến tính và phân tích phân biệt tuyến tính . Trong trường hợp biến phụ thuộc (DV) chỉ gồm 2 nhóm, hai phân tích thực sự giống hệt nhau. Mặc dù các tính toán là khác nhau và kết quả - hồi quy và hệ số phân biệt - không giống nhau, chúng chính xác tỷ lệ với nhau.
Bây giờ cho tình huống nhiều hơn hai nhóm. Trước tiên, chúng ta hãy nói rằng LDA (trích xuất của nó, không phải giai đoạn phân loại) là tương đương (kết quả liên quan tuyến tính) với phân tích tương quan chính tắc nếu bạn biến DV nhóm thành một tập hợp các biến giả (với một biến thừa của chúng bị loại bỏ) và thực hiện chính tắc phân tích với bộ "IV" và "người giả". Canonical biến đổi về phía "IV" mà bạn có được là những gì LDA gọi là "chức năng phân biệt đối xử" hoặc "phân biệt đối xử".
Vì vậy, sau đó làm thế nào phân tích kinh điển có liên quan đến hồi quy tuyến tính? Phân tích Canonical về bản chất là một MANOVA (theo nghĩa "Hồi quy tuyến tính đa biến" hoặc "Mô hình tuyến tính tổng quát đa biến") đi sâu vào cấu trúc tiềm ẩnvề mối quan hệ giữa các DV và IV. Hai biến thể này được phân rã trong mối quan hệ tương tác của chúng thành "các biến thể kinh điển" tiềm ẩn. Hãy lấy ví dụ đơn giản nhất, Y vs X1 X2 X3. Tối đa hóa mối tương quan giữa hai bên là hồi quy tuyến tính (nếu bạn dự đoán Y theo Xs) hoặc - đó là điều tương tự - là MANOVA (nếu bạn dự đoán Xs theo Y). Mối tương quan là không có chiều (với độ lớn R ^ 2 = dấu vết của Pillai) vì tập hợp nhỏ hơn, Y, chỉ bao gồm một biến. Bây giờ chúng ta hãy lấy hai bộ sau: Y1 Y2 so với X1 x2 x3. Tương quan được tối đa hóa ở đây là 2 chiều vì tập nhỏ hơn chứa 2 biến. Kích thước tiềm ẩn đầu tiên và mạnh mẽ hơn của mối tương quan được gọi là tương quan kinh điển thứ nhất và phần còn lại, trực giao với nó, tương quan kinh điển thứ 2. Vì thế, MANOVA (hoặc hồi quy tuyến tính) chỉ hỏi vai trò một phần (hệ số) của các biến trong toàn bộ tương quan 2 chiều của các tập hợp là gì; trong khi phân tích chính tắc chỉ đi bên dưới để hỏi vai trò một phần của các biến trong chiều tương quan thứ nhất và thứ 2 là gì.
Do đó, phân tích tương quan chính tắc là hồi quy tuyến tính đa biến đi sâu vào cấu trúc tiềm ẩn của mối quan hệ giữa các DV và IV. Phân tích phân biệt đối xử là một trường hợp cụ thể của phân tích tương quan chính tắc ( xem chính xác làm thế nào ). Vì vậy, đây là câu trả lời về mối quan hệ của LDA với hồi quy tuyến tính trong trường hợp chung gồm nhiều hơn hai nhóm.
Lưu ý rằng câu trả lời của tôi hoàn toàn không xem LDA là kỹ thuật phân loại. Tôi đã thảo luận về LDA chỉ là kỹ thuật khai thác tiềm ẩn. Phân loại là giai đoạn thứ hai và độc lập của LDA (tôi đã mô tả nó ở đây ). @Michael Chernick đã tập trung vào nó trong câu trả lời của mình.
regression formulation of LDA
nó thật khó để tìm thấy thứ gì đó - có nhiều tài liệu nghiên cứu được xuất bản sau năm 2000 nói rằng công thức như vậy không tồn tại hoặc cố gắng đề nghị một. Có lẽ có một tài liệu tham khảo [cũ] tốt?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Nếu bạn không thể tìm thấy chúng trên internet, tôi có thể gửi cho bạn. Nếu bạn tìm thấy nhiều nguồn tốt hơn - vui lòng cho chúng tôi biết.
Dưới đây là một tài liệu tham khảo cho một trong những bài báo của Efron: Hiệu quả của hồi quy logistic so với phân tích phân biệt đối xử thông thường , 1975.
Một bài báo khác có liên quan là Ng & Jordan, 2001, On Discriminative vs Generative classifier: So sánh hồi quy logistic và Bayes ngây thơ . Và đây là một bản tóm tắt về một nhận xét về nó bởi Xue & Titterington , 2008, trong đó đề cập đến các bài báo của O'Neill liên quan đến luận án tiến sĩ của ông:
So sánh các phân loại khái quát và phân biệt đối xử là một chủ đề lâu dài. Là một đóng góp quan trọng cho chủ đề này, dựa trên sự so sánh lý thuyết và thực nghiệm của họ giữa phân loại Bayes ngây thơ và hồi quy logistic tuyến tính, Ng và Jordan (NIPS 841 --- 848, 2001) cho rằng tồn tại hai chế độ hiệu suất khác nhau giữa các thế hệ và phân loại phân biệt đối xử về kích thước tập huấn luyện. Trong bài báo này, tuy nhiên, các nghiên cứu mô phỏng và thực nghiệm của chúng tôi, như là một bổ sung cho công việc của họ, tuy nhiên, cho thấy rằng sự tồn tại của hai chế độ riêng biệt có thể không đáng tin cậy như vậy. Ngoài ra, đối với các bộ dữ liệu trong thế giới thực, cho đến nay vẫn chưa có tiêu chí chung về mặt lý thuyết, tiêu chí chung để lựa chọn giữa các phương pháp phân biệt đối xử và khái quát để phân loại một quan sát thành một lớp ; sự lựa chọn phụ thuộc vào độ tin cậy tương đối mà chúng ta có về tính chính xác của đặc điểm kỹ thuật của hoặc cho dữ liệu. Điều này có thể phần nào là một minh chứng cho lý do tại sao Efron (J Am Stat PGS 70 (352): 892 --- 898, 1975) và O'Neill (J Am Stat PGS 75 (369): 154 --- 160, 1980 ) thích phân tích phân biệt tuyến tính dựa trên bình thường (LDA) khi không có đặc điểm kỹ thuật sai mô hình xảy ra nhưng các nghiên cứu thực nghiệm khác có thể thích hồi quy logistic tuyến tính thay thế. Hơn nữa, chúng tôi khuyên rằng việc ghép cặp LDA giả sử ma trận hiệp phương sai đường chéo chung (LDA) hoặc phân loại Bayes ngây thơ và hồi quy logistic tuyến tính có thể không hoàn hảo, và do đó có thể không đáng tin cậy cho bất kỳ khiếu nại nào xuất phát từ so sánh giữa LDA hoặc phân loại Bayes ngây thơ và hồi quy logistic tuyến tính được khái quát cho tất cả các phân loại phân biệt và phân biệt.
Có rất nhiều tài liệu tham khảo khác về điều này mà bạn có thể tìm thấy trực tuyến.
Mục đích của câu trả lời này là để giải thích mối quan hệ toán học chính xác giữa phân tích phân biệt tuyến tính (LDA) và hồi quy tuyến tính đa biến (MLR). Nó sẽ chỉ ra rằng khung chính xác được cung cấp bằng cách giảm hồi quy xếp hạng (RRR).
Chúng tôi sẽ chỉ ra rằng LDA tương đương với RRR của ma trận chỉ báo lớp trắng trên ma trận dữ liệu.
Đặt là ma trận n × d với các điểm dữ liệu x i trong các hàng và các biến trong các cột. Mỗi điểm thuộc về một trong các lớp k hoặc nhóm. Điểm x i thuộc số lớp g ( i ) .
Đặt là thành viên nhóm mã hóa ma trận chỉ số n × k như sau: G i j = 1 nếu x i thuộc lớp j và G i j = 0 nếu không. Có n điểm dữ liệu j trong lớp j ; tất nhiên ∑ n j = n .
Chúng tôi giả định rằng dữ liệu được căn giữa và vì vậy giá trị trung bình toàn cầu bằng 0, . Đặt là giá trị trung bình của lớp .μ j
Tổng ma trận phân tán có thể được phân tách thành tổng của ma trận phân tán giữa lớp và trong lớp được định nghĩa như sau: Người ta có thể xác minh rằng . LDA tìm kiếm các trục phân biệt có phương sai giữa các nhóm tối đa và phương sai trong nhóm tối thiểu của phép chiếu. Cụ thể, trục phân biệt đầu tiên là vectơ đơn vị tối đa hóa và phân biệt đầu tiên các trục xếp chồng lên nhau thành một ma trậnC bC=Cb+Cwww⊤Cbw/(w⊤Cww)pWLLDA=tr( W ⊤ C bW( W
Giả sử là thứ hạng đầy đủ, giải pháp LDA là ma trận của các hàm riêng của (được sắp xếp theo giá trị riêng theo thứ tự giảm dần).W L D A C - 1 w C b
Đây là câu chuyện thông thường. Bây giờ chúng ta hãy thực hiện hai quan sát quan trọng.
Đầu tiên, ma trận phân tán trong lớp có thể được thay thế bằng ma trận phân tán tổng (cuối cùng vì tối đa hóa tương đương với tối đa hóa ), và thực tế, rất dễ thấy rằng có cùng các hàm riêng.b / ( b + w ) C - 1 C b
Thứ hai, ma trận phân tán giữa các lớp có thể được thể hiện thông qua ma trận thành viên nhóm được xác định ở trên. Thật vậy, là ma trận tổng của nhóm. Để có được ma trận của phương tiện nhóm, nó cần được nhân với một ma trận đường chéo với trên đường chéo; nó do . Do đó, ma trận của phương tiện nhóm là ( sapienti sẽ nhận thấy rằng đó là một công thức hồi quy). Để có được chúng ta cần lấy ma trận phân tán của nó, được tính trọng số theo cùng một ma trận đường chéo, thu được Nếu tất cả giống hệt nhau và bằngn j G ⊤ G ( G ⊤ G ) - 1 G ⊤ XC b = X ⊤ G ( G ⊤ G ) - 1 G ⊤ X . n j m X ⊤ G G ⊤ X / m
Chúng ta có thể định nghĩa ma trận chỉ báo chuẩn hóa là có trong đó có . Sau đó cho cả hai, cân và không cân bằng tập hợp dữ liệu, khái niệm đơn giản là . Lưu ý rằng là, đến một yếu tố không đổi, ma trận chỉ báo được làm trắng : . 1/√ G1Cb=X~ G ~ G = G ( G ⊤ G ) - 1 / 2
Để đơn giản, chúng tôi sẽ bắt đầu với trường hợp của một bộ dữ liệu cân bằng.
Xem xét hồi quy tuyến tính của trên . Nó tìm thấy thu nhỏ . Hồi quy xếp hạng giảm làm tương tự theo ràng buộc rằng phải thuộc cấp bậc . Nếu vậy, có thể được viết là với cả và có cột . Người ta có thể chỉ ra rằng giải pháp xếp hạng hai có thể thu được từ giải pháp xếp hạng bằng cách giữ cột đầu tiên và thêm một cột phụ, v.v.X B ‖ G - X B ‖ 2 B p B B = D F ⊤ D F p
Để thiết lập kết nối giữa LDA và hồi quy tuyến tính, chúng tôi sẽ chứng minh rằng trùng với .W L D A
Bằng chứng là đơn giản. Đối với , có thể tìm thấy tối ưu thông qua hồi quy: . Cắm cái này vào hàm mất, chúng ta sẽ có có thể được viết là theo dõi bằng cách sử dụng danh tính . Sau khi thao tác dễ dàng, chúng ta nhận thấy rằng hồi quy tương đương với tối đa hóa (!) Dấu vết đáng sợ sau: thực tế không có gì khác ngoài
Điều này kết thúc bằng chứng. Đối với các bộ dữ liệu không cân bằng, chúng ta cần thay thế bằng .~ G
Người ta có thể chỉ ra một cách tương tự rằng việc thêm chính quy sườn núi vào hồi quy thứ hạng giảm tương đương với LDA được chuẩn hóa.
Trong câu trả lời của mình, @ttnphns đã thực hiện một kết nối với phân tích tương quan chính tắc (CCA). Thật vậy, LDA có thể được chứng minh là tương đương với CCA giữa và . Bên cạnh đó, CCA giữa bất kỳ và có thể được viết như RRR dự đoán làm trắng từ . Phần còn lại sau đây.G Y X Y X
Thật khó để nói ai xứng đáng với tín dụng cho những gì được trình bày ở trên.
Có một bài báo gần đây của Cai et al. (2013) Về sự tương đương của các áp lực cấp thấp và các phân tích dựa trên phân tích phân biệt tuyến tính đưa ra chính xác bằng chứng như trên nhưng tạo ra ấn tượng rằng họ đã phát minh ra phương pháp này. Đây chắc chắn không phải là trường hợp. Torre đã viết một cách xử lý chi tiết về cách mà hầu hết các phương pháp đa biến tuyến tính phổ biến có thể được xem là hồi quy thứ hạng giảm, xem Khung Least-Squares cho Phân tích Thành phần , 2009, và một chương sau về sự thống nhất các phương pháp phân tích thành phần , 2013; ông trình bày lập luận tương tự nhưng cũng không đưa ra bất kỳ tài liệu tham khảo nào. Tài liệu này cũng được đề cập trong sách giáo khoa Kỹ thuật thống kê đa biến hiện đại (2008) bởi Izenman, người đã giới thiệu RRR vào năm 1975.
Mối quan hệ giữa LDA và CCA rõ ràng có từ thời Bartlett, 1938, Các khía cạnh khác của lý thuyết hồi quy bội - đó là tài liệu tham khảo tôi thường gặp (nhưng không xác minh). Mối quan hệ giữa CCA và RRR được mô tả trong Izenman, 1975, hồi quy cấp bậc giảm cho mô hình tuyến tính đa biến . Vì vậy, tất cả những ý tưởng này đã được một thời gian.
Hồi quy tuyến tính và phân tích phân biệt tuyến tính rất khác nhau. Hồi quy tuyến tính liên quan đến một biến phụ thuộc với một tập hợp các biến dự đoán độc lập. Ý tưởng là tìm một hàm tuyến tính trong các tham số phù hợp nhất với dữ liệu. Nó thậm chí không phải là tuyến tính trong các hiệp phương sai. Mặt khác, phân tích phân biệt đối xử tuyến tính là một thủ tục để phân loại các đối tượng thành các loại. Đối với bài toán hai lớp, nó tìm cách tìm ra siêu phẳng tách tốt nhất để chia các nhóm thành hai catgories. Ở đây tốt nhất có nghĩa là nó giảm thiểu chức năng mất là sự kết hợp tuyến tính của tỷ lệ lỗi. Đối với ba nhóm trở lên, nó tìm thấy tập hợp siêu phẳng tốt nhất (k-1 cho bài toán lớp k). Trong phân tích phân biệt, các hypoerplanes là tuyến tính trong các biến tính năng.
Điểm tương đồng chính giữa hai là thuật ngữ tuyến tính trong các tiêu đề.