Phân tích phân biệt đối xử và hồi quy logistic


16

Tôi tìm thấy một số ưu điểm của phân tích phân biệt và tôi đã có câu hỏi về họ. Vì thế:

Khi các lớp được phân tách tốt, các ước tính tham số cho hồi quy logistic không ổn định một cách đáng ngạc nhiên. Hệ số có thể đi đến vô cùng. LDA không gặp phải vấn đề này.

Nếu số lượng các tính năng là nhỏ và phân phối của các yếu tố dự đoán X là xấp xỉ bình thường trong mỗi lớp, mô hình phân biệt tuyến tính sẽ ổn định hơn so với mô hình hồi quy logistic.

  1. Sự ổn định là gì và tại sao nó quan trọng? (Nếu hồi quy logistic cung cấp một sự phù hợp tốt thực hiện công việc của nó, thì tại sao tôi phải quan tâm đến sự ổn định?)

LDA phổ biến khi chúng ta có nhiều hơn hai lớp phản hồi, bởi vì nó cũng cung cấp các chế độ xem dữ liệu theo chiều thấp.

  1. Tôi không hiểu điều đó. Làm thế nào để LDA cung cấp quan điểm chiều thấp?
  2. Nếu bạn có thể đặt tên nhiều ưu hoặc nhược điểm, điều đó sẽ tốt đẹp.

3
Bạn cũng có thể muốn đọc Q / A khác về chủ đề này (lda vs logistic). Vui lòng tìm kiếm trang web này.
ttnphns

Câu trả lời:


13

Khi các lớp được phân tách tốt, các ước tính tham số cho hồi quy logistic không ổn định một cách đáng ngạc nhiên. Hệ số có thể đi đến vô cùng. LDA không gặp phải vấn đề này.

Nếu có các giá trị đồng biến có thể dự đoán kết quả nhị phân một cách hoàn hảo thì thuật toán hồi quy logistic, tức là ghi điểm của Fisher, thậm chí không hội tụ. Nếu bạn đang sử dụng R hoặc SAS, bạn sẽ nhận được cảnh báo rằng xác suất bằng 0 và một đã được tính toán và thuật toán đã bị sập. Đây là trường hợp cực đoan của sự phân tách hoàn hảo nhưng ngay cả khi dữ liệu chỉ được phân tách ở mức độ lớn và không hoàn hảo, công cụ ước tính khả năng tối đa có thể không tồn tại và ngay cả khi nó tồn tại, các ước tính không đáng tin cậy. Kết quả phù hợp là không tốt chút nào. Có rất nhiều chủ đề liên quan đến vấn đề phân tách trên trang web này vì vậy bằng mọi cách hãy xem xét.

Ngược lại, người ta không thường gặp phải các vấn đề ước tính với phân biệt đối xử của Fisher. Nó vẫn có thể xảy ra nếu ma trận giữa hoặc trong ma trận hiệp phương sai là số ít nhưng đó là một trường hợp khá hiếm. Trong thực tế, nếu có sự tách biệt hoàn toàn hoặc gần như hoàn toàn thì tốt hơn bởi vì người phân biệt đối xử có nhiều khả năng thành công hơn.

Một điều đáng nói nữa là trái với niềm tin phổ biến LDA không dựa trên bất kỳ giả định phân phối nào. Chúng tôi chỉ hoàn toàn yêu cầu sự bình đẳng của ma trận hiệp phương sai dân số vì một công cụ ước lượng gộp được sử dụng cho ma trận hiệp phương sai trong phạm vi. Theo các giả định bổ sung về tính quy phạm, xác suất trước bằng nhau và chi phí phân loại sai, LDA là tối ưu theo nghĩa là nó giảm thiểu xác suất phân loại sai.

Làm thế nào để LDA cung cấp quan điểm chiều thấp?

Dễ thấy hơn đối với trường hợp có hai quần thể và hai biến. Dưới đây là một hình ảnh đại diện về cách LDA hoạt động trong trường hợp đó. Hãy nhớ rằng chúng tôi đang tìm kiếm sự kết hợp tuyến tính của các biến để tối đa hóa khả năng phân tách. nhập mô tả hình ảnh ở đây

Do đó, dữ liệu được chiếu trên vectơ có hướng tốt hơn để đạt được sự phân tách này. Làm thế nào chúng ta thấy rằng vectơ là một vấn đề thú vị của đại số tuyến tính, về cơ bản chúng ta tối đa hóa thương số Rayleigh, nhưng bây giờ chúng ta hãy bỏ qua điều đó. Nếu dữ liệu được chiếu trên vectơ đó, kích thước sẽ giảm từ hai xuống một.

pg min(g1,p)

Nếu bạn có thể đặt tên nhiều ưu hoặc nhược điểm, điều đó sẽ tốt đẹp.

Tuy nhiên, đại diện chiều thấp không đến mà không có nhược điểm, điều quan trọng nhất tất nhiên là mất thông tin. Đây không phải là vấn đề khi dữ liệu có thể phân tách tuyến tính nhưng nếu chúng không bị mất thông tin có thể là đáng kể và bộ phân loại sẽ hoạt động kém.

Cũng có thể có trường hợp bình đẳng của ma trận hiệp phương sai có thể không phải là một giả định có thể sử dụng được. Bạn có thể sử dụng một bài kiểm tra để đảm bảo nhưng những bài kiểm tra này rất nhạy cảm với sự khởi hành từ tính quy tắc, do đó bạn cần đưa ra giả định bổ sung này và cũng kiểm tra nó. Nếu người ta thấy rằng các quần thể là bình thường với ma trận hiệp phương sai không bằng nhau thì có thể sử dụng quy tắc phân loại bậc hai (QDA) nhưng tôi thấy rằng đây là một quy tắc khá khó xử, không đề cập đến phản trực giác ở các chiều cao.

Nhìn chung, ưu điểm chính của LDA là sự tồn tại của một giải pháp rõ ràng và sự tiện lợi tính toán của nó, điều này không xảy ra đối với các kỹ thuật phân loại tiên tiến hơn như SVM hoặc mạng thần kinh. Cái giá chúng ta phải trả là tập hợp các giả định đi kèm với nó, cụ thể là độ phân tách tuyến tính và đẳng thức của ma trận hiệp phương sai.

Hi vọng điêu nay co ich.

EDIT : Tôi nghi ngờ tuyên bố của tôi rằng LDA đối với các trường hợp cụ thể mà tôi đã đề cập không yêu cầu bất kỳ giả định phân phối nào ngoài sự bình đẳng của ma trận hiệp phương sai đã khiến tôi phải trả giá. Điều này không kém phần đúng tuy nhiên vì vậy hãy để tôi được cụ thể hơn.

x¯i, i=1,2Spooled

maxa(aTx¯1aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda

Giải pháp của vấn đề này (lên đến hằng số) có thể được hiển thị là

a=Spooled1d=Spooled1(x¯1x¯2)

Điều này tương đương với LDA mà bạn có được theo giả định về tính quy tắc, ma trận hiệp phương sai bằng nhau, chi phí phân loại sai và xác suất trước, phải không? Vâng, ngoại trừ bây giờ chúng tôi đã không giả định bình thường.

Không có gì ngăn bạn sử dụng phân biệt đối xử ở trên trong tất cả các cài đặt, ngay cả khi ma trận hiệp phương sai không thực sự bằng nhau. Nó có thể không tối ưu theo nghĩa chi phí dự kiến ​​của phân loại sai (ECM) nhưng đây là việc học có giám sát để bạn luôn có thể đánh giá hiệu suất của nó, ví dụ như sử dụng quy trình tạm dừng.

Người giới thiệu

Giám mục, Christopher M. Mạng lưới thần kinh để nhận dạng mẫu. Báo chí đại học Oxford, 1995.

Johnson, Richard Arnold và Dean W. Wicotta. Ứng dụng phân tích thống kê đa biến. Tập 4. Vách đá Englewood, NJ: Hội trường Prentice, 1992.


1
(Tôi không phải là người dùng bị đánh giá thấp). Để cố gắng điều hòa câu trả lời của bạn với Frank Harell, đối với tôi, người ta vẫn cần phải giả sử rằng tất cả các biến là liên tục (nếu không, tôi nghĩ rằng tối đa của thương số Rayleigh sẽ không phải là duy nhất).
user603

1
@ user603 Tôi chưa thấy tình trạng này ở đâu. Các giải pháp chỉ được xác định đến một hằng số.
JohnK

John, Hãy tưởng tượng rằng chỉ có 2 lớp (và do đó, chỉ có một dòng phân biệt đối xử) có phân phối giống hệt nhau, đối xứng (ellipsoidal) và xác suất trước bằng nhau. Sau đó, trên thực tế chúng tôi không cần phải giả sử phân phối bình thường vì chúng tôi không nhận bất kỳ pdf nào để gán trường hợp cho một lớp. Trong các cài đặt phức tạp hơn (chẳng hạn như hơn 3 lớp), chúng tôi phải sử dụng một số pdf và nó thường là bình thường.
ttnphns

1
W1BWB

1
John, bình luận cuối cùng của bạn là những gì về bạn và tôi đồng tình.
ttnphns

10

LDA đưa ra các giả định phân phối nghiêm trọng (tính quy tắc đa biến của tất cả các yếu tố dự đoán) không giống như hồi quy logistic. Hãy thử xác suất thành viên sau của lớp trên cơ sở giới tính của các đối tượng và bạn sẽ thấy ý tôi là gì - xác suất sẽ không chính xác.

Y=1β±±30

Xem điều này để biết thêm thông tin.

Lưu ý rằng nếu tính quy tắc đa biến giữ, theo định lý của Bayes, các giả định của hồi quy logistic giữ. Điều ngược lại là không đúng sự thật.

Bình thường (hoặc ít nhất là đối xứng) gần như phải giữ cho phương sai và hiệp phương sai để "thực hiện công việc". Các yếu tố dự đoán phân phối thông thường không đa biến thậm chí sẽ làm tổn thương giai đoạn trích xuất phân biệt.


1
Theo tôi, tính quy phạm là cần thiết cụ thể ở giai đoạn phân loại (dự đoán lớp) của LDA. Không cần thiết ở giai đoạn trích xuất phân biệt (giảm kích thước), tuy nhiên, vẫn giả định tính đồng nhất phương sai - hiệp phương sai. (Điều thú vị rằng giả thiết thứ hai có thể được phần nào phát hành tại phân loại: bạn có thể sử dụng riêng biệt . Trong lớp hiệp phương sai cho biệt thức có)
ttnphns

3
tt

2
t

2
Có SD đưa ra các giả định khác nhau và không mạnh mẽ. Ở mức độ thấp hơn có nghĩa là làm cho một số giả định có ý nghĩa. Bình phương nhỏ nhất, PCA và LDA có hiệu quả đưa ra nhiều giả định phân phối hơn nhiều người nghĩ.
Frank Harrell

2
Tôi không bị thuyết phục bởi lý do này và tôi vẫn tin rằng downvote là không công bằng nhưng tôi không có thẩm quyền trong vấn đề này. Các tài liệu tham khảo tôi cung cấp sẽ cho bạn biết như vậy tuy nhiên.
JohnK

0

Khi các lớp được phân tách tốt, các ước tính tham số cho hồi quy logistic không ổn định một cách đáng ngạc nhiên. Hệ số có thể đi đến vô cùng. LDA không gặp phải vấn đề này.

Disclaimer: Những gì sau đây ở đây thiếu hoàn toàn sự chặt chẽ toán học.

Để phù hợp với chức năng (phi tuyến), bạn cần quan sát trong tất cả các vùng của chức năng nơi "hình dạng của nó thay đổi". Hồi quy logistic phù hợp với hàm sigmoid cho dữ liệu:

nhập mô tả hình ảnh ở đây

Trong trường hợp các lớp được phân tách tốt, tất cả các quan sát sẽ rơi vào hai "đầu" trong đó sigmoid tiếp cận các tiệm cận của nó (0 và 1). Vì tất cả các sigmoids "trông giống nhau" ở các khu vực này, nên có thể nói, không có gì lạ khi thuật toán phù hợp kém sẽ gặp khó khăn để tìm "đúng".

Chúng ta hãy xem hai ví dụ (hy vọng mang tính hướng dẫn) được tính toán với glm()hàm R.

Trường hợp 1: Hai nhóm trùng nhau đến một mức độ nào đó:

nhập mô tả hình ảnh ở đây

và các quan sát phân phối độc đáo xung quanh điểm không phù hợp của sigmoid được trang bị:

nhập mô tả hình ảnh ở đây

Đây là các tham số được trang bị với các lỗi tiêu chuẩn thấp đẹp:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

và sự sai lệch cũng có vẻ ổn:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Trường hợp 2: Hai nhóm được tách biệt tốt:

nhập mô tả hình ảnh ở đây

và các quan sát đều nằm trên các tiệm cận thực tế. Các glm()chức năng đã cố gắng hết sức mình để phù hợp với một cái gì đó, nhưng phàn nàn về số lượng là 0 hoặc 1 xác suất, vì không chỉ đơn giản là không quan sát có sẵn để "lấy hình dạng của quyền sigmoid" xung quanh điểm sự uốn cong của nó:

nhập mô tả hình ảnh ở đây

Bạn có thể chẩn đoán sự cố bằng cách lưu ý rằng các lỗi tiêu chuẩn của các tham số ước tính đi qua mái nhà:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

và đồng thời, sự sai lệch có vẻ tốt đáng ngờ (vì các quan sát rất phù hợp với các tiệm cận):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Ít nhất là theo trực giác, cần phải rõ ràng từ những cân nhắc này tại sao "các ước tính tham số cho hồi quy logistic là không ổn định đáng ngạc nhiên".


Hãy xem câu trả lời của @Frank Harrell, điều này rõ ràng không đồng ý với bạn! Và nghiên cứu các liên kết và tài liệu tham khảo của nó ...
kjetil b halvorsen

@kjetilbhalvorsen Điểm chính của tôi là một minh họa trực quan về sự phù hợp "đáng ngạc nhiên không ổn định". Tôi đã xóa câu cuối cùng đề cập đến LDA.
Laryx Decidua
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.