Hồi quy logistic so với LDA là phân loại hai lớp


36

Tôi đang cố gắng che giấu sự khác biệt thống kê giữa phân tích phân biệt tuyến tínhhồi quy Logistic . Có phải tôi hiểu đúng không, đối với bài toán phân loại hai lớp , LDA dự đoán hai hàm mật độ bình thường (một cho mỗi lớp) tạo ra một ranh giới tuyến tính nơi chúng giao nhau, trong khi hồi quy logistic chỉ dự đoán hàm lẻ-log giữa hai lớp, mà tạo một ranh giới nhưng không đảm nhận các hàm mật độ cho mỗi lớp?


Xem thêm một số liệu thống kê câu hỏi tương tự.stackexchange.com / q / 14697/3277
ttnphns

Một câu trả lời có liên quan, stats.stackexchange.com/a/31466 / 3277
ttnphns

Câu trả lời:


35

Nghe có vẻ như bạn đúng. Hồi quy logistic thực sự không giả định bất kỳ hình dạng cụ thể nào về mật độ trong không gian của các biến dự đoán, nhưng LDA thì có. Dưới đây là một số khác biệt giữa hai phân tích, một cách ngắn gọn.

Hồi quy nhị phân nhị phân (BLR) so với phân tích phân biệt tuyến tính (có 2 nhóm: còn được gọi là LDA của Fisher):

  • BLR : Dựa trên ước tính khả năng tối đa. LDA : Dựa trên ước lượng bình phương tối thiểu; tương đương với hồi quy tuyến tính với dự báo nhị phân (hệ số tỷ lệ thuận và R-vuông = 1-Wilk's lambda).

  • BLR : Ước tính xác suất (của thành viên nhóm) ngay lập tức (dự đoán được coi là xác suất, được quan sát một lần) và có điều kiện. LDA : ước tính xác suất một cách trung bình (dự đoán được xem là biến liên tục được đánh dấu, phân biệt đối xử) thông qua thiết bị phân loại (như Bayes ngây thơ) sử dụng cả thông tin có điều kiện và cận biên.

  • BLR : Không quá xuất sắc đối với mức độ của thang đo và hình thức phân phối trong các yếu tố dự đoán. LDA : Dự đoán mức độ khoảng cách mong muốn với phân phối chuẩn nhiều biến số.

  • BLR : Không có yêu cầu về ma trận hiệp phương sai trong nhóm của các yếu tố dự đoán. LDA : Các ma trận hiệp phương sai trong nhóm phải giống hệt nhau về dân số.

  • nn

  • BLR : Không quá nhạy cảm với các ngoại lệ. LDA : Khá nhạy cảm với các ngoại lệ.

  • BLR : Phương pháp trẻ hơn. LDA : Phương pháp cũ hơn.

  • BLR : Thường được ưa thích, vì ít xuất sắc hơn / mạnh mẽ hơn. LDA : Với tất cả các yêu cầu của nó được đáp ứng, thường phân loại tốt hơn BLR (hiệu quả tương đối tiệm cận cao hơn 3/2 thời gian sau đó).


21

Hãy để tôi thêm một số điểm vào danh sách đẹp @ttnphns:

  • Dự đoán Bayes về xác suất thành viên lớp sau của LDA cũng theo một đường cong logistic.
    [Efron, B. Hiệu quả của hồi quy logistic so với phân tích phân biệt đối xử thông thường, J Am Stat PGS, 70, 892-898 (1975).]

  • Mặc dù bài báo đó cho thấy hiệu quả tương đối của LDA là vượt trội so với LR nếu các giả định của LDA được đáp ứng (Tài liệu tham khảo: Efron ở trên, điểm cuối của @tthnps), theo Yếu tố học tập thống kê trong thực tế hầu như không có sự khác biệt.
    [Hastie, T. và Tibshirani, R. và Friedman, J. Các yếu tố của học thống kê; Khai thác dữ liệu, suy luận và suy luận Springer Verlag, New York, 2009]

  • Hiệu quả tương đối tăng của LDA chủ yếu xảy ra trong các trường hợp không có triệu chứng trong đó sai số tuyệt đối thực tế là không đáng kể.
    [Harrell, FE và Lee, KL

  • Mặc dù trong thực tế tôi đã gặp phải các tình huống cỡ mẫu nhỏ chiều cao trong đó LDA có vẻ vượt trội (mặc dù cả hai tính chất đa biến và các giả định ma trận hiệp phương sai đều không được đáp ứng).
    [ Beleites, C.; Geiger, K.; Kirsch, M.; Sobottka, SB; Schackert, G. & Salzer, R. Raman phân loại quang phổ mô tế bào hình sao: sử dụng thông tin tham khảo mềm., Hậu môn Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]

  • Nhưng lưu ý rằng trong bài báo của chúng tôi, LR có thể đang vật lộn với vấn đề có thể tìm thấy các hướng có khả năng phân tách hoàn hảo (gần). Mặt khác, LDA có thể ít bị quá mức nghiêm trọng.

  • Các giả định nổi tiếng về LDA chỉ cần thiết để chứng minh sự lạc quan. Nếu chúng không được đáp ứng, thủ tục vẫn có thể là một heuristic tốt.

  • Một sự khác biệt quan trọng đối với tôi trong thực tế bởi vì các vấn đề phân loại mà tôi làm việc đôi khi / thường xuyên hóa ra thực sự không phải là vấn đề phân loại rõ ràng: LR có thể dễ dàng thực hiện với dữ liệu trong đó tham chiếu có mức độ thành viên trung gian của lớp. Rốt cuộc, nó là một kỹ thuật hồi quy .
    [xem giấy liên kết ở trên]

  • Bạn có thể nói rằng LR tập trung nhiều hơn LDA vào các ví dụ gần ranh giới lớp và về cơ bản bỏ qua các trường hợp ở "mặt sau" của các bản phân phối.

  • Điều này cũng giải thích tại sao nó ít nhạy cảm hơn với các ngoại lệ (tức là những người ở phía sau) so với LDA.

  • (các máy vectơ hỗ trợ sẽ là một bộ phân loại đi theo hướng này đến cùng: ở đây mọi thứ trừ các trường hợp ở ranh giới đều bị bỏ qua)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.