LDA so với perceptron


9

Tôi đang cố gắng để cảm nhận về cách LDA 'phù hợp' trong các kỹ thuật học tập được giám sát khác. Tôi đã đọc một số bài viết về LDA-esque trên đây về LDA. Tôi đã quen thuộc với perceptron, nhưng bây giờ chỉ học LDA.

Làm thế nào để LDA 'phù hợp' với gia đình của các thuật toán học có giám sát? Điều gì có thể là nhược điểm của nó so với các phương pháp khác và nó có thể được sử dụng tốt hơn để làm gì? Tại sao lại sử dụng LDA, khi người ta chỉ có thể sử dụng, ví dụ, perceptron chẳng hạn?


1
Tôi nghĩ bạn có thể bối rối về việc học có giám sát là gì. K-mean là một thuật toán phân cụm học tập không giám sát. Perceptron là một thuật toán phân loại học tập có giám sát, cố gắng tìm một siêu phẳng ngăn cách âm với các quan sát tích cực. LDA là một phương pháp có thể được sử dụng để phân loại có giám sát nhưng thường được sử dụng để lựa chọn tính năng được giám sát. Xem câu trả lời của @ AdamO để biết các giả định của trình phân loại LDA.
Bitwise

@ Rất tiếc! Tôi không biết tại sao tôi lại đặt K-nghĩa vào đó. Vâng, nó là một thuật toán không giám sát. Tôi sẽ loại bỏ nó trong một chỉnh sửa.
Creatron

@Bitwise Về những gì bạn nói về LDA và Perceptron, vâng, đó là điều khiến tôi bối rối. LDA cố gắng tìm một siêu phẳng cho đến khi chiếu dữ liệu của bạn, sao cho nó tối đa hóa phương sai xen kẽ, đồng thời giảm thiểu phương sai trong cụm. Sau đó trên đường viền, bạn có một bộ phân loại. Perceptron làm một cái gì đó tương tự, trong đó nó cũng cố gắng tìm một siêu phẳng tối ưu để tách rời dữ liệu được dán nhãn. Vậy tại sao lại dùng cái này hơn cái kia?
Creatron

Câu trả lời:


15

Như AdamO gợi ý trong nhận xét trên, bạn thực sự không thể làm tốt hơn đọc Chương 4 của Các yếu tố của học thống kê (mà tôi sẽ gọi là HTF) so sánh LDA với các phương pháp phân loại tuyến tính khác, đưa ra nhiều ví dụ và cũng thảo luận về việc sử dụng của LDA như là một kỹ thuật giảm kích thước trong tĩnh mạch của PCA, như ttnphns chỉ ra, là khá phổ biến.

Từ quan điểm phân loại, tôi nghĩ sự khác biệt chính là điều này. Hãy tưởng tượng rằng bạn có hai lớp và bạn muốn tách chúng ra. Mỗi lớp có một hàm mật độ xác suất. Tình huống tốt nhất có thể xảy ra là nếu bạn biết các hàm mật độ này, bởi vì sau đó bạn có thể dự đoán một điểm sẽ thuộc về lớp nào bằng cách đánh giá mật độ cụ thể của lớp tại thời điểm đó.

Một số loại phân loại hoạt động bằng cách tìm một xấp xỉ với các hàm mật độ của các lớp. LDA là một trong số đó; nó làm cho giả định rằng mật độ là đa biến bình thường với cùng một ma trận hiệp phương sai. Đây là một giả định mạnh mẽ, nhưng nếu nó gần đúng, bạn sẽ có được một bộ phân loại tốt. Nhiều phân loại khác cũng áp dụng cách tiếp cận này, nhưng cố gắng linh hoạt hơn so với giả định tính quy tắc. Ví dụ, xem trang 108 của HTF.

Mặt khác, trên trang 210, HTF cảnh báo:

Nếu phân loại là mục tiêu cuối cùng, thì việc học tốt mật độ lớp riêng biệt có thể là không cần thiết, và trên thực tế có thể gây hiểu nhầm.

Một cách tiếp cận khác chỉ đơn giản là tìm kiếm một ranh giới giữa hai lớp, đó là những gì mà tri giác làm. Một phiên bản tinh vi hơn của điều này là máy vectơ hỗ trợ. Các phương thức này cũng có thể được kết hợp với việc thêm các tính năng vào dữ liệu bằng cách sử dụng một kỹ thuật gọi là kernelization. Điều này không hoạt động với LDA vì nó không bảo toàn tính quy tắc, nhưng không có vấn đề gì đối với một bộ phân loại chỉ tìm kiếm một siêu phẳng tách biệt.

Sự khác biệt giữa LDA và một bộ phân loại tìm kiếm một siêu phẳng tách biệt giống như sự khác biệt giữa thử nghiệm t và một số thay thế không thay đổi trong thống kê thông thường. Cái sau mạnh hơn (ví dụ như ngoại lệ), nhưng cái trước là tối ưu nếu các giả định của nó được thỏa mãn.

Một nhận xét nữa: có thể đáng nói rằng một số người có thể có lý do văn hóa khi sử dụng các phương pháp như LDA hoặc hồi quy logistic, có thể bắt buộc phải phun ra các bảng ANOVA, kiểm tra giả thuyết và trấn an những thứ như thế. LDA được phát minh bởi Fisher; perceptionron ban đầu là một mô hình cho tế bào thần kinh của người hoặc động vật và không có mối liên hệ nào với các số liệu thống kê. Nó cũng hoạt động theo cách khác; một số người có thể thích các phương pháp như máy vectơ hỗ trợ vì chúng có loại tín dụng hipster tiên tiến mà phương pháp thế kỷ hai mươi không thể phù hợp. Điều đó không có nghĩa là họ tốt hơn. (Một ví dụ điển hình về điều này được thảo luận trong Machine Learning for Hackers , nếu tôi nhớ lại chính xác.)


"một số người có thể thích các phương pháp như máy vectơ hỗ trợ vì chúng có loại hipster tiên tiến mà phương pháp thế kỷ hai mươi không thể sánh được." CƯỜI LỚN! Thật vậy. Btw bạn có một sở trường để giải thích mọi thứ rất rõ ràng và chính xác. Cảm ơn bạn! Tôi cần một "bản đồ" về cách mọi thứ khớp với nhau và bạn đã cung cấp nó.
Creatron

2

Đối với trực giác, xem xét trường hợp này:

nhập mô tả hình ảnh ở đây

Dòng đại diện cho "ranh giới tối ưu" giữa hai lớp o và x.

LDA cố gắng tìm một siêu phẳng làm giảm thiểu phương sai xen kẽ và tối đa hóa phương sai nội bộ, và sau đó đường biên sẽ trực giao với siêu phẳng đó. Ở đây, điều này có thể sẽ không hoạt động vì các cụm có phương sai lớn theo cùng một hướng.

Mặt khác, một tri giác có thể có cơ hội tốt hơn để tìm ra một siêu phẳng tách biệt tốt.

Tuy nhiên, trong trường hợp các lớp có phân phối Gaussian, LDA có thể sẽ làm tốt hơn, vì perceptron chỉ tìm thấy một siêu phẳng tách biệt phù hợp với dữ liệu, mà không đảm bảo về siêu phẳng nó chọn (có thể có một số vô hạn của hyperplanes phù hợp). Tuy nhiên, các phiên bản tinh vi hơn của perceptron có thể chọn một siêu phẳng với một số thuộc tính tối ưu, chẳng hạn như tối đa hóa lề giữa các lớp (đây thực chất là những gì mà Support Vector Machines làm).

Cũng lưu ý rằng cả LDA và perceptron đều có thể được mở rộng đến ranh giới quyết định phi tuyến tính thông qua thủ thuật kernel .


1

Một trong những khác biệt lớn nhất giữa LDA và các phương pháp khác là nó chỉ là một kỹ thuật học máy cho dữ liệu được giả định là được phân phối bình thường. Điều đó có thể tuyệt vời trong trường hợp thiếu dữ liệu hoặc cắt ngắn trong đó bạn có thể sử dụng thuật toán EM để tối đa hóa khả năng trong các trường hợp rất lạ và / hoặc thú vị. Trống rỗng vì các lỗi chính tả mô hình, chẳng hạn như dữ liệu đa phương thức, có thể dẫn đến các dự đoán hoạt động kém trong đó phân cụm K-nghĩa sẽ làm tốt hơn. Dữ liệu đa phương thức cũng có thể được tính bằng EM để phát hiện các biến tiềm ẩn hoặc phân cụm trong LDA.

Chẳng hạn, giả sử bạn đang muốn đo lường xác suất phát triển chẩn đoán AIDS dương tính trong 5 năm dựa trên số lượng CD4. Giả sử thêm rằng bạn không biết giá trị của một dấu ấn sinh học cụ thể ảnh hưởng lớn đến số lượng CD4 và có liên quan đến ức chế miễn dịch hơn nữa. Số lượng CD4 dưới 400 nằm dưới giới hạn phát hiện thấp hơn trên hầu hết các xét nghiệm hợp lý. Thuật toán EM cho phép chúng tôi tính toán lặp lại phép gán LDA và dấu ấn sinh học cũng như phương tiện và hiệp phương sai cho CD4 cho DF không được khai báo.


Cảm ơn Adam, mặc dù bây giờ tôi thấy mình bối rối hơn. :-) LDA tốt hơn / tệ hơn như thế nào khi nói, Perceptron hoặc kỹ thuật học tập có giám sát khác? Liên quan đến thuật toán EM, bạn đang sử dụng nó trong phạm vi nói rằng bạn có thể giải quyết LDA, sử dụng thuật toán EM, đúng không?
Creatron

1
@AdamO, tôi muốn thêm vào cho rõ ràng rằng LDA vì kỹ thuật giảm dữ liệu không phụ thuộc vào tính quy tắc, giống như PCA không. Tính quy phạm trong LDA là giả định cho 1) thử nghiệm thống kê (thử nghiệm M của Box, v.v.), 2) phân loại.
ttnphns

@ttnphns giả sử tính chuẩn có nghĩa là LDA là một kỹ thuật ML. ML là một điều tốt. Những cảnh báo cụ thể trong ví dụ tôi đã đề cập sử dụng ML để giải quyết các vấn đề khó khăn. Những giải pháp đó chỉ có thể thực hiện được với mô phỏng tinh vi và / hoặc BUGS.
AdamO

@TheGrapeBeyond LDA tối đa hóa khoảng cách Mahal btn hai nhóm. SLP (perceptionron một lớp hoặc nnet) vẽ siêu phẳng trong không gian tính năng tạo độ chính xác phân loại tối đa ... Tôi nghĩ vậy. Một nơi khởi đầu tốt là đọc cuốn sách của Tibs / Hastie. Tôi có thể cần phải tự đánh lên cái đó
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.