Các nguồn dường như không đồng ý về phân tích phân biệt đối xử tuyến tính, bậc hai và Fisher


10

Tôi đang nghiên cứu phân tích phân biệt đối xử, nhưng tôi gặp khó khăn trong việc điều hòa một số giải thích khác nhau. Tôi tin rằng tôi phải thiếu một cái gì đó, bởi vì tôi chưa bao giờ gặp phải mức độ khác biệt (dường như) này trước đây. Điều đó đang được nói, số lượng câu hỏi về phân tích phân biệt đối xử trên trang web này dường như là một minh chứng cho sự phức tạp của nó.

LDA và QDA cho một số lớp

Cuốn sách văn bản chính của tôi là Phân tích thống kê đa biến ứng dụng (AMSA) của Johnson & Wicéc và ghi chú của giáo viên của tôi dựa trên điều này. Tôi sẽ bỏ qua cài đặt hai nhóm, vì tôi tin rằng công thức đơn giản hóa trong cài đặt này đang gây ra ít nhất một số nhầm lẫn. Theo nguồn này, LDA và QDA được định nghĩa là phần mở rộng tham số (giả sử tính đa biến) của quy tắc phân loại dựa trên chi phí dự kiến ​​của phân loại sai (ECM). ECM tính tổng chi phí dự kiến ​​có điều kiện để phân loại một quan sát mới x cho bất kỳ nhóm nào (kết hợp chi phí phân loại sai và xác suất trước đó) và chúng tôi chọn các khu vực phân loại để giảm thiểu điều này. trong đó

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dx , fi(x) là mật độ dân số, Rk là tập hợp các quan sát trong nhóm k, c là chi phí và pi là xác suất trước. Các quan sát mới sau đó có thể được gán cho nhóm có thuật ngữ bên trong nhỏ nhất hoặc tương đương với phần bên trái của thuật ngữ bên trong pkfk(x) là lớn nhất

Giả sử quy tắc phân loại này tương đương với "một quy tắc tối đa hóa xác suất sau" (sic AMSA), mà tôi chỉ có thể giả sử là cách tiếp cận của Bayes mà tôi đã thấy. Điều này có đúng không? Và ECM là một phương pháp cũ hơn, bởi vì tôi chưa bao giờ thấy nó xảy ra ở bất kỳ nơi nào khác.

Đối với dân số bình thường, quy tắc này đơn giản hóa thành điểm phân biệt bậc hai: .

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

Điều này có vẻ tương đương với The Elements of Learning thống kê (ESL) công thức 4.12 trên trang 110, mặc dù họ mô tả nó như là một biệt thức bậc hai chức năng chứ không phải là một số điểm . Hơn nữa, họ đến đây thông qua tỷ lệ log của mật độ đa biến (4.9). Đây có phải là một tên khác cho cách tiếp cận của Bayes?

Khi chúng ta giả sử hiệp phương sai bằng nhau, công thức đơn giản hơn nữa đến điểm phân biệt tuyến tính .

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

Công thức này không khác với ESL (4.10), trong đó thuật ngữ đầu tiên được đảo ngược: . Các phiên bản Tiếng Anh cũng là một trong những liệt kê trong học tập thống kê trong R . Hơn nữa, sản lượng SAS trình bày trong AMSA một linear discriminant chức năng được mô tả bao gồm một hằng số và hệ số vector , dường như phù hợp với phiên bản ESL. 0,5 ˉ X T j C O V - 1 ˉ X j + l n  trước j C O V - 1 ˉ X jxTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

Điều gì có thể là lý do đằng sau sự khác biệt này?

Phân biệt đối xử và phương pháp của Fisher

Lưu ý: nếu câu hỏi này được coi là quá lớn, tôi sẽ xóa phần này và mở một câu hỏi mới, nhưng nó được xây dựng trên phần trước. Xin lỗi vì bức tường văn bản bất kể, tôi đã cố gắng hết sức để cấu trúc nó phần nào, nhưng tôi chắc rằng sự nhầm lẫn của tôi về phương pháp này đã dẫn đến một số bước nhảy logic khá kỳ quặc.

Cuốn sách AMSA tiếp tục mô tả phương pháp của ngư dân, cũng cho một số nhóm. Tuy nhiên, ttnphns đã chỉ ra nhiều lần rằng FDA chỉ đơn giản là LDA với hai nhóm. FDA đa sắc này là gì? Có lẽ FDA có thể có nhiều ý nghĩa?

AMSA mô tả các phân biệt đối xử của Fisher là người bản địa của giúp tối đa hóa tỷ lệ . Các kết hợp tuyến tính sau đó là các phân biệt mẫu (trong đó có ). Để phân loại, chúng tôi chọn nhóm k có giá trị nhỏ nhất cho trong đó r là số lượng phân biệt đối xử mà chúng tôi muốn sử dụng. Nếu chúng ta sử dụng tất cả các phân biệt đối xử, quy tắc này sẽ tương đương với chức năng phân biệt tuyến tính.một T B mộtW1B eixmin(g-1,p)Σrj=1[eTj(x-ˉxk)]2a^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

Nhiều giải thích về LDA dường như mô tả phương pháp được gọi là FDA trong cuốn sách AMSA, tức là bắt đầu từ điều này giữa / trong khía cạnh biến đổi. FDA có nghĩa là gì nếu không phải là sự phân rã của ma trận BW?

Đây là lần đầu tiên sách giáo khoa đề cập đến khía cạnh giảm kích thước của phân tích phân biệt đối xử, trong khi một số câu trả lời trên trang web này nhấn mạnh bản chất hai giai đoạn của kỹ thuật này, nhưng điều này không rõ ràng trong cài đặt hai nhóm vì chỉ có 1 phân biệt đối xử. Với công thức trên dành cho LDA và QDA đa lớp, tôi vẫn chưa thấy rõ nơi các phân biệt đối xử xuất hiện.

Nhận xét này đặc biệt khiến tôi bối rối, lưu ý rằng phân loại Bayes về cơ bản có thể được thực hiện trên các biến ban đầu. Nhưng nếu FDA và LDA tương đương về mặt toán học như được chỉ ra bởi cuốn sách và ở đây , không nên giảm kích thước vốn có cho các chức năng ? Tôi tin rằng đây là những gì liên kết cuối cùng đang giải quyết, nhưng tôi không hoàn toàn chắc chắn.di

Ghi chú khóa học của giáo viên của tôi tiếp tục giải thích rằng FDA về cơ bản là một hình thức phân tích tương quan kinh điển. Tôi chỉ tìm thấy 1 nguồn khác nói về khía cạnh này, nhưng một lần nữa nó dường như được gắn chặt với cách tiếp cận của Fisher trong việc phân tách giữa và trong phạm vi biến đổi. SAS trình bày một kết quả trong thủ tục LDA / QDA (DISCRIM) rõ ràng có liên quan đến phương pháp của Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Tuy nhiên, tùy chọn FDA của SAS (CANDISC) về cơ bản thực hiện một mối tương quan chính tắc, mà không trình bày các hệ số phân loại được gọi là của Fisher. Nó trình bày các hệ số chính tắc thô mà tôi tin là tương đương với các hàm riêng W-1B của R thu được bởi lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htmlm#statug_candisc_sect019.htmlm ). Các hệ số phân loại dường như được lấy từ hàm phân biệt mà tôi đã mô tả trong phần LDA và QDA của tôi (vì có 1 hàm cho mỗi dân số và chúng tôi chọn hàm lớn nhất).

Tôi rất biết ơn về bất kỳ và tất cả các giải thích hoặc tham khảo về các nguồn có thể giúp tôi nhìn thấy khu rừng qua những cái cây. Nguyên nhân chính của sự nhầm lẫn của tôi dường như là do các sách giáo khoa khác nhau gọi các phương thức bằng các tên khác nhau hoặc trình bày một biến thể nhỏ của toán học, mà không thừa nhận các khả năng khác, mặc dù tôi đoán điều này sẽ không gây ngạc nhiên khi xem xét tuổi của sách AMSA .


If we use all the discriminants this rule would be equivalent to the linear discriminant functionKhông rõ. "Phân biệt đối xử" và "chức năng phân biệt đối xử" là từ đồng nghĩa. Bạn có thể sử dụng tất cả các phân biệt đối xử hoặc chỉ một vài trong số họ mạnh nhất / quan trọng. Tôi đã không chuyển sang sách AMSA nhưng tôi nghi ngờ rằng FDA = LDA, cho các tác giả. Trên thực tế, cá nhân tôi nghĩ rằng "Fisher LDA" sẽ là một thuật ngữ dư thừa, không cần thiết.
ttnphns

Trong phần "Bổ sung" cho câu trả lời này về phân loại LDA, tôi nhận thấy rằng tính toán "Hàm phân loại tuyến tính Fisher" trực tiếp từ các biến tương đương với Extract the discriminants -> classify by them all (using Bayes approach, as usual)khi, như thường lệ, ma trận hiệp phương sai trong nhóm của các phân biệt được sử dụng trong phân loại.
ttnphns

Trên thực tế, "Các chức năng phân loại tuyến tính của Fisher" là một cách để thực hiện LDA mà không cần thực hiện phân tách W^-1Bvà sau đó thực hiện "Bayes". Nó tương đương, nhưng kém linh hoạt hơn (Bạn không thể chỉ chọn một vài trong số những người phân biệt đối xử, bạn không thể sử dụng riêng trong ma trận hiệp phương sai trong phân loại, v.v.).
ttnphns

Tôi vẫn đang tiêu hóa câu trả lời và các liên kết của bạn (cảm ơn bạn), nhưng: 1) Đây là đoạn trích từ AMSA làm rõ "phân biệt đối xử" và "điểm số phân biệt đối xử" i.imgur.com/7W7vc8u.jpg?1 Tôi đã sử dụng các thuật ngữ "Điểm" và "chức năng" hoán đổi cho nhau. 3) Trong cùng một đoạn trích, bạn có thể thấy rằng cuốn sách AMSA đề cập đến eigendecysis như một cách để có được sự phân biệt đối xử của Fisher. Cách thức được trình bày ở đây Phương pháp của Fisher có vẻ linh hoạt hơn phương pháp tuyến tính / bậc hai, chỉ đơn thuần dẫn đến một chức năng / điểm phân biệt đối xử cứng ..W1B
Zenit

Zenit, đối với tôi, điểm số phân biệt đối xử là giá trị của chức năng phân biệt (chính tắc). Tôi không thể đi xa hơn để so sánh các công thức bạn trích dẫn với những gì tôi biết về cách phân biệt đối xử chính tắc được tính toán trong SPSS . Tôi đề nghị bạn thực hiện các tính toán và so sánh kết quả, và đưa ra kết luận của bạn. Ngoài ra, tôi nghi ngờ rằng các văn bản khác nhau có thể áp dụng nhãn "Fisher's" khác nhau.
ttnphns

Câu trả lời:


8

Tôi chỉ giải quyết một khía cạnh của câu hỏi và thực hiện nó bằng trực giác mà không cần đại số.

Nếu lớp có các ma trận cùng sai-hiệp phương sai và chỉ khác nhau bởi sự thay đổi của centroids của họ trong không gian ba chiều thì họ hoàn toàn tuyến tính tách trong "không gian con". Đây là những gì LDA đang làm. Hãy tưởng tượng bạn có ba ellipsoids giống hệt nhau trong không gian của các biến . Bạn phải sử dụng thông tin từ tất cả các biến để dự đoán thành viên lớp mà không gặp lỗi. Nhưng do thực tế rằng đây là những đám mây có kích thước và định hướng giống hệt nhau, có thể giải cứu chúng bằng cách biến đổi chung thành những quả bóng có bán kính đơn vị. Khi đóp q = m i n ( g - 1 , p ) V 1 , V 2 , V 3 q = g - 1 = 2 D 1 , D 2gpq=min(g1,p)V1,V2,V3q=g1=2kích thước độc lập sẽ đủ để dự đoán thành viên lớp chính xác như trước đây. Các kích thước này được gọi là các hàm phân biệt . Có 3 quả bóng có cùng kích thước điểm, bạn chỉ cần 2 đường trục và để biết tâm của quả bóng phối hợp với chúng để gán chính xác mọi điểm.D1,D2

nhập mô tả hình ảnh ở đây

Phân biệt đối xử là các biến không tương quan, ma trận hiệp phương sai trong lớp của chúng là các nhận dạng lý tưởng (các quả bóng). Phân biệt đối xử tạo thành một không gian con của không gian biến ban đầu - chúng là các kết hợp tuyến tính của chúng. Tuy nhiên, chúng không phải là trục xoay (giống PCA): được nhìn thấy trong không gian biến ban đầu, phân biệt đối xử là trục không trực giao lẫn nhau .

Vì vậy, theo giả định về tính đồng nhất của LDA phương sai hiệp phương sai trong lớp sử dụng để phân loại tất cả các phân biệt đối xử hiện tại không tệ hơn việc phân loại ngay lập tức theo các biến ban đầu. Nhưng bạn không phải sử dụng tất cả các phân biệt đối xử. Bạn chỉ có thể sử dụng đầu tiên mạnh nhất / có ý nghĩa thống kê trong số đó. Bằng cách này, bạn mất thông tin tối thiểu để phân loại và phân loại sai sẽ tối thiểu. Nhìn từ góc độ này, LDA là một giảm dữ liệu tương tự như PCA, chỉ được giám sát.m<q

Lưu ý rằng giả sử tính đồng nhất (+ quy tắc đa biến) và miễn là bạn có kế hoạch sử dụng nhưng tất cả các phân biệt đối xử trong phân loại, có thể bỏ qua việc trích xuất các phân biệt đối xử - liên quan đến tính năng phân loại tổng quát - và tính toán cái gọi là "hàm phân loại của Fisher" từ các biến trực tiếp, để phân loại với chúng , với kết quả tương đương. Vì vậy, khi các lớp có hình dạng giống hệt nhau, chúng ta có thể xem xét các biến đầu vào hoặc các hàm Fisher hoặc phân biệt đối xử như tất cả các bộ "phân loại" tương đương. Nhưng phân biệt đối xử là thuận tiện hơn trong nhiều khía cạnh. p g q 1gpgq1

Vì thông thường các lớp không phải là "elip giống hệt nhau" trong thực tế, nên việc phân loại theo phân biệt đối xử có phần kém hơn so với việc bạn thực hiện phân loại Bayes theo tất cả các biến ban đầu . Chẳng hạn, trên đồ thị này , hai hình elip không song song với nhau; và người ta có thể nắm bắt một cách trực quan rằng phân biệt đối xử hiện tại không đủ để phân loại các điểm chính xác như hai biến cho phép. QDA (phân tích phân biệt bậc hai) sau đó sẽ là một bước xấp xỉ tốt hơn LDA. Cách tiếp cận thực tế nửa chừng giữa LDA và QDA là sử dụng các phân biệt đối xử LDA nhưng sử dụng ma trận hiệp phương sai lớp riêng được quan sát của chúng trong phân loại ( xem , xempqp) thay vì ma trận gộp của họ (đó là danh tính).

(Và vâng, LDA có thể được xem là có liên quan chặt chẽ với, thậm chí là một trường hợp cụ thể, phân tích tương quan MANOVA và Canonical hoặc hồi quy đa biến thứ hạng giảm - xem , xem , xem .)


g q W - 1 B1 Một lưu ý thuật ngữ quan trọng. Trong một số văn bản, các chức năng phân loại của có thể được gọi là "Các chức năng phân biệt đối xử của Fisher", có thể gây nhầm lẫn với phân biệt đối xử là các chức năng phân biệt chính tắc (nghĩa là có được trong quá trình xuất bản củagqW1B). Để rõ ràng, tôi khuyên bạn nên nói "Các chức năng phân loại của Fisher" so với "các chức năng phân biệt chính tắc" (viết tắt là phân biệt đối xử). Theo cách hiểu hiện đại, LDA là phân tích phân biệt tuyến tính chính tắc. "Phân tích phân biệt đối xử của Fisher", ít nhất là theo nhận thức của tôi, là LDA với 2 lớp (trong đó phân biệt đối xử chính tắc duy nhất chắc chắn giống như các chức năng phân loại của Fisher) hoặc, nói chung, tính toán các chức năng phân loại của Fisher trong cài đặt đa lớp.


Thuật ngữ lại: bài viết Wikipedia về LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) nói rằng "Các thuật ngữ phân biệt tuyến tính của Fisher và LDA thường được sử dụng thay thế cho nhau, mặc dù bài viết gốc của Fisher [1] thực sự mô tả một sự phân biệt đối xử hơi khác nhau, mặc dù bài viết gốc của Fisher [1] không đưa ra một số giả định của LDA như các lớp phân phối thông thường hoặc hiệp phương sai lớp bằng nhau. " Dựa trên điều này, LDA trên 2 lớp dường như là trường hợp đặc biệt của "FDA", nếu hiệp phương sai nhóm là "giống nhau". @ttnphns: điều này có đúng không?
Laryx Decidua 17/07/19

@LaryxDecidua, tôi không chắc chắn 100% về thuật ngữ trong trường hợp này và tôi đã thấy những ý kiến ​​khác nhau. Tôi hoàn toàn không sử dụng thuật ngữ "Fisher's DA". Nhưng khi mọi người hỏi, tôi trả lời rằng "FDA là LDA với 2 lớp".
ttnphns 17/07/19

Cảm ơn, theo tôi, khía cạnh thú vị nhất là "FDA", theo Wikipedia, không giả định tính bình thường, trong khi "LDA" (và QDA) thì có. Có lẽ "FDA là LDA với 2 lớp, không giả định tính quy tắc hoặc tính đồng nhất".
Laryx Decidua 17/07/19
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.