PCA mạnh mẽ và khoảng cách Mahalanobis mạnh mẽ để phát hiện ngoại lệ


17

Robust PCA (được phát triển bởi Candes et al 2009 hoặc tốt hơn là Netrepalli et al 2014 ) là một phương pháp phổ biến để phát hiện ngoại lệ đa biến , nhưng khoảng cách Mahalanobis cũng có thể được sử dụng để phát hiện sớm hơn với ước tính mạnh mẽ, thường xuyên của ma trận hiệp phương sai . Tôi tò mò về (các) lợi ích của việc sử dụng một phương pháp so với phương pháp khác.

Trực giác của tôi cho tôi biết rằng sự khác biệt lớn nhất giữa hai loại là: Khi tập dữ liệu là "nhỏ" (theo nghĩa thống kê), PCA mạnh mẽ sẽ đưa ra một hiệp phương sai bậc thấp trong khi ước lượng ma trận hiệp phương sai mạnh sẽ thay vào đó hiệp phương sai thứ hạng do chính quy Ledoit-Wolf. Làm thế nào điều này lần lượt ảnh hưởng đến phát hiện ngoại lệ?


Câu hỏi thú vị nhưng tôi không thể thấy làm thế nào một câu trả lời có thể được thúc đẩy mà không có trường hợp sử dụng cụ thể. Bạn có "quan sát bị hỏng nặng" không? Bạn có dữ liệu nói chung là ồn ào? Một số triển khai RPCA về cơ bản là các kỹ thuật ước lượng hiệp phương sai mạnh mẽ (xem Phân tích thành phần nguyên tắc của Jolliffe, Ed. 2 Ch. 10) trong đó các PC được ước tính từ ước tính hiệp phương hóa chính quy. Do đó, sự khác biệt từ hai cách tiếp cận mà bạn đề cập là không rõ ràng. Nói chung, tự động phát hiện ngoại lệ thành công trong bối cảnh của một ứng dụng cụ thể.
usεr11852 nói Phục hồi Monic

1
Vấn đề dữ liệu ồn ào trên mạng không phải là phát hiện ngoại lệ. Tôi nghĩ rằng vấn đề phát hiện ngoại lệ là đủ hạn chế để cho phép so sánh chung giữa hai phương pháp này mà không có trường hợp sử dụng. Đây là một câu hỏi về phương pháp luận.
Mustafa S Eisa

Có lẽ tôi đã cố nói quá nhiều trong không gian quá nhỏ, xin lỗi vì điều đó. Điều tôi muốn thu hút sự chú ý là hai cách tiếp cận bạn đề cập không khác biệt. Bạn nên xem xét tập trung nhiều hơn vào việc so sánh giữa phương pháp theo đuổi phép chiếu (cái mà bạn gọi là RPCA) và phương pháp ước lượng hiệp phương sai mạnh mẽ (cái mà bạn gọi là khoảng cách Mahalanobis). Bản thân ước lượng hiệp phương sai mạnh mẽ là một phương pháp hoàn toàn hợp lệ cho việc triển khai RPCA (ví dụ: google "PCA M-Ước tính"). Cũng không đề cập đến sự hiện diện của các phương pháp PCA có trọng số mà bằng cách nào đó bạn không đề cập đến trong bối cảnh của RPCA.
usεr11852 nói Phục hồi Monic

Không cần xin lỗi :) Hai phương pháp rất khác biệt, đặc biệt là trên các bộ dữ liệu nhỏ. Một trong những cách họ khác nhau được đề cập ở cuối câu hỏi của tôi. Mặc dù (mạnh mẽ) PCA có thể được coi là một vấn đề chiếu, nó cũng có thể được hiểu là một vấn đề ước lượng hiệp phương sai, do đó có lẽ ít có sự khác biệt trong phương pháp ước lượng tham số so với ứng dụng và hiệu suất.
Mustafa S Eisa

@ MustafaSEisa / Câu hỏi hay! Tôi nghĩ rằng nó có thể được trả lời trên cơ sở phương pháp luận: trên thực tế nó là một trong những người bạn đời của tôi. Tôi sẽ cố gắng trả lời càng sớm càng tốt. Trong luc đo; Tôi nghĩ rằng một cách hiệu quả để tiếp cận nó một cách tổng quát hơn, là xem xét hậu quả của việc sử dụng các mô hình với nhóm bất biến lồng nhau nhưng không đồng đều. Khi tôi cố gắng làm ở đây trong một bối cảnh hơi khác.
dùng603

Câu trả lời:


7

Bài viết này so sánh một số phương pháp trong lĩnh vực này. Họ đề cập đến phương pháp tiếp cận mạnh mẽ PCA mà bạn liên kết với tư cách là "PCP" (theo đuổi các thành phần chính) và gia đình của các phương pháp mà bạn đã liên kết để ước lượng hiệp phương sai mạnh mẽ như ước lượng M.

Họ cho rằng

PCP được thiết kế cho các tọa độ dữ liệu bị hỏng đồng đều, thay vì các điểm dữ liệu bị hỏng (nghĩa là các ngoại lệ), do đó, việc so sánh với PCP có phần không công bằng đối với loại dữ liệu này

và cho thấy rằng PCP (còn gọi là PCA mạnh) có thể thất bại trong việc phát hiện sớm hơn trong một số trường hợp.

Họ cũng nói về ba loại "kẻ thù của phục hồi không gian con", tức là các loại ngoại lệ khác nhau và loại phương pháp nào có thể làm tốt để đối phó với từng loại. So sánh các ngoại lệ của riêng bạn với ba loại "kẻ thù" được thảo luận ở đây có thể giúp bạn chọn một phương pháp.


Cảm ơn vì David này, tôi sẽ xem qua bài báo. Tuy nhiên, có một phiên bản PCA mạnh mẽ áp dụng hình phạt bất biến xoay vòng trên mốc thời gian (các hàng của ma trận dữ liệu) thay vì hình phạt trên tọa độ (như trong trường hợp Candes). Suy nghĩ?
Mustafa S Eisa

Tôi không chắc là tôi hiểu câu hỏi của bạn. Bạn đang yêu cầu tôi so sánh hai cách tiếp cận mà bạn đã thảo luận trong câu hỏi của bạn với cách tiếp cận PCA mạnh mẽ khác nhau?
David J. Harris

11

Nếu câu trả lời của bạn là, thì No No hoàn toàn ổn, tôi chỉ đang tự hỏi.
Mustafa S Eisa

Ồ, tôi hiểu rồi. Đó sẽ là một trường hợp đặc biệt của khoảng cách Mahalanobis?
David J. Harris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.