Cách tốt nhất để xác định các ngoại lệ trong dữ liệu đa biến là gì?


94

Giả sử tôi có một tập hợp lớn dữ liệu đa biến với ít nhất ba biến. Làm thế nào tôi có thể tìm thấy các ngoại lệ? Các biểu đồ phân tán theo cặp sẽ không hoạt động vì có thể có một ngoại lệ tồn tại ở 3 chiều không phải là ngoại lệ trong bất kỳ không gian con 2 chiều nào.

Tôi không nghĩ về một vấn đề hồi quy, nhưng về dữ liệu đa biến thực sự. Vì vậy, câu trả lời liên quan đến hồi quy mạnh mẽ hoặc đòn bẩy tính toán là không hữu ích.

Một khả năng sẽ là tính toán điểm thành phần chính và tìm kiếm một ngoại lệ trong biểu đồ phân tán hai biến của hai điểm số đầu tiên. Điều đó sẽ được đảm bảo để làm việc? Có cách tiếp cận tốt hơn?


3
Nếu ma trận phân tán sẽ không bắt được nó, bạn có thể thử phân tán 3D. Tất nhiên, điều đó sẽ không phù hợp với 4D, nhưng sau đó bạn có thể tạo ra chiều thứ 4 theo thời gian và làm một bộ phim. :)
Shane

Điều gì về phân tích cụm (phân cấp)?
Andrej

11
5 D về màu sắc, thứ 6 về cường độ màu, thứ 7 về kích thước điểm và chúng ta có thể đi ;-)

Câu trả lời:


26

Hãy xem gói mvout trước đó dựa trên khoảng cách mahalanobis mạnh mẽ được đặt hàng, như đề xuất của @drknexus.


4
Cá nhân tôi không tin vào gói này! Tôi nghĩ rằng đây chỉ là tiếng ồn của khoa học. Các loại lý thuyết này rất tốt cho dữ liệu mô phỏng trong khi chỉ là pffff cho dữ liệu thực. Tôi đã sử dụng gói này để phát hiện các ngoại lệ :-) đáng buồn là một nửa dữ liệu của tôi được phát hiện là ngoại lệ :- Thật buồn cười khi mọi người chỉ xuất bản một số (tôi không biết nên gọi cái này là gì). Nếu bạn có bất kỳ bình luận, tôi sẽ rất vui khi thấy. Chúng ta có nhiều loại ngoại lệ nhưng chúng ta có nên xóa chúng khỏi dữ liệu của mình không? Tôi tin KHÔNG.
Học viên

1
Bạn có thể giải thích khi nào và tại sao điều này hoạt động?
eric_kernfeld

19

Tôi nghĩ rằng câu trả lời của Robin Girard sẽ hoạt động khá tốt trong 3 và có thể 4 chiều, nhưng lời nguyền về chiều sẽ ngăn nó hoạt động vượt ra ngoài điều đó. Tuy nhiên, đề xuất của anh ấy đã đưa tôi đến một phương pháp liên quan, đó là áp dụng ước tính mật độ hạt nhân được xác thực chéo cho ba điểm thành phần chính đầu tiên. Sau đó, một bộ dữ liệu rất cao vẫn có thể được xử lý ok.

Tóm lại, với i = 1 đến n

  1. Tính toán ước tính mật độ của ba điểm thành phần chính đầu tiên thu được từ tập dữ liệu không có Xi.
  2. Tính khả năng của Xi cho mật độ ước tính ở bước 1. gọi nó là Li.

kết thúc cho

Sắp xếp Li (cho i = 1, .., n) và các ngoại lệ là những người có khả năng dưới ngưỡng nào đó. Tôi không chắc điều gì sẽ là một ngưỡng tốt - tôi sẽ để nó cho bất cứ ai viết bài báo này! Một khả năng là thực hiện một boxplot của các giá trị log (Li) và xem những gì ngoại lệ được phát hiện ở đầu âm.


Cảm ơn câu trả lời này (nên là một nhận xét?) Như tôi đã đề cập, như một nhận xét cho câu trả lời của Rich answer không phải là vấn đề (thậm chí 1000 có thể hoạt động) nếu bạn đưa ra giả định cấu trúc tham số.
cướp girard

@rob "Tôi không chắc điều gì sẽ là ngưỡng tốt" đây sẽ là mục đích của quy trình thử nghiệm nhiều lần tôi đã đề cập .... nhưng tôi hoàn toàn đồng ý rằng mọi thứ phải được điền vào và tôi thực sự thích phát hiện ngoại lệ trong phát hiện ngoại lệ! Ai muốn viết một bài báo :)?
cướp girard

4
(-1) Có một chút khó chịu khi câu trả lời được chấp nhận cho câu hỏi này không hữu ích (ví dụ quá mơ hồ và không được thực hiện) cũng không đúng về mặt khoa học (như không hề sai: theo như tôi biết, nó thậm chí không được đề cập trong Tài liệu liên quan).
user603

6
(-1) đây có vẻ là một câu trả lời không chính xác - phương pháp này sẽ không phát hiện ra các ngoại lệ! Thật dễ dàng để tưởng tượng một đám mây điểm giống như bánh kếp 3D được PCA chiếu trên mặt phẳng 2D và 1 điểm xa hơn mặt phẳng nhưng hình chiếu của nó nằm ngay giữa đám mây được chiếu, do đó "mật độ hạt nhân" của điểm trong mặt phẳng 2D sẽ cao mặc dù nó là một ngoại lệ.
Kochede

1
Tôi nghĩ PCA sẽ có vấn đề ở đây. PCA là một xấp xỉ trong đó xem xét các đóng góp chính cho phương sai. Nhưng ở đây, mục đích chính là tìm ra các ngoại lệ - họ sẽ không "rơi vào giữa các vết nứt" chứ?
Omry Atia

18

Bạn có thể tìm thấy một bản tóm tắt sư phạm về các phương pháp khác nhau có sẵn trong (1)

Đối với một số - so sánh-- so sánh số của các phương pháp khác nhau được liệt kê ở đó, bạn có thể kiểm tra (2)(3) .

có nhiều so sánh cũ hơn (và ít toàn diện hơn), thường được tìm thấy trong sách. Bạn sẽ tìm thấy một trong các trang 142-143 của (4), ví dụ.

Lưu ý rằng tất cả các phương thức được thảo luận ở đây đều có triển khai R nguồn mở, chủ yếu thông qua gói rrcov .

  • (1) P. Rousseeuw và M. Hubert (2013) Công cụ ước tính phân tích cao về vị trí và phân tán đa biến.
  • (2) M. Hubert, P. Rousseeuw, K. Vakili (2013). Hình dạng thiên vị của các ước lượng hiệp phương sai mạnh mẽ: một nghiên cứu thực nghiệm. Báo cáo thống kê.
  • (3) K. Vakili và E. Schmitt (2014). Tìm kiếm các ngoại lệ đa biến với FastPCS. Thống kê tính toán & phân tích dữ liệu.
  • (4) Maronna RA, Martin RD và Yohai VJ (2006). Thống kê mạnh mẽ: Lý thuyết và phương pháp. Wiley, New York.

Tôi sẽ không đề xuất các giấy tờ dựa trên dữ liệu mô phỏng, tôi tin rằng hai giấy tờ đầu tiên dựa trên dữ liệu mô phỏng. Tôi đang làm việc trên dữ liệu thực và RARELY Tôi có thể tìm thấy những ngoại lệ mạnh được mô phỏng trong dữ liệu. Cá nhân tôi không bao giờ tìm thấy một tập dữ liệu với các ngoại lệ rất mạnh. Nếu bạn biết bất kỳ dữ liệu thực nào, xin đừng ngần ngại chia sẻ
Người học

Xin chào Nemo: cảm ơn bình luận của bạn. Trên thực tế, hóa ra đối với nhiều người (thật đáng buồn là không phải tất cả) các mô hình đó, cấu hình xấu nhất có thể được biết đến và đây là những cấu hình mà người ta thường mô phỏng và đánh giá các mô hình đó. Có lẽ bạn có thể hình thành điều này như một câu hỏi? Tôi sẽ rất hạnh phúc khi chỉ vào một số tài liệu tham khảo!
user603 27/2/2015

1
Tôi đã hỏi một câu hỏi chung rồi. Bạn có thể tìm thấy bài viết của tôi ở đây stats.stackexchange.com/questions/139445/ trên
Học viên

13

Tôi sẽ thực hiện một số loại "thuật toán thử nghiệm bỏ đi" (n là số lượng dữ liệu):

cho i = 1 đến n

  1. tính toán ước tính mật độ của tập dữ liệu thu được bằng cách ném điXi . (Ước tính mật độ này nên được thực hiện với một số giả định nếu kích thước cao, ví dụ, giả định gaussian mà ước tính mật độ là dễ dàng: trung bình và hiệp phương sai)
  2. Tính khả năng của cho mật độ ước tính ở bước 1Xi . gọi nó là .Li

kết thúc cho

sắp xếp (cho i = 1, .., n) và sử dụng quy trình kiểm tra nhiều giả thuyết để nói rằng điều đó không tốt ...Li

Điều này sẽ hoạt động nếu n đủ lớn ... bạn cũng có thể sử dụng "chiến lược loại bỏ k" có thể phù hợp hơn khi bạn có "nhóm" ngoại lệ ...


Làm thế nào điều này sẽ giải quyết các trường hợp bạn không biết bạn có bao nhiêu ngoại lệ, tức là khi các điểm N-1 vẫn có thành kiến ​​vì chúng bao gồm các ngoại lệ?
Benjamin Bannier

1
nếu n đủ lớn và số lượng ngoại lệ nhỏ thì sai lệch này không đáng kể. Nếu sau đó có một số lượng lớn các ngoại lệ, thì maibe không phải là ngoại lệ và như tôi đã đề cập, bạn có thể sử dụng chiến lược rời khỏi ... (trong trường hợp này, bạn phải tìm ra một chiến lược để tránh theo dõi tất cả các cấu hình có thể là NP khó ...) và nếu bạn không biết k, bạn có thể thử nhiều giá trị cho k và giữ mức độ phù hợp nhất.
cướp girard

1
Đây là một ý tưởng hay, nhưng nếu tôi đã hiểu chính xác, nó dường như phóng to ý tưởng "ngoại lệ" để bao gồm bất kỳ giá trị nào trong một tập dữ liệu khác xa với những người khác. Ví dụ: trong lô {-110 [1] -90, 0, 90 [1] 110} của 43 số nguyên, quy trình của bạn sẽ không xác định 0 (là trung vị của các số này!) Là "ngoại lệ duy nhất" "?
whuber

@whuber câu hỏi hay! không có giả định về cấu trúc, số 0 có thể được loại bỏ. Tuy nhiên, bạn có thể giả sử phân phối là không chính thống và tính toán mật độ tương ứng. Trong trường hợp này, giả định cấu trúc (unimodality) sẽ giúp thủ tục xem số 0 là giá trị "bình thường". Cuối cùng, bạn nghĩ nó là bình thường bởi vì bạn có loại "giả định cấu trúc" đó trong đầu :)?
cướp girard

3
LiLi

12

Bạn có thể tìm thấy các ứng cử viên cho "ngoại lệ" trong số các điểm hỗ trợ của ellipsoid giới hạn khối lượng tối thiểu. ( Các thuật toán hiệu quả để tìm các điểm này ở các chiều khá cao, cả chính xác và xấp xỉ, đã được phát minh trong một loạt các bài báo vào những năm 1970 vì vấn đề này có liên quan mật thiết với một câu hỏi trong thiết kế thử nghiệm.)


12

Cách tiếp cận mới lạ mà tôi thấy là của Phân tích thành phần chính của Jolliffe . Bạn chạy PCA trên dữ liệu của mình (Lưu ý: PCA có thể là một công cụ khám phá dữ liệu hữu ích theo cách riêng của nó), nhưng thay vì nhìn vào một vài Thành phần chính (PC) đầu tiên, bạn vẽ sơ đồ cho vài PC cuối cùng. Những PC này là mối quan hệ tuyến tính giữa các biến của bạn với phương sai nhỏ nhất có thể. Do đó, họ phát hiện "chính xác" hoặc gần với các mối quan hệ đa biến chính xác trong dữ liệu của bạn.

Một biểu đồ về điểm số PC cho PC cuối cùng sẽ hiển thị các ngoại lệ không dễ bị phát hiện bằng cách xem riêng từng biến. Một ví dụ là về chiều cao và cân nặng - một số người có chiều cao "trên trung bình" và cân nặng "dưới trung bình" sẽ được phát hiện bởi PC cuối cùng về chiều cao và cân nặng (giả sử chúng có tương quan dương), ngay cả khi chiều cao và cân nặng của họ không " cực kỳ "riêng lẻ (ví dụ như người đã 180cm và 60kg).


11

Tôi không thấy ai đề cập đến các chức năng ảnh hưởng . Lần đầu tiên tôi thấy ý tưởng này trong cuốn sách đa biến của Gnanadesikan .

Trong một chiều, một ngoại lệ là một giá trị cực kỳ lớn hoặc cực kỳ nhỏ. Trong phân tích đa biến, đó là một quan sát được loại bỏ khỏi phần lớn dữ liệu. Nhưng số liệu nào chúng ta nên sử dụng để xác định cực đoan cho ngoại lệ? Có nhiều sự lựa chọn. Khoảng cách Mahalanobis chỉ là một. Tôi nghĩ rằng tìm kiếm mọi loại ngoại lệ là vô ích và phản tác dụng. Tôi sẽ hỏi tại sao bạn quan tâm đến ngoại lệ? Khi ước tính một phương tiện, họ có thể có ảnh hưởng lớn đến ước tính đó. Công cụ ước tính mạnh mẽ giảm cân và phù hợp với các ngoại lệ nhưng họ không chính thức kiểm tra chúng. Bây giờ trong hồi quy, các ngoại lệ - như các điểm đòn bẩy - có thể có tác động lớn đến các tham số độ dốc trong mô hình. Với dữ liệu hai biến, chúng có thể ảnh hưởng quá mức đến hệ số tương quan ước tính và trong ba chiều trở lên, hệ số tương quan nhiều.

Các chức năng ảnh hưởng đã được Hampel giới thiệu như một công cụ trong ước tính mạnh mẽ và Mallows đã viết một bài báo chưa được công bố tốt đẹp ủng hộ việc sử dụng chúng. Hàm ảnh hưởng là một hàm của điểm bạn đang ở trong không gian n chiều và tham số. Về cơ bản, nó đo sự khác biệt giữa ước lượng tham số với điểm trong phép tính và điểm bị bỏ sót. Thay vì gặp rắc rối khi thực hiện tính toán hai ước tính và lấy chênh lệch, thường bạn có thể rút ra một công thức cho nó. Sau đó, các đường viền của ảnh hưởng không đổi cho bạn biết hướng cực đoan đối với ước tính của tham số này và do đó cho bạn biết nơi nào trong không gian n chiều để tìm kiếm ngoại lệ.

Để biết thêm bạn có thể xem bài báo năm 1983 của tôi trên Tạp chí Khoa học Quản lý và Toán học Hoa Kỳ có tiêu đề "Hàm ảnh hưởng và ứng dụng của nó để xác nhận dữ liệu". Trong xác thực dữ liệu, chúng tôi muốn tìm kiếm các ngoại lệ ảnh hưởng đến mục đích sử dụng dữ liệu. Cảm giác của tôi là bạn nên hướng sự chú ý của mình đến các ngoại lệ ảnh hưởng lớn đến các tham số bạn quan tâm để ước tính và không quan tâm quá nhiều đến những người khác không.


1
+1 Ý tưởng rất hay, đặc biệt là tập trung nhất quán vào mục đích phân tích.
whuber

Một ý tưởng tương tự là Đồng thuận mẫu ngẫu nhiên ( RANSAC ).
GeoMatt22


7

Đối với kích thước vừa phải, như 3, thì một số loại kỹ thuật xác thực chéo hạt nhân như được đề xuất ở nơi khác có vẻ hợp lý và là cách tốt nhất tôi có thể đưa ra.

Đối với kích thước cao hơn, tôi không chắc chắn rằng vấn đề có thể giải quyết được; nó rơi thẳng vào lãnh thổ 'lời nguyền của chiều'. Vấn đề là các hàm khoảng cách có xu hướng hội tụ đến các giá trị rất lớn rất nhanh khi bạn tăng tính chiều, bao gồm các khoảng cách xuất phát từ các bản phân phối. Nếu bạn đang xác định một ngoại lệ là "một điểm có chức năng khoảng cách tương đối lớn so với các điểm khác" và tất cả các chức năng khoảng cách của bạn đang bắt đầu hội tụ vì bạn đang ở trong một không gian nhiều chiều, thì bạn đang gặp rắc rối .

Nếu không có một số giả định phân phối sẽ cho phép bạn biến nó thành một vấn đề phân loại xác suất, hoặc ít nhất là một số vòng quay cho phép bạn tách không gian của bạn thành "kích thước nhiễu" và "kích thước thông tin", tôi nghĩ rằng hình học của không gian chiều cao sẽ cấm mọi nhận dạng dễ dàng - hoặc ít nhất là mạnh mẽ - của các ngoại lệ.


Quy trình tôi đã đưa ra có thể được áp dụng theo chiều rộng, như tôi đã nói, sử dụng giả định gaussian. Nếu kích thước thực sự lớn đối với kích thước mẫu (ví dụ p >> n) thì bạn có thể đưa ra một số giả định về sự cay cú (giả sử rằng các tham số phân phối gaussian của bạn nằm trong không gian chiều thấp) và sử dụng quy trình ước lượng ngưỡng để ước tính các tham số ...
robin girard

1
Rất sâu sắc rằng lời nguyền về chiều kích loại trừ một giải pháp mà không có giả định phân phối (trừ khi bạn chỉ đơn giản là có lượng dữ liệu điên rồ hoặc kích thước nhỏ)
John Robertson

6

Tôi không chắc ý của bạn là gì khi bạn nói rằng bạn không nghĩ đến vấn đề hồi quy mà là "dữ liệu đa biến thực sự". Phản ứng ban đầu của tôi sẽ là tính toán khoảng cách Mahalanobis vì nó không yêu cầu bạn chỉ định IV hoặc DV cụ thể, nhưng ở cốt lõi của nó (theo như tôi hiểu) thì nó có liên quan đến thống kê đòn bẩy.


Có, tôi có thể tính khoảng cách Mahalanobis của mỗi quan sát từ giá trị trung bình của dữ liệu. Nhưng các quan sát với khoảng cách lớn nhất từ ​​giá trị trung bình không nhất thiết là các ngoại lệ đa biến. Hãy nghĩ về một scatterplot bivariate có tương quan cao. Một ngoại lệ có thể nằm ngoài đám mây điểm chính nhưng không quá xa so với giá trị trung bình.
Rob Hyndman


4

Phản hồi đầu tiên của tôi là nếu bạn có thể thực hiện hồi quy đa biến trên dữ liệu, sau đó sử dụng phần dư từ hồi quy đó để phát hiện các ngoại lệ. (Tôi biết bạn nói đó không phải là vấn đề hồi quy, vì vậy điều này có thể không giúp bạn, xin lỗi!)

Tôi đang sao chép một số điều này từ câu hỏi Stackoverflow trước đây tôi đã trả lời có một số mã R ví dụ

Đầu tiên, chúng ta sẽ tạo một số dữ liệu và sau đó làm mờ nó bằng một ngoại lệ;

> testout<-data.frame(X1=rnorm(50,mean=50,sd=10),X2=rnorm(50,mean=5,sd=1.5),Y=rnorm(50,mean=200,sd=25)) 
> #Taint the Data 
> testout$X1[10]<-5 
> testout$X2[10]<-5 
> testout$Y[10]<-530 

> testout 
         X1         X2        Y 
1  44.20043  1.5259458 169.3296 
2  40.46721  5.8437076 200.9038 
3  48.20571  3.8243373 189.4652 
4  60.09808  4.6609190 177.5159 
5  50.23627  2.6193455 210.4360 
6  43.50972  5.8212863 203.8361 
7  44.95626  7.8368405 236.5821 
8  66.14391  3.6828843 171.9624 
9  45.53040  4.8311616 187.0553 
10  5.00000  5.0000000 530.0000 
11 64.71719  6.4007245 164.8052 
12 54.43665  7.8695891 192.8824 
13 45.78278  4.9921489 182.2957 
14 49.59998  4.7716099 146.3090 
<snip> 
48 26.55487  5.8082497 189.7901 
49 45.28317  5.0219647 208.1318 
50 44.84145  3.6252663 251.5620 

Việc kiểm tra dữ liệu bằng đồ họa thường rất hữu ích (bộ não của bạn giỏi phát hiện ra các ngoại lệ hơn toán học)

> #Use Boxplot to Review the Data 
> boxplot(testout$X1, ylab="X1") 
> boxplot(testout$X2, ylab="X2") 
> boxplot(testout$Y, ylab="Y") 

Sau đó, bạn có thể sử dụng số liệu thống kê để tính toán các giá trị cắt giới hạn, tại đây bằng cách sử dụng Thử nghiệm Lund (Xem Lund, RE 1975, "Các bảng kiểm tra gần đúng cho các ngoại lệ trong mô hình tuyến tính", Technometrics, tập 17, số 4, trang 473 -476. Và Prescott, P. 1975, "Một thử nghiệm gần đúng cho các ngoại lệ trong mô hình tuyến tính", Technometrics, tập 17, số 1, trang 129-132.)

> #Alternative approach using Lund Test 
> lundcrit<-function(a, n, q) { 
+ # Calculates a Critical value for Outlier Test according to Lund 
+ # See Lund, R. E. 1975, "Tables for An Approximate Test for Outliers in Linear Models", Technometrics, vol. 17, no. 4, pp. 473-476. 
+ # and Prescott, P. 1975, "An Approximate Test for Outliers in Linear Models", Technometrics, vol. 17, no. 1, pp. 129-132. 
+ # a = alpha 
+ # n = Number of data elements 
+ # q = Number of independent Variables (including intercept) 
+ F<-qf(c(1-(a/n)),df1=1,df2=n-q-1,lower.tail=TRUE) 
+ crit<-((n-q)*F/(n-q-1+F))^0.5 
+ crit 
+ } 

> testoutlm<-lm(Y~X1+X2,data=testout) 

> testout$fitted<-fitted(testoutlm) 

> testout$residual<-residuals(testoutlm) 

> testout$standardresid<-rstandard(testoutlm) 

> n<-nrow(testout) 

> q<-length(testoutlm$coefficients) 

> crit<-lundcrit(0.1,n,q) 

> testout$Ynew<-ifelse(testout$standardresid>crit,NA,testout$Y) 

> testout 
         X1         X2        Y    newX1   fitted    residual standardresid 
1  44.20043  1.5259458 169.3296 44.20043 209.8467 -40.5171222  -1.009507695 
2  40.46721  5.8437076 200.9038 40.46721 231.9221 -31.0183107  -0.747624895 
3  48.20571  3.8243373 189.4652 48.20571 203.4786 -14.0134646  -0.335955648 
4  60.09808  4.6609190 177.5159 60.09808 169.6108   7.9050960   0.190908291 
5  50.23627  2.6193455 210.4360 50.23627 194.3285  16.1075799   0.391537883 
6  43.50972  5.8212863 203.8361 43.50972 222.6667 -18.8306252  -0.452070155 
7  44.95626  7.8368405 236.5821 44.95626 223.3287  13.2534226   0.326339981 
8  66.14391  3.6828843 171.9624 66.14391 148.8870  23.0754677   0.568829360 
9  45.53040  4.8311616 187.0553 45.53040 214.0832 -27.0279262  -0.646090667 
10  5.00000  5.0000000 530.0000       NA 337.0535 192.9465135   5.714275585 
11 64.71719  6.4007245 164.8052 64.71719 159.9911   4.8141018   0.118618011 
12 54.43665  7.8695891 192.8824 54.43665 194.7454  -1.8630426  -0.046004311 
13 45.78278  4.9921489 182.2957 45.78278 213.7223 -31.4266180  -0.751115595 
14 49.59998  4.7716099 146.3090 49.59998 201.6296 -55.3205552  -1.321042392 
15 45.07720  4.2355525 192.9041 45.07720 213.9655 -21.0613819  -0.504406009 
16 62.27717  7.1518606 186.6482 62.27717 169.2455  17.4027250   0.430262983 
17 48.50446  3.0712422 228.3253 48.50446 200.6938  27.6314695   0.667366651 
18 65.49983  5.4609713 184.8983 65.49983 155.2768  29.6214506   0.726319931 
19 44.38387  4.9305222 213.9378 44.38387 217.7981  -3.8603382  -0.092354925 
20 43.52883  8.3777627 203.5657 43.52883 228.9961 -25.4303732  -0.634725264 
<snip> 
49 45.28317  5.0219647 208.1318 45.28317 215.3075  -7.1756966  -0.171560291 
50 44.84145  3.6252663 251.5620 44.84145 213.1535  38.4084869   0.923804784 
       Ynew 
1  169.3296 
2  200.9038 
3  189.4652 
4  177.5159 
5  210.4360 
6  203.8361 
7  236.5821 
8  171.9624 
9  187.0553 
10       NA 
11 164.8052 
12 192.8824 
13 182.2957 
14 146.3090 
15 192.9041 
16 186.6482 
17 228.3253 
18 184.8983 
19 213.9378 
20 203.5657 
<snip> 
49 208.1318 
50 251.5620 

Thực sự có những thử nghiệm ngoại lệ khác ngoài thử nghiệm Lund (Grubbs nảy ra trong đầu), nhưng tôi không chắc cái nào phù hợp hơn với dữ liệu đa biến.


1
Boxplots univariate là hữu ích để phát hiện các ngoại lệ univariate. Nhưng họ hoàn toàn có thể bỏ lỡ các ngoại lệ đa biến. Ý tưởng hồi quy là ổn nếu tôi có Y và một loạt các biến X. Nhưng như tôi đã nói trong câu hỏi, không có Y nên hồi quy là không phù hợp.
Rob Hyndman

@RobHyndman - người ta có thể sửa Y (biến nó thành hằng số) và cố gắng mô hình hóa một hồi quy đa mà không bị chặn . Nó hoạt động đẹp trong thực tế. Về bản chất, điều này biến đổi một vấn đề cơ bản không được giám sát, mà một phát hiện bất thường điển hình là, thành một vấn đề được giám sát.
thân

@arielf Thú vị. Bạn có một tài liệu tham khảo cho điều đó?
Rob Hyndman

@RobHyndman không phải là một bài báo học thuật, nhưng có lẽ tốt hơn, bạn có thể tự mình thử nó. Xem trang github của tôi trên vw-top-errors@ goo.gl/l7SLlB (lưu ý rằng các ví dụ xảy ra có Y, nhưng tôi đã sử dụng kỹ thuật tương tự, rất thành công đối với các sự cố không được giám sát bằng cách sửa Y.)
khắc

1

Một trong những câu trả lời ở trên chạm vào khoảng cách mahalanobis .... có lẽ bước tiến xa hơn và tính toán khoảng tin cậy đồng thời sẽ giúp phát hiện các ngoại lệ!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.