Định nghĩa khắt khe của một ngoại lệ?


44

Mọi người thường nói về việc đối phó với các ngoại lệ trong thống kê. Điều làm phiền tôi về điều này là, theo như tôi có thể nói, định nghĩa về một ngoại lệ là hoàn toàn chủ quan. Ví dụ: nếu phân phối thực sự của một số biến ngẫu nhiên rất nặng nề hoặc lưỡng kim, thì bất kỳ thống kê trực quan hoặc tóm tắt tiêu chuẩn nào để phát hiện các ngoại lệ sẽ loại bỏ không chính xác các phần của phân phối mà bạn muốn lấy mẫu. Một định nghĩa nghiêm ngặt về một ngoại lệ, nếu một người tồn tại, và làm thế nào các ngoại lệ có thể được xử lý mà không đưa ra lượng chủ quan vô lý vào một phân tích?


Nếu bạn muốn biết phân phối cụ thể thì hãy hỏi về ví dụ của bạn. Nó sẽ khác nhau cho các tình huống khác nhau.
Giăng

8
Chà, tôi hy vọng rằng bạn sẽ có một rigorous definition of an outlierthời điểm bạn sẽ có thể xác định unreasonable amounts of subjectivitycách thức khách quan ;-), Cảm ơn
ăn

1
Nhưng định nghĩa có thể thay đổi bởi phân phối cơ bản và tình hình. Tôi có thể nói ± 1,5 IQR, hoặc 3 SD, hoặc một số như vậy. Nhưng tôi có thể thực hiện một cách tiếp cận hoàn toàn khác nếu tôi có hai loại biện pháp, nói thời gian phản ứng và độ chính xác. Tôi có thể nói RT dựa trên mức độ chính xác. Chúng đều có thể tốt và nghiêm ngặt về mặt toán học và có các ứng dụng và ý nghĩa khác nhau.
John

2
Có NHIỀU định nghĩa khắt khe về ngoại lệ. Nhưng sự lựa chọn trong số đó có thể tùy ý. Nhưng tôi nghĩ đây là một phần của quan niệm sai lầm rằng thống kê là một chủ đề trong đó mỗi vấn đề có một câu trả lời đúng.
Peter Flom - Tái lập Monica

Câu trả lời:


23

Miễn là dữ liệu của bạn đến từ một phân phối đã biết với các thuộc tính đã biết, bạn có thể định nghĩa chặt chẽ một ngoại lệ là một sự kiện không thể được tạo ra bởi quá trình quan sát (nếu bạn cho rằng "quá khó" là không nghiêm ngặt, thì tất cả các thử nghiệm giả thuyết là).

Tuy nhiên, cách tiếp cận này có vấn đề ở hai cấp độ: Nó giả định rằng dữ liệu đến từ một phân phối đã biết với các thuộc tính đã biết và nó có nguy cơ các ngoại lệ được xem là các điểm dữ liệu được nhập lậu vào dữ liệu của bạn do một số ma thuật đặt.

Trong trường hợp không có các dữ liệu ma thuật, tất cả dữ liệu đến từ thử nghiệm của bạn, và do đó thực sự không thể có ngoại lệ, chỉ là kết quả kỳ lạ. Những lỗi này có thể xuất phát từ lỗi ghi âm (ví dụ: căn nhà 400000 phòng ngủ với giá 4 đô la), các vấn đề đo lường có hệ thống (thuật toán phân tích hình ảnh báo cáo các khu vực lớn nếu đối tượng quá gần biên giới) (đôi khi, các tinh thể kết tủa ra khỏi giải pháp, cho tín hiệu rất cao) hoặc các tính năng của hệ thống của bạn (một tế bào đôi khi có thể chia thành ba thay vì hai), nhưng chúng cũng có thể là kết quả của một cơ chế mà không ai từng xem xét vì nó hiếm và bạn đang nghiên cứu, điều đó có nghĩa là một số thứ bạn làm đơn giản là chưa biết.

Lý tưởng nhất là bạn dành thời gian để điều tra mọi ngoại lệ và chỉ xóa nó khỏi bộ dữ liệu của bạn một khi bạn hiểu tại sao nó không phù hợp với mô hình của bạn. Điều này tốn nhiều thời gian và chủ quan ở chỗ các lý do phụ thuộc rất nhiều vào thí nghiệm, nhưng phương án còn tệ hơn: Nếu bạn không hiểu các ngoại lệ đến từ đâu, bạn có thể lựa chọn giữa việc để các ngoại lệ "làm rối tung" kết quả của bạn, hoặc xác định một số cách tiếp cận "nghiêm ngặt về mặt toán học" để che giấu sự thiếu hiểu biết của bạn. Nói cách khác, bằng cách theo đuổi "sự nghiêm ngặt toán học", bạn chọn giữa việc không đạt được hiệu quả đáng kể và không được lên thiên đàng.

BIÊN TẬP

Nếu tất cả những gì bạn có là một danh sách các số mà không biết chúng đến từ đâu, bạn không có cách nào để biết liệu một số điểm dữ liệu có phải là ngoại lệ hay không, bởi vì bạn luôn có thể giả sử một phân phối trong đó tất cả dữ liệu là các giá trị.


3
Tuy nhiên, không phải tất cả các ngoại lệ được tạo ra từ một thử nghiệm. Tôi đã làm việc với một bộ dữ liệu lớn liên quan đến việc thu thập thông tin bất động sản trong một khu vực (giá bán, số phòng ngủ, diện tích vuông, v.v.) và cứ sau đó, sẽ có những lỗi nhập dữ liệu và tôi có một lỗi Ngôi nhà 400.000 phòng ngủ đi với giá 4 đô la, hoặc một cái gì đó vô nghĩa như thế. Tôi sẽ nghĩ rằng một phần của mục tiêu xác định ngoại lệ là để xem liệu nó có thể được tạo ra từ dữ liệu hay không, nếu đó chỉ là một lỗi nhập cảnh.
Christopher Aden

2
@Christopher Aden: Tôi coi đó là một phần của quá trình thử nghiệm. Về cơ bản, để có thể loại bỏ các ngoại lệ, bạn phải hiểu làm thế nào dữ liệu được tạo ra, tức là không loại bỏ các ngoại lệ mà không có lý do chính đáng. Nếu không, bạn chỉ đang cách điệu dữ liệu của bạn. Tôi đã chỉnh sửa câu trả lời của mình để phản ánh điều này tốt hơn một chút.
Jonas

Điều này là hoàn toàn hợp lý, nhưng giả sử bạn đã có một lượng kiến ​​thức đáng kể về phân phối thực sự là gì. Tôi đã suy nghĩ nhiều hơn về các tình huống mà bạn không làm và nó có thể rất nặng đuôi hoặc lưỡng kim.
dsimcha

@dsimcha: Tôi không nghĩ bạn có thể xác định các ngoại lệ trong trường hợp đó (xem thêm phần chỉnh sửa của tôi).
Jonas

2
@dsimcha - bạn luôn có kiến ​​thức trước! dữ liệu được cung cấp cho bạn như thế nào? bạn luôn luôn biết rằng nhiều. dữ liệu không kỳ diệu chỉ hiển thị. và bạn luôn có thể đưa ra các giả định dự kiến. "Các ngoại lệ" dựa trên các giả định này về cơ bản cung cấp cho bạn một manh mối rằng có gì đó trong các giả định của bạn là sai. bằng cách nghiên cứu "ngoại lệ" (luôn luôn tương đối), bạn có thể cải thiện mô hình của mình.
xác suất

13

Bạn đúng rằng việc loại bỏ các ngoại lệ có thể trông giống như một bài tập chủ quan nhưng điều đó không có nghĩa là nó sai. Nhu cầu bắt buộc phải luôn luôn có một lý do toán học nghiêm ngặt cho mọi quyết định liên quan đến phân tích dữ liệu của bạn thường chỉ là một bức màn mỏng của sự nghiêm ngặt nhân tạo đối với những gì hóa ra là một bài tập chủ quan. Điều này đặc biệt đúng nếu bạn muốn áp dụng cùng một biện minh toán học cho mọi tình huống bạn gặp phải. (Nếu có các quy tắc toán học rõ ràng chống đạn cho mọi thứ thì bạn sẽ không cần một nhà thống kê.)

Ví dụ: trong tình huống phân phối đuôi dài của bạn, không có phương pháp nào được đảm bảo để chỉ quyết định từ các con số cho dù bạn có một phân phối quan tâm cơ bản với các ngoại lệ hay hai phân phối quan tâm cơ bản với các ngoại lệ chỉ là một trong số chúng. Hoặc, trời cấm, chỉ là phân phối dữ liệu thực tế.

Bạn càng thu thập nhiều dữ liệu, bạn càng nhận được nhiều vào các vùng xác suất thấp của phân phối. Nếu bạn thu thập 20 mẫu, rất có thể bạn sẽ không nhận được giá trị với điểm z là 3,5. Nếu bạn thu thập 10.000 mẫu, rất có thể bạn sẽ nhận được một mẫu và đó là một phần tự nhiên của phân phối. Với những điều trên, làm thế nào để bạn quyết định chỉ vì một cái gì đó cực đoan để loại trừ nó?

Chọn các phương pháp tốt nhất nói chung để phân tích thường chủ quan. Việc nó có chủ quan một cách vô lý hay không phụ thuộc vào lời giải thích cho quyết định và ngoại lệ.


+1 Barnett và Lewis, người đã viết cuốn sách về các ngoại lệ , nói rằng "một ngoại lệ trong một tập hợp dữ liệu [là] một quan sát (hoặc tập hợp các quan sát) dường như không phù hợp với phần còn lại của tập dữ liệu đó " [tại p . 7]. Họ tiếp tục, "Đó là vấn đề đánh giá chủ quan từ phía người quan sát cho dù có quan sát hay không ... được chọn để xem xét. ... Điều đặc trưng của 'ngoại lệ' là tác động của nó đối với người quan sát .... "
whuber

"Cuốn sách" hơi mơ hồ ở đây. Tôi sẽ coi Barnett và Lewis là chuyên khảo hàng đầu, nhưng nó không phải là cuốn sách duy nhất về ngoại lệ. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 là gần đây. Ngoài ra còn có một cuốn sách cũ của DM Hawkins.
Nick Cox

9

Tôi không nghĩ có thể định nghĩa một ngoại lệ mà không giả sử mô hình của quá trình cơ bản làm phát sinh dữ liệu. Không có mô hình như vậy, chúng tôi không có khung tham chiếu để quyết định liệu dữ liệu là bất thường hay "sai". Định nghĩa về một ngoại lệ mà tôi thấy hữu ích là một ngoại lệ là một quan sát (hoặc các quan sát) không thể đối chiếu với một mô hình hoạt động tốt.


2
Hmm ... Trong văn bản EDA của mình, John Tukey đã xác định cụ thể các ngoại lệ mà không sử dụng bất kỳ mô hình nào cả.
whuber

7
Bạn có thể định nghĩa các ngoại lệ mà không có mô hình, nhưng tôi đã thấy các định nghĩa như vậy là không có ích. BTW, theo mô hình, tôi không nhất thiết có nghĩa là một mô hình thống kê phù hợp rõ ràng với dữ liệu. Bất kỳ định nghĩa nào về một ngoại lệ đều yêu cầu bạn đưa ra một số giả định về loại giá trị nào bạn muốn thấy và loại giá trị nào bạn không mong đợi nhìn thấy. Tôi nghĩ sẽ tốt hơn nếu những giả định này (tức là mô hình) được đưa ra rõ ràng. Cũng có một điểm là trong EDA, bạn đang khám phá dữ liệu, định nghĩa của bạn về một ngoại lệ có thể rất khác đối với EDA so với việc lắp một mô hình cuối cùng.
Dikran Marsupial

6

Có rất nhiều câu trả lời tuyệt vời ở đây. Tuy nhiên, tôi muốn chỉ ra rằng hai câu hỏi đang bị nhầm lẫn. Đầu tiên là, "một ngoại lệ là gì?", Và cụ thể hơn là đưa ra một "định nghĩa nghiêm ngặt" như vậy. Cái này đơn giản:

Một ngoại lệ là một điểm dữ liệu xuất phát từ một quy trình tạo dân số / phân phối / dữ liệu khác với điểm bạn dự định nghiên cứu / phần còn lại của dữ liệu.

Câu hỏi thứ hai là 'làm thế nào để tôi biết / phát hiện ra rằng một điểm dữ liệu là một ngoại lệ?' Thật không may, điều này là rất khó khăn. Tuy nhiên, câu trả lời được đưa ra ở đây (thực sự rất tốt và tôi không thể cải thiện) sẽ khá hữu ích với nhiệm vụ đó.


1
Đây là một câu trả lời kích thích tư duy. Vì vậy, giả sử tôi tạo giá trị iid từ phân phối Bình thường - chúng có thể trải rộng trong phạm vi từ khoảng đến - và tạo thêm một giá trị từ phân phối Bình thường và nó xảy ra bằng (trong đó có khoảng trong cơ hội). Rất khó có khả năng thêm sẽ được xác định là ngoại lệ. Bạn có cho rằng nó thực sự là? Báo giá của bạn làm cho tôi nghĩ như vậy, nhưng tôi không thấy làm thế nào điều này có thể được thực hiện hoạt động thực tế. ( 0 , 1 ) - 2,5 2,5 ( 4 , 1 ) 2 1 40 299(0,1)2.52.5(4,1)21402
whuber

1
@whuber, vâng. Tôi nói rằng đó một ngoại lệ, mặc dù bạn sẽ không bao giờ nhận thấy nó (mà, tôi nghi ngờ, đó là những gì bạn có nghĩa là thực tế hoạt động).
gung - Phục hồi Monica

1
Tôi đánh giá cao sự khác biệt bạn đang làm. Tôi chỉ muốn chỉ ra sự tương phản rõ nét giữa định nghĩa của bạn và hầu hết các định nghĩa hoặc mô tả khác về các ngoại lệ trong chuỗi này. Bạn dường như không thể dẫn đến các quy trình thực tế thỏa đáng: bạn sẽ luôn phải chấp nhận rằng một phần lớn trong bộ dữ liệu của bạn có thể là "ngoại lệ" nhưng không có cách nào để phát hiện hoặc giải quyết điều đó.
whuber

@whuber, tôi hết lòng đồng ý. Tôi thấy điều này tương tự như thử nghiệm giả thuyết, trong đó (ví dụ) 2 nhóm có thể khác nhau bởi một lượng rất nhỏ, không thể phát hiện được, hoặc có thể khác nhau bởi một lượng vừa phải, nhưng các mẫu mà bạn kết thúc rất giống nhau chỉ có cơ hội; Tuy nhiên, từ góc độ lý thuyết, nó đáng để hiểu và duy trì sự khác biệt.
gung - Phục hồi Monica

1
@whuber, bạn nói đúng. Một số người đưa ra sự khác biệt này, nhưng nhiều người không rõ ràng về những ý tưởng này. Quan điểm của tôi là không có thực tế có ý nghĩa về "ngoại lệ" ngoài chất gây ô nhiễm . Tuy nhiên, mọi người cũng nên / thay vào đó nghĩ về vấn đề như lo ngại về điểm nếu kết quả của bạn được điều khiển bởi một mình (cho dù chúng là 'thực tế' hay không), và do đó kết quả của bạn rất mong manh. Nói tóm lại, không có lý do gì để lo lắng về (các) điểm xuất phát từ dân số của bạn & không duy nhất thúc đẩy kết quả của bạn; một khi bạn đã giải quyết được 2 vấn đề đó, sẽ không còn gì để "ngoại lệ".
gung - Phục hồi Monica

6

Định nghĩa 1: Như đã đề cập, một ngoại lệ trong một nhóm dữ liệu phản ánh cùng một quá trình (giả sử quy trình A) là một quan sát (hoặc một tập hợp các quan sát) không có khả năng là kết quả của quá trình A.

Định nghĩa này chắc chắn liên quan đến việc ước tính hàm khả năng của quá trình A (do đó là một mô hình) và đặt ra ý nghĩa không thể xảy ra (nghĩa là quyết định nơi dừng lại ...). Định nghĩa này là gốc rễ của câu trả lời tôi đã đưa ra ở đây . Nó liên quan nhiều hơn đến các ý tưởng kiểm tra giả thuyết về tầm quan trọng hoặc mức độ phù hợp .

Định nghĩa 2 Ngoại lệ là một quan sát trong một nhóm các quan sát sao cho khi mô hình hóa nhóm quan sát với một mô hình nhất định, độ chính xác sẽ cao hơn nếu được loại bỏ và xử lý riêng (với một hỗn hợp, theo tinh thần của những gì tôi đề cập ở đây ).G xxGx

Định nghĩa này liên quan đến một "mô hình nhất định" và thước đo độ chính xác. Tôi nghĩ định nghĩa này là nhiều hơn từ phía thực tế và nhiều hơn ở nguồn gốc của các ngoại lệ. Tại Origin, phát hiện ngoại lệ là một công cụ để thống kê mạnh mẽ .

Rõ ràng những định nghĩa này có thể được thực hiện rất giống nhau nếu bạn hiểu rằng việc tính toán khả năng trong định nghĩa đầu tiên liên quan đến việc mô hình hóa và tính toán điểm số :)


2

Một ngoại lệ là một điểm dữ liệu bất tiện cho tôi, theo hiểu biết hiện tại của tôi về quá trình tạo ra dữ liệu này.

Tôi tin rằng định nghĩa này là nghiêm ngặt như có thể được thực hiện.


Trái ngược với định nghĩa của John Tukey (ông đã sử dụng thuật ngữ "bên ngoài"): "Khi chúng tôi xem xét một số lô giá trị, chúng tôi thấy các giá trị nhất định dường như đi lạc xa hơn các giá trị khác. ... Thật thuận tiện khi có quy tắc ngón tay cái chọn ra một số giá trị nhất định là "bên ngoài" ... "Sau đó, ông tóm tắt đây là" ... nhận dạng các giá trị riêng lẻ có thể bất thường. " [EDA, chương 2]. Ông nhấn mạnh trong suốt cuốn sách rằng chúng tôi đang mô tả dữ liệu thay vì giả vờ "hiểu một quy trình" và luôn luôn có thể mô tả hợp lệ.
whuber

Tương tự, "Outliers là các giá trị mẫu gây bất ngờ liên quan đến phần lớn mẫu" (WN Venables và BD Ripley. 2002. Thống kê áp dụng hiện đại với S. New York: Springer, tr.119). Tuy nhiên, bất ngờ là trong suy nghĩ của người theo dõi và phụ thuộc vào một số mô hình ngầm hoặc rõ ràng của dữ liệu. Có thể có một mô hình khác theo đó ngoại lệ không đáng ngạc nhiên chút nào, giả sử, dữ liệu thực sự là logic hoặc gamma hơn là bình thường.
Nick Cox

@Nick Điều đó phù hợp với Barnett và Lewis, người mà tôi trích dẫn trong một bình luận cho câu trả lời của John .
whuber

@whuber: Bạn nói "Tương phản điều này", mà tôi nghĩ có nghĩa là bạn không đồng ý, nhưng tôi không chắc chắn. Tôi cho rằng sự hình thành mô hình - có lẽ là ngây thơ và ngây thơ - là lý do tại sao chúng ta thấy các mẫu trong dữ liệu, hoặc người đàn ông trên mặt trăng hoặc ngoại lệ. Mô hình có thể không có cơ sở vật lý / hóa học / kinh tế, nhưng chúng tôi đã đưa ra giả thuyết về một mô hình. Nếu không, không có gì bất ngờ, không có "bên ngoài".
Wayne

Tukey nhấn mạnh rằng trong việc mô tả dữ liệu, chúng tôi không nhất thiết phải mô hình hóa chúng. Thật công bằng khi mở rộng định nghĩa về "mô hình" của bạn để bao gồm mô tả dữ liệu, nhưng sau đó thuật ngữ này trở nên quá chung chung để trở nên hữu ích. Theo quan điểm của Tukey (như tôi giải thích, tất nhiên), không có lo ngại về việc mất mặt cũng như không có câu hỏi nào về sự thuận tiện hay không. Do đó, mặc dù tôi tôn trọng động lực của bạn, tôi nghĩ thái độ của bạn (như được phản ánh trong "tiết kiệm mặt" và "bất tiện") ít mang tính xây dựng hơn các cách tiếp cận khác cho câu hỏi này.
whuber

0

định nghĩa một ngoại lệ là thành viên của tập hợp các phần tử tối thiểu phải được loại bỏ khỏi bộ dữ liệu có kích thước n để đảm bảo tuân thủ 100% với các thử nghiệm RUM được thực hiện ở mức độ tin cậy 95% trên tất cả (2 ^ n -1) tập con duy nhất của dữ liệu. Xem văn bản Karian và Dudewicz về việc khớp dữ liệu với pdf bằng R (tháng 9 năm 2010) để biết định nghĩa của thử nghiệm RUM.


-2

Outliers chỉ quan trọng trong lĩnh vực thường xuyên. Nếu một biểu dữ liệu duy nhất thêm thiên vị cho mô hình của bạn, được xác định bởi phân phối cơ bản được xác định trước bởi lý thuyết của bạn, thì đó là một ngoại lệ cho mô hình đó. Sự chủ quan nằm ở chỗ nếu lý thuyết của bạn đưa ra một mô hình khác, thì bạn có thể có một tập hợp các điểm khác nhau như các ngoại lệ.


1
Bạn có cho rằng các ngoại lệ là không quan trọng trong phân tích dữ liệu Bayes?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.