Có một cách đơn giản để phát hiện các ngoại lệ?


14

Tôi tự hỏi nếu có một cách đơn giản để phát hiện các ngoại lệ.

Đối với một trong những dự án của tôi, về cơ bản là mối tương quan giữa số lần người được hỏi tham gia hoạt động thể chất trong một tuần và số lần họ ăn bên ngoài nhà (thức ăn nhanh) trong một tuần, tôi đã rút ra một sự phân tán và loại bỏ theo nghĩa đen điểm dữ liệu là cực đoan. (Scatterplot cho thấy một mối tương quan tiêu cực.)

Điều này dựa trên đánh giá giá trị (dựa trên biểu đồ phân tán trong đó các điểm dữ liệu này cực kỳ rõ ràng). Tôi đã không làm bất kỳ bài kiểm tra thống kê.

Tôi chỉ tự hỏi nếu đây là một cách tốt để đối phó với các ngoại lệ.

Tôi có dữ liệu từ 350 người nên việc mất 20 điểm dữ liệu không phải là vấn đề đáng lo ngại đối với tôi.


Xem thêm câu trả lời cho những câu hỏi tương tự định nghĩa nghiêm ngặt của một outlier
Jonas

3
Cũng liên quan rất chặt chẽ là stats.stackexchange.com/questions/175 . Nhiều phương pháp phát hiện ngoại lệ tiềm năng được mô tả trong các câu trả lời tại stats.stackexchange.com/questions/213 . Nhưng quan trọng hơn sẽ là một số bối cảnh : bạn đang làm gì với biểu đồ phân tán này? Những kết luận nào bạn đang cố gắng rút ra từ nó? Một số kết luận sẽ phụ thuộc rất ít vào những gì bạn làm với các ngoại lệ, trong khi những kết luận khác có thể phụ thuộc vào chúng một cách nghiêm túc. Điều này chỉ ra rằng các phương pháp bạn sử dụng để xác định và xử lý các ngoại lệ phải phụ thuộc vào phân tích dự định.
whuber

Trong các bộ dữ liệu kinh tế, thông lệ tiêu chuẩn chỉ là nói "Chúng tôi thu nhỏ dữ liệu ở mức 2,5% và 97,5%", hoặc thay vào đó là 1% và 99%. Sau đó, họ chỉ cần xóa các quan sát nằm ngoài phạm vi lượng tử đó.

@Harokitty Winsorising dường như có nghĩa là cắt các giá trị hơn là loại bỏ chúng.
Peter Wood

Tôi khuyên bạn cũng nên báo cáo sơ đồ phân tán chưa được chỉnh sửa ngoài bất kỳ lỗi nào trong ghi dữ liệu. Có thể có một hoặc nhiều quần thể khác biệt. Đối với một exampe, hãy xem mục Wikipedia cho sơ đồ Hertzsprung mưu Russell tại en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Câu trả lời:


21

Không có cách âm thanh đơn giản để loại bỏ các ngoại lệ. Outliers có thể có hai loại:

1) Lỗi nhập dữ liệu. Đây thường là dễ dàng nhất để phát hiện và luôn luôn dễ dàng nhất để đối phó. Nếu bạn có thể tìm đúng dữ liệu, hãy sửa nó; nếu không, xóa nó đi

2) Dữ liệu hợp pháp là bất thường. Điều này là khó khăn hơn nhiều. Đối với dữ liệu bivariate như của bạn, ngoại lệ có thể là univariate hoặc bivariate.

a) Đơn phương. Đầu tiên, "bất thường" phụ thuộc vào phân phối và cỡ mẫu. Bạn cho chúng tôi cỡ mẫu 350, nhưng phân phối là gì? Nó rõ ràng là không bình thường, vì nó là một số nguyên tương đối nhỏ. Điều bất thường dưới Poisson sẽ không nằm dưới nhị thức âm. Tôi nghi ngờ có mối quan hệ nhị thức âm không thổi phồng.

Nhưng ngay cả khi bạn có phân phối, các ngoại lệ (có thể) sẽ ảnh hưởng đến các tham số. Bạn có thể xem các bản phân phối "loại bỏ một", trong đó bạn kiểm tra xem điểm dữ liệu q có phải là ngoại lệ hay không nếu dữ liệu có tất cả các điểm trừ q. Mặc dù vậy, mặc dù, nếu có nhiều ngoại lệ thì sao?

b) Bivariate. Đây là nơi không có giá trị của biến là bất thường trong chính nó, nhưng cùng nhau chúng là số lẻ. Có một báo cáo về ngày tận thế có thể là điều tra dân số từng nói rằng có 20.000 góa phụ 12 tuổi ở Hoa Kỳ. 12 tuổi không phải là bất thường, góa phụ cũng không, nhưng góa phụ 12 tuổi thì không.

Với tất cả điều này, có thể đơn giản hơn để báo cáo một thước đo mạnh mẽ về mối quan hệ.


Cảm ơn. Tôi nghĩ có lẽ hình elip có độ tin cậy sẽ là một chỉ báo tốt về các ngoại lệ vì nó sẽ hiển thị phần trăm dữ liệu sẽ nằm trong một mức độ tin cậy nhất định (được phân phối chuẩn bivariate).
Amarald

Dữ liệu của bạn không thể được chia thành bình thường, vì nó bao gồm các số nguyên không âm
Peter Flom - Rebstate Monica

18

Tôi đã thực hiện rất nhiều nghiên cứu về các ngoại lệ, đặc biệt là khi tôi làm việc xác thực dữ liệu năng lượng tại Oak Ridge từ 1978 đến 1980. Có các thử nghiệm chính thức cho các ngoại lệ đơn biến cho dữ liệu thông thường (ví dụ: thử nghiệm tỷ lệ của Grubbs và thử nghiệm tỷ lệ của Dixon). Có các bài kiểm tra cho các ngoại lệ đa biến và chuỗi thời gian. Cuốn sách của Barnett và Lewis về "Những người ngoại lệ trong dữ liệu thống kê" là cuốn kinh thánh về những người ngoài cuộc và chỉ nói về mọi thứ.

Khi tôi ở Oak Ridge làm việc về xác thực dữ liệu, chúng tôi có các bộ dữ liệu đa biến lớn. Đối với các ngoại lệ đơn biến, có một hướng cho các cực trị (rất cao trên trung bình và cao dưới trung bình). Nhưng đối với các ngoại lệ đa biến, có nhiều hướng để tìm kiếm các ngoại lệ. Triết lý của chúng tôi là xem xét mục đích sử dụng của dữ liệu là gì. Nếu bạn đang cố gắng ước tính các tham số nhất định như tương quan bivariate hoặc hệ số hồi quy thì bạn muốn xem xét theo hướng cung cấp hiệu quả lớn nhất cho tham số quan tâm. Lúc đó tôi đã đọc bài báo chưa xuất bản của Mallows về các chức năng ảnh hưởng. Việc sử dụng các chức năng ảnh hưởng để phát hiện các ngoại lệ được đề cập trong cuốn sách phân tích đa biến của Gnanadesikan. Tất nhiên bạn cũng có thể tìm thấy nó ở Barnett và Lewis.

Hàm ảnh hưởng cho một tham số được xác định tại các điểm trong không gian đa biến của các quan sát và về cơ bản đo lường sự khác biệt giữa ước tính tham số khi điểm dữ liệu được đưa vào so với khi nó bị bỏ đi. Bạn có thể thực hiện các ước tính như vậy với từng điểm mẫu nhưng thông thường bạn có thể lấy được một dạng hàm đẹp cho hàm ảnh hưởng mang lại cái nhìn sâu sắc và tính toán nhanh hơn.

Ví dụ trong bài báo của tôi trên Tạp chí Khoa học Quản lý và Toán học Hoa Kỳ năm 1982 "Hàm ảnh hưởng và ứng dụng của nó để xác nhận dữ liệu" Tôi chỉ ra công thức phân tích cho hàm ảnh hưởng cho tương quan bivariate và các đường viền của ảnh hưởng không đổi là hyperbolae. Vì vậy, các đường viền hiển thị hướng trong mặt phẳng nơi chức năng ảnh hưởng tăng nhanh nhất.

Trong bài báo của mình, tôi chỉ ra cách chúng ta áp dụng hàm ảnh hưởng cho tương quan bivariate với dữ liệu FPC Form 4 về việc tạo và tiêu thụ năng lượng. Có một mối tương quan tích cực cao rõ ràng giữa hai và chúng tôi đã tìm thấy một vài ngoại lệ có ảnh hưởng lớn đến ước tính tương quan. Điều tra sâu hơn cho thấy rằng ít nhất một trong những điểm đã bị lỗi và chúng tôi đã có thể sửa nó.

Nhưng một điểm quan trọng mà tôi luôn đề cập khi thảo luận về các ngoại lệ là từ chối tự động là sai. Ngoại lệ không phải lúc nào cũng là một lỗi và đôi khi nó cung cấp thông tin quan trọng về dữ liệu. Dữ liệu hợp lệ không nên bị xóa chỉ vì nó không phù hợp với lý thuyết thực tế của chúng tôi. Có hay không khó thực hiện, lý do tại sao ngoại lệ xảy ra phải luôn luôn được điều tra.

Tôi nên đề cập rằng đây không phải là lần đầu tiên các ngoại lệ đa biến được thảo luận trong trang web này. Một cuộc tìm kiếm các ngoại lệ có thể sẽ dẫn đến một số câu hỏi trong đó các ngoại lệ đa biến đã được thảo luận. Tôi biết rằng tôi đã tham khảo bài viết của mình và những cuốn sách này trước đây và đưa ra các liên kết đến chúng.

Ngoài ra, khi từ chối ngoại lệ được thảo luận, nhiều người trong chúng tôi trên trang web này đã khuyến nghị chống lại nó đặc biệt là nếu nó được thực hiện chỉ dựa trên một bài kiểm tra thống kê. Peter Huber thường đề cập đến ước tính mạnh mẽ như là một thay thế cho từ chối ngoại lệ. Ý tưởng là các quy trình mạnh mẽ sẽ làm giảm sức mạnh của các ngoại lệ làm giảm tác dụng của chúng đối với việc ước tính mà không cần bước từ chối nặng nề và sử dụng công cụ ước tính không mạnh mẽ.

Chức năng ảnh hưởng thực sự ban đầu được phát triển bởi Frank Hampel trong luận án tiến sĩ vào đầu những năm 1970 (1974 tôi nghĩ). Ý tưởng của ông thực sự là sử dụng các hàm ảnh hưởng để xác định các công cụ ước tính không mạnh mẽ chống lại các ngoại lệ và để giúp phát triển các công cụ ước tính mạnh mẽ.

Đây là một liên kết đến một cuộc thảo luận trước đây về chủ đề này, nơi tôi đã đề cập đến một số công việc của tôi về việc phát hiện các ngoại lệ trong chuỗi thời gian bằng cách sử dụng các hàm ảnh hưởng.


2

Một cách tiếp cận đơn giản khác để đối phó với các ngoại lệ là sử dụng số liệu thống kê không tham số. Có lẽ với kích thước mẫu của bạn, rho của Spearman sẽ hoạt động tốt như một chỉ số tương quan. (Tuy nhiên, lưu ý rằng số liệu thống kê thứ tự không tham số, thứ tự không giúp bạn nhiều với các mối quan hệ phi tuyến tính.)

Nếu bạn muốn sử dụng Pearson's r (một thống kê tham số) và nếu bạn không thể tính khoảng cách của Cook, bạn có thể sử dụng quy tắc chuẩn cho bất kỳ điểm dữ liệu nào có độ lệch chuẩn hơn 2,67 so với trung bình hoặc 4,67 sd từ giá trị trung bình tương ứng là ngoại lệ hoặc cực trị. Đây là các giá trị ngưỡng điển hình cho các ngoại lệ và các điểm dữ liệu cực đoan được sử dụng trong một chương trình phân tích thống kê tiêu chuẩn (SPSS).

Chỉ vì một điểm dữ liệu là một ngoại lệ không có nghĩa là dữ liệu xấu bị loại bỏ. Bạn có thể tính toán mối tương quan của bạn với và không có điểm cực đoan và đi từ đó.


1

Bạn có thể muốn thử Khoảng cách của Cook. Xem bài viết trên wikipedia để biết các đề xuất cắt giảm. Ngoài ra, nếu bạn đang hướng tới một mô hình hồi quy nào đó, thì bạn có thể muốn thử hồi quy mạnh mẽ.


1
Điều này có vẻ giống như một bình luận hơn là một câu trả lời; câu trả lời thường dài hơn và chi tiết hơn. Ví dụ: nếu bạn bao gồm lý do tại sao khoảng cách của Cook là một bài kiểm tra tốt cho các ngoại lệ và vì vậy, đây sẽ là một câu trả lời.
Peter Flom - Tái lập Monica

1

Thứ nhất, không loại bỏ các giá trị không điển hình trừ khi bạn chắc chắn rằng đó là nghiên cứu! Chúng có thể chứa một số thông tin quan trọng (tính biến đổi). Bạn nên bỏ chúng nếu rõ ràng là ngoại lệ là do dữ liệu được nhập hoặc đo không chính xác. Nếu bạn không biết phương pháp lấy mẫu được sử dụng để lấy dữ liệu của mình, thì bạn nên xác định các giá trị không điển hình và tác dụng của chúng như sau:

  1. ei

  2. hiihii

  3. i
    DCi=ei2·hii/[(1hii)·p]

Phương pháp khả thi:

  • Chuyển đổi các biến và / hoặc thêm các biến mới vào mô hình.
  • Đối với các quan sát có ảnh hưởng không có gì ngoài các ngoại lệ, nếu không nhiều, bạn có thể loại bỏ các cá nhân đó.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.