Có thể loại bỏ các ngoại lệ khỏi dữ liệu?


33

Tôi đã tìm cách để loại bỏ các ngoại lệ khỏi bộ dữ liệu và tôi đã tìm thấy câu hỏi này .

Tuy nhiên, trong một số ý kiến ​​và câu trả lời cho câu hỏi này, mọi người đã đề cập rằng việc loại bỏ các ngoại lệ khỏi dữ liệu là một thực tế xấu.

Trong tập dữ liệu của tôi, tôi có một số ngoại lệ rất có thể là do lỗi đo lường. Ngay cả khi một số trong số chúng không phải, tôi không có cách nào kiểm tra từng trường hợp, bởi vì có quá nhiều điểm dữ liệu. Là nó có giá trị thống kê hơn chỉ để loại bỏ các ngoại lệ? Hoặc, nếu không, những gì có thể là một giải pháp khác?

Nếu tôi chỉ để những điểm đó ở đó, chúng sẽ ảnh hưởng, ví dụ như trung bình theo cách không phản ánh đúng thực tế (vì dù sao hầu hết chúng đều là lỗi).

EDIT: Tôi đang làm việc với dữ liệu độ dẫn điện của da. Hầu hết các giá trị cực đoan là do các tạo tác như ai đó kéo dây.

EDIT2: Mối quan tâm chính của tôi trong việc phân tích dữ liệu là xác định xem có sự khác biệt giữa hai nhóm không


3
Và bạn muốn làm gì? Tóm tắt dữ liệu? Phân tích tiên đoán? Trực quan hóa dữ liệu? Chứng minh rằng có (không) sự khác biệt đáng kể giữa hai nhóm? Như với tất cả các dữ liệu làm sạch, không có câu trả lời chung.
Piotr Migdal


5
Tôi là một kỹ sư làm việc với rất nhiều số liệu thống kê. Đó là một sự từ chối và một lời thú nhận có nghĩa là tôi phải giao sản phẩm. Chúng tôi chỉ được phép xóa hoàn toàn các điểm "xấu". Bạn có thể chứng minh đó là từ một người kéo dây không? Nếu bạn nhận được một số biện pháp có chủ ý, bạn có thể ràng buộc và co cụm ở đó. Sau đó, bạn có thể phân chia dữ liệu trên cụm (kéo và không kéo) và đó không phải là về ngoại lệ nữa. Nếu bạn không thể chứng minh được nguyên nhân gốc rễ là gì, bạn phải (phải) giữ nguyên. Nó nói lên sự thay đổi, và đó là một đoạn lớn của phân tích. Bạn không thể thoát khỏi nó nếu bạn không thích nó.
EngrStudent - Phục hồi Monica

4
Tôi nghĩ rằng bạn bắt đầu bằng kết thúc sai. Câu hỏi đầu tiên là làm thế nào để bạn xác định các ngoại lệ ở nơi đầu tiên?
dùng603

5
Thay vì tự ý loại bỏ các ngoại lệ được xác định một cách tùy tiện, bạn có thể tốt hơn để xem xét một cái gì đó như "vì tôi bị nhiễm bẩn từ các vấn đề như mọi người kéo dây, tôi có thể sử dụng phương pháp nào mà không bị ảnh hưởng xấu bởi sự ô nhiễm đó?"
Glen_b -Reinstate Monica

Câu trả lời:


26

Tôi không khuyên bạn nên loại trừ bất kỳ ngoại lệ nào trong phân tích chính (trừ khi bạn thực sự tích cực thì họ đã nhầm). Tuy nhiên, bạn có thể làm điều đó trong một phân tích độ nhạy và so sánh kết quả của hai phân tích. Trong khoa học, thường bạn khám phá những thứ mới một cách chính xác khi tập trung vào những ngoại lệ như vậy.

Để giải thích thêm, chỉ cần nghĩ về việc phát hiện ra penicillin của Fleming, dựa trên sự ô nhiễm ngẫu nhiên trong các thí nghiệm của anh ta với một khuôn mẫu:

http://www.abpischools.org.uk/page/modules/ininfiousdisease_timeline/timeline6.cfm?coSiteNavlation_allTopic=1

Nhìn vào quá khứ gần hoặc hiện tại, phát hiện ngoại lệ thường được sử dụng để hướng dẫn sự đổi mới trong khoa học y sinh. Xem ví dụ các bài viết sau (với một số mã R phù hợp):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abauge?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Cuối cùng, nếu bạn có cơ sở hợp lý để loại trừ một số dữ liệu, bạn có thể thực hiện nó, tốt nhất là trong phân tích độ nhạy chứ không phải trong dữ liệu chính. Chẳng hạn, bạn có thể loại trừ tất cả các giá trị không hợp lý về mặt sinh học (chẳng hạn như nhiệt độ 48 độ C ở bệnh nhân tự hoại). Tương tự, bạn có thể loại trừ tất cả các phép đo đầu tiên và cuối cùng cho bất kỳ bệnh nhân nào, để giảm thiểu các tạo tác chuyển động. Tuy nhiên, hãy lưu ý rằng nếu bạn thực hiện bài đăng này (không dựa trên tiêu chí được chỉ định trước), thì rủi ro này sẽ dẫn đến việc xoa bóp dữ liệu.


5
Đồng ý, nhưng tôi thấy câu trả lời này bằng cách nào đó ngắn gọn để nâng cao nó. Có lẽ bạn có thể cung cấp một ví dụ hoạt động, hoặc chỉ ra lý do tại saolàm thế nào các công cụ mới có thể được phát hiện khi tập trung vào các ngoại lệ? Điều này có thể không rõ ràng ngay từ cái nhìn đầu tiên.
Tim

26

Một lựa chọn là loại trừ các ngoại lệ, nhưng IMHO là điều bạn chỉ nên làm nếu bạn có thể tranh luận (gần như chắc chắn) tại sao các điểm đó không hợp lệ (ví dụ: thiết bị đo bị hỏng, vì lý do nào đó không đáng tin cậy, ...). Ví dụ, trong các phép đo miền tần số, DC thường bị loại bỏ do nhiều thuật ngữ khác nhau đóng góp cho DC, thường không liên quan đến hiện tượng bạn đang cố gắng quan sát.

Vấn đề với việc loại bỏ các ngoại lệ, là để xác định điểm nào là ngoại lệ, bạn cần có một mô hình tốt về những gì là hoặc không phải là "dữ liệu tốt". Nếu bạn không chắc chắn về mô hình (nên bao gồm các yếu tố nào, mô hình đó có cấu trúc gì, các giả định của tiếng ồn, ...), thì bạn không thể chắc chắn về các ngoại lệ của mình. Những ngoại lệ đó có thể chỉ là những mẫu đang cố nói với bạn rằng mô hình của bạn sai. Nói cách khác: loại bỏ các ngoại lệ sẽ củng cố mô hình (không chính xác!) Của bạn, thay vì cho phép bạn có được những hiểu biết mới!

Một lựa chọn khác, là sử dụng số liệu thống kê mạnh mẽ. Ví dụ: độ lệch trung bình và độ lệch chuẩn rất nhạy cảm với các ngoại lệ, các số liệu khác về "vị trí" và "mức độ lây lan" mạnh hơn. Ví dụ, thay vì trung bình, sử dụng trung bình. Thay vì độ lệch chuẩn, sử dụng phạm vi giữa các phần tư. Thay vì hồi quy bình phương nhỏ nhất, bạn có thể sử dụng hồi quy mạnh. Tất cả những phương pháp mạnh mẽ đó đều nhấn mạnh đến các ngoại lệ theo cách này hay cách khác, nhưng chúng thường không loại bỏ hoàn toàn dữ liệu ngoại lệ (nghĩa là một điều tốt).


5
Câu trả lời chính xác. Hầu hết mọi người không nhận ra rằng không phải mọi kỹ thuật đều phù hợp với mọi loại dữ liệu . Tập trung vào giá trị trung bình của dữ liệu có các ngoại lệ là một trong những kết quả không may. Họ càng nhận được nhiều cuộc gọi báo thức, từ những câu trả lời như thế này, càng tốt cho mọi người.
rumtscho

16

Nghĩ rằng tôi sẽ thêm một câu chuyện cảnh báo về việc loại bỏ các ngoại lệ:

Hãy nhớ vấn đề với lỗ thủng trong tầng ozone cực? Có một vệ tinh được đưa vào quỹ đạo trên cột đặc biệt để đo nồng độ ozone. Trong một vài năm, dữ liệu được xử lý sau từ vệ tinh báo cáo rằng ozone cực có mặt ở mức bình thường, mặc dù các nguồn khác cho thấy rõ ràng rằng ozone bị thiếu. Cuối cùng cũng có người quay lại kiểm tra phần mềm vệ tinh. Hóa ra ai đó đã viết mã để kiểm tra xem phép đo thô có nằm trong phạm vi dự kiến ​​về mức độ lịch sử điển hình hay không và giả sử rằng bất kỳ phép đo nào ngoài phạm vi chỉ là một công cụ 'tăng đột biến' (tức là ngoại lệ), tự động- sửa giá trị . May mắn thay họ cũng đã ghi lại các phép đo thô; khi kiểm tra họ thấy rằng lỗ hổng đã được báo cáo cùng.


12
Sẽ rất tốt nếu bao gồm một tài liệu tham khảo về vụ việc : Tại sao họ không phát hiện ra hiện tượng này sớm hơn? Thật không may, phần mềm phân tích dữ liệu TOMS đã được lập trình để gắn cờ và đặt các điểm dữ liệu bị lệch rất nhiều so với các phép đo dự kiến ​​và do đó, các phép đo ban đầu nên đặt ra cảnh báo chỉ đơn giản là bị bỏ qua. Nói tóm lại, nhóm TOMS đã thất bại trong việc phát hiện sự suy giảm tầng ozone trước đó vì nó nghiêm trọng hơn nhiều so với dự đoán của các nhà khoa học.
Johnny

3
Đây là một câu chuyện tuyệt vời. và một điều lặp đi lặp lại nhiều lần, nhưng với tôi math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf xác định một cách thuyết phục nó là một huyền thoại dựa trên sự hiểu lầm. Lưu ý rằng vì có hai cực, "tầng ozone cực" cần viết lại.
Nick Cox

3
Xem thêm tài khoản có thẩm quyền Christie. M. 2001. Tầng ôzôn Một triết lý về quan điểm khoa học. Cambridge: Cambridge UP
Nick Cox

7

'Ngoại lệ' là một thuật ngữ thuận tiện để thu thập dữ liệu cùng nhau, không phù hợp với những gì bạn mong đợi quy trình của mình sẽ như thế nào, để xóa khỏi phân tích.

Tôi sẽ đề nghị không bao giờ (báo trước) loại bỏ các ngoại lệ. Nền tảng của tôi là kiểm soát quy trình thống kê, do đó thường xử lý khối lượng lớn dữ liệu chuỗi thời gian được tạo tự động được xử lý bằng biểu đồ chạy / biểu đồ hộp di chuyển / vv tùy thuộc vào dữ liệu và phân phối.

Điều với các ngoại lệ là họ sẽ luôn cung cấp thông tin về 'quy trình' của bạn. Thông thường những gì bạn đang nghĩ về một quá trình thực sự là nhiều quá trình và nó phức tạp hơn nhiều so với việc bạn cho nó tín dụng.

Sử dụng ví dụ trong câu hỏi của bạn, tôi muốn đề xuất có thể có một số 'quy trình'. sẽ có sự thay đổi do ...

  • mẫu được lấy bởi một thiết bị dẫn
  • mẫu được lấy giữa các thiết bị dẫn điện
  • khi đối tượng loại bỏ một đầu dò
  • khi đối tượng di chuyển
  • sự khác biệt trong da của một đối tượng trên cơ thể họ hoặc giữa các ngày lấy mẫu khác nhau (tóc, độ ẩm, dầu, v.v.)
  • sự khác biệt giữa các môn học
  • đào tạo của người thực hiện các phép đo và biến thể giữa các nhân viên

Tất cả các quy trình này sẽ tạo ra sự thay đổi thêm trong dữ liệu và có thể sẽ di chuyển giá trị trung bình và thay đổi hình dạng của phân phối. Nhiều trong số này bạn sẽ không thể tách thành các quy trình riêng biệt.

Vì vậy, đi đến ý tưởng loại bỏ các điểm dữ liệu là 'ngoại lệ' ... Tôi sẽ chỉ xóa các điểm dữ liệu, khi tôi chắc chắn có thể gán chúng cho một 'quy trình' cụ thể mà tôi muốn không đưa vào phân tích của mình. Sau đó, bạn cần đảm bảo rằng các lý do không bao gồm được ghi lại như là một phần của phân tích của bạn, vì vậy điều đó là hiển nhiên. Đừng thừa nhận sự ghi nhận, đó là điều quan trọng trong việc ghi chú thêm thông qua quan sát trong quá trình thu thập dữ liệu của bạn.

Tôi sẽ thách thức tuyên bố của bạn 'vì dù sao hầu hết chúng đều là lỗi', vì chúng không phải là lỗi, mà chỉ là một phần của một quy trình khác mà bạn đã xác định trong các phép đo của mình là khác nhau.

Trong ví dụ của bạn, tôi nghĩ rằng nó là hợp lý để loại trừ các điểm dữ liệu mà bạn có thể gán cho một quá trình riêng biệt mà bạn không muốn phân tích.


6

Nếu bạn đang loại bỏ các ngoại lệ, trong hầu hết các tình huống bạn cần ghi lại rằng bạn đang làm như vậy và tại sao. Nếu đây là cho một bài báo khoa học, hoặc cho các mục đích quy định, điều này có thể dẫn đến việc giảm số liệu thống kê cuối cùng của bạn và / hoặc bị từ chối.

Giải pháp tốt hơn là xác định khi bạn nghĩ rằng bạn đang nhận được dữ liệu xấu (ví dụ: khi mọi người kéo dây), sau đó xác định khi mọi người kéo dây và kéo dữ liệu vì lý do đó. Điều này có thể cũng sẽ dẫn đến việc một số điểm dữ liệu 'tốt' bị bỏ, nhưng giờ đây bạn có lý do 'thực sự' để gắn thẻ và giảm giá các điểm dữ liệu đó ở cuối bộ sưu tập thay vì ở cuối phân tích. Miễn là bạn làm điều đó một cách sạch sẽ và minh bạch, thì bên thứ ba sẽ dễ chấp nhận hơn. Nếu bạn loại bỏ các điểm dữ liệu liên quan đến dây kéo và bạn vẫn nhận được các ngoại lệ, thì kết luận có thể xảy ra là dây kéo không phải là vấn đề (duy nhất) - vấn đề còn có thể xảy ra với thiết kế thử nghiệm hoặc lý thuyết của bạn.

Một trong những thí nghiệm đầu tiên mà mẹ tôi có khi trở lại trường đại học để hoàn thành bằng Cử nhân của mình là một trong những sinh viên được đưa ra một lý thuyết 'xấu' về cách một quá trình hoạt động, và sau đó được yêu cầu thực hiện một thí nghiệm. Những sinh viên đã xóa hoặc sửa đổi các điểm dữ liệu 'xấu' dẫn đến thất bại trong bài tập. Những người báo cáo chính xác rằng dữ liệu của họ không đồng ý với kết quả được dự đoán bởi lý thuyết (xấu), đã được thông qua. Mục đích của bài tập là dạy học sinh không 'sửa chữa' (làm sai lệch) dữ liệu của họ khi nó không như mong đợi.

Tóm tắt: nếu bạn đang tạo dữ liệu xấu, thì hãy sửa thử nghiệm của bạn chứ không phải dữ liệu.


5

Đó là một vấn đề nan giải đạo đức chắc chắn. Một mặt, tại sao bạn nên để một vài điểm dữ liệu đáng ngờ làm hỏng mô hình của bạn phù hợp với phần lớn dữ liệu? Mặt khác, xóa các quan sát không đồng ý với khái niệm thực tế của mô hình của bạn là sự kiểm duyệt các loại. Theo quan điểm của @ Egon, những người ngoài cuộc có thể đang cố nói cho bạn điều gì đó về thực tế đó.

Trong một bài trình bày từ nhà thống kê Steve MacEacéc, ông đã định nghĩa các ngoại lệ là "[không đại diện cho hiện tượng đang nghiên cứu." "Theo quan điểm đó, nếu bạn cảm thấy rằng các điểm dữ liệu đáng ngờ này không đại diện cho hiện tượng dẫn điện da bạn đang cố gắng nghiên cứu , có lẽ họ không thuộc về phân tích. Hoặc nếu họ được phép ở lại, nên sử dụng một phương pháp để hạn chế ảnh hưởng của họ. Trong cùng một bài trình bày, MacEacéc đã đưa ra các ví dụ về các phương thức mạnh mẽ và tôi nhớ rằng, trong một vài ví dụ đó, các phương thức cổ điển với các ngoại lệ được loại bỏ luôn đồng ý với các phân tích mạnh mẽ với các ngoại lệ vẫn được đưa vào. Cá nhân, tôi có xu hướng làm việc với các kỹ thuật cổ điển mà tôi cảm thấy thoải mái nhất và sống với sự không chắc chắn về mặt đạo đức của việc xóa bỏ ngoại lệ.


8
Trong Box, Hunter & Hunter: "Thống kê cho các thí nghiệm" họ nói rằng, trong ngành hóa chất, các ngoại lệ thường dẫn đến các bằng sáng chế mới . Bạn có muốn ném ra bằng sáng chế mới của bạn?
kjetil b halvorsen

2
Không, tôi không muốn bỏ lỡ bất kỳ bằng sáng chế nào. Nhưng tôi cũng không muốn quay mười hai chu kỳ để cố gắng đưa mô hình của mình phù hợp với "ai đó đang kéo dây". Đó gần như chắc chắn không phải là hiện tượng nghiên cứu. Tôi thực sự thích ý tưởng về các ngoại lệ là cơ hội, và một điều cần nói để xóa đơn giản là ít nhất mã sẽ cung cấp tài liệu về các thao tác xóa đó, trong khi trong các phương thức mạnh mẽ, các ngoại lệ chỉ là cùng tồn tại với các điểm khác.
Ben Ogorek

2
Bạn đúng rằng các trường hợp cụ thể phải được xem xét. Những gì không nên làm là áp dụng một số "quy tắc" không ngữ cảnh để từ chối ngoại lệ. Không tồn tại bất kỳ quy tắc tốt như vậy.
kjetil b halvorsen

1
Điểm yêu thích của tôi về sức mạnh của bối cảnh được minh họa bằng câu hỏi "Thanh Snickers có tốt cho sức khỏe không?" Chà, nếu bạn bị lạc trong rừng trong ba ngày và bạn chỉ tìm thấy một vài con trên mặt đất, thì hóa ra chúng vẫn khá khỏe mạnh. Tôi cảm thấy như những câu trả lời phổ biến ở đây đang nói với chúng tôi, "Đừng bao giờ ăn một thanh Snickers, trừ khi bạn chắc chắn bạn sẽ chết nếu không."
Ben Ogorek

0

Nếu tôi tiến hành một mẫu ngẫu nhiên gồm 100 người, và một trong những người đó là Bill Gates, thì theo như tôi có thể nói, Bill Gates là đại diện của 1/100 dân số.

Một giá trị trung bình cho tôi biết thu nhập xổ số trung bình là $ 0.


Không có gì bất thường, một ý nghĩa cắt xén không phù hợp cho các phân phối sai lệch.
Yves Daoust

-2

Tất nhiên bạn nên loại bỏ các ngoại lệ, vì theo định nghĩa, chúng không tuân theo phân phối dưới sự xem xét kỹ lưỡng và là một hiện tượng ký sinh.

Câu hỏi thực sự là "làm thế nào tôi có thể phát hiện ra các ngoại lệ một cách đáng tin cậy"!


Điều gì nếu một phân phối như vậy là Cauchy?
AdamO

@AdamO: câu hỏi thực sự vẫn còn, tất nhiên.
Yves Daoust

Tại sao điều này downvote?
Yves Daoust

3
(-1) bởi vì tôi không nghĩ rằng đây là một đóng góp đầy đủ được thông báo bởi lý thuyết, ví dụ hoặc thực tiễn. "Hiện tượng ký sinh" là gì nhưng hiểu biết về thơ ca về dữ liệu? Khi đối phó với áp lực máu, natri niệu và hình ảnh thần kinh, tôi thấy "ngoại lệ" trên cơ sở hàng ngày là đại diện của dân số đang được xem xét. Loại bỏ chúng có thể là một nguồn sai lệch đáng kể. Có thể nói, chúng là một "hiện tượng ký sinh" mang tính gợi ý và quyết đoán cho phép thực hành thống kê rủi ro.
AdamO

@adam: bạn chỉ ủng hộ để giữ các inliers, mà tôi hoàn toàn đồng ý với.
Yves Daoust
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.