Xóa các ngoại lệ khỏi dữ liệu - số lượng ngoại lệ tối đa mà bạn có thể xóa?


9

Tôi có một vài ngoại lệ trong dữ liệu của mình và tôi muốn loại trừ chúng để xem điều này có thay đổi kết quả hay không. Theo bạn, số lượng ngoại lệ tối đa mà một người nên hạn chế là bao nhiêu?

Cảm ơn! nhập mô tả hình ảnh ở đây


Biểu đồ của bạn được ghi lại ở đây: các nhãn số trên trục y bị thiếu và các mục chú thích không khác biệt. (Đó có thể là một cách che giấu dữ liệu chưa được công bố, nhưng nó không giúp chúng tôi cho bạn lời khuyên tốt.) Truyền thuyết về mật mã không ảnh hưởng đến câu hỏi của bạn, nhưng không biết quy mô nào bạn đang làm việc giới hạn phạm vi cho câu trả lời hữu ích . Các dữ liệu như được hiển thị độ lệch vừa phải hoặc âm; điều này có thể có ý nghĩa, và các ngoại lệ rõ ràng chỉ là hậu quả của điều đó. Ngoài ra, có thể là bạn đã chuyển đổi quá mức, ví dụ như logarit được sử dụng trong đó dữ liệu không xứng đáng với điều đó.
Nick Cox

Câu trả lời:


9

Không có tối đa hoặc tối thiểu. Các ngoại lệ nên được xóa nếu chúng là dữ liệu xấu hoặc nếu có những lý do thực sự khác để xóa chúng. Nếu không có lý do thực sự, thì tôi khuyên bạn nên sử dụng các phương pháp mạnh mẽ để vượt trội hơn. Tôi sẽ không loại bỏ các ngoại lệ chỉ vì chúng hơi xa các điểm khác.


5
Đã đồng ý. Lưu ý tha Box, Hunter & Hunter: "Thống kê cho các thí nghiệm" nói rằng trong ngành hóa chất, các ngoại lệ thường có kết quả bằng sáng chế mới! Tùy thuộc vào hoàn cảnh, các ngoại lệ có thể là phần thông tin quan trọng nhất trong dữ liệu của bạn! Loại bỏ chúng không bao giờ nên được thực hiện dễ dàng.
kjetil b halvorsen 15/1/2015

3
Ngoài ra trong vật lý thiên văn. "Chúng ta hãy xóa các lỗ đen và sao neutron khỏi dữ liệu" :-).
Peter Flom

1
Peter Flom: Vâng! Và trong số loài người, nếu không có người ngoài cuộc trong chúng ta, chúng ta vẫn sẽ sống trong thời kỳ đồ đá!
kjetil b halvorsen 15/1/2015

5
Trong ví dụ này, lưu ý rằng tất cả 7 ngoại lệ được gắn nhãn có giá trị thấp, trong khi không có giá trị nào cao. Điều đó có thể đại diện cho các vấn đề với đo lường, hoặc nó có thể có nghĩa là một cái gì đó rất thú vị. Dù bằng cách nào, chỉ cần loại bỏ các ngoại lệ ở đây mà không xem xét điều gì dẫn đến các giá trị thấp có vẻ không phù hợp.
EdM

1
Tôi diễn giải câu hỏi hơi khác một chút. Nó không đề xuất loại bỏ các ngoại lệ khỏi phân tích, đó là những gì câu trả lời này mặc nhiên thừa nhận. Nó chỉ hỏi làm thế nào để tiến hành phân tích độ nhạy "để xem nếu điều này thay đổi kết quả." Mặc dù những lời khuyên đưa ra ở đây về việc có nên loại bỏ giá trị ngoại biên là tốt - và rõ ràng sẽ có một số mang về quyết định sau này nếu nó quay ra phân tích nhạy cảm với các giá trị ngoại biên - đó dường như không phục vụ lợi ích của OP trong trường hợp này.
whuber

1

Tôi sẽ nhấn mạnh vào điều gì đó đã được nói trong một câu trả lời và nhận xét khác (tôi nghĩ rằng câu trả lời của @Peter Flom là chính xác và EdM đã đúng khi nói về các phép đo, trong số tất cả).

Phân tích dữ liệu là một việc phải được thực hiện cẩn thận. Bạn phải nhận thức rất rõ về ý nghĩa của các ngoại lệ trong liên hệ của bạn. Ví dụ: giả sử rằng quy trình đo của bạn đã được thực hiện "chính xác" (ý tôi là, bạn chưa giới thiệu thành kiến, thiết bị của bạn đã được hiệu chỉnh, người đọc thiết bị đã thực hiện đúng, v.v.), một số ngoại lệ có thể nói điều gì đó thú vị và đôi khi rất quan trọng.

Dưới đây là một ví dụ được tạo ra, xin vui lòng (chỉ ra chúng trong các bình luận) nếu nó không đúng 100% trên tất cả các khía cạnh. ;)

Nói rằng ai đó đang thử nghiệm hiệu quả của việc áp dụng một lượng chất nhất định cho một số nền văn hóa (quần thể) vi khuẩn. Bây giờ, "nói chung", hiệu quả là ổn định số lượng vi khuẩn trong dân số, nhưng có một số ngoại lệ trong số các nền văn hóa khác nhau.

Hãy tưởng tượng tất cả các ngoại lệ của bạn chỉ ra các tình huống mà tất cả các vi khuẩn đã chết. Hoặc tất cả các ngoại lệ đại diện cho các nền văn hóa nơi quần thể vi khuẩn đã vượt khỏi tầm kiểm soát.

Điều tôi muốn chỉ ra là bản chất của các ngoại lệ nhận thức của bạn có thể có ý nghĩa và hậu quả của mỗi loại là khác nhau. Bạn có thể rơi vào tình huống không thể chịu đựng được khi số lượng vi khuẩn tăng hoặc giảm.

Tất nhiên, nếu bạn nhận thấy rằng một số quần thể bị loại bỏ bởi chất này, có lẽ bạn sẽ điều tra về vấn đề này vì đây là một tình huống dễ nhận biết. Nhưng không phải tất cả các hiện tượng đều dễ dàng phát hiện.

Để kết thúc, khái niệm về các ngoại lệ có phần tùy ý, nhưng ý nghĩa của chúng là nhiều và có tầm quan trọng khác nhau. Hy vọng nó sẽ khiến bạn suy nghĩ về vấn đề này ... :)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.