IQR chính xác đến mức nào để phát hiện các ngoại lệ


11

Tôi đang viết một kịch bản phân tích thời gian chạy của các quy trình. Tôi không chắc chắn về phân phối của họ nhưng tôi muốn biết nếu một quá trình chạy "quá dài". Cho đến nay tôi đã sử dụng 3 độ lệch chuẩn của lần chạy trước (n> 30), nhưng tôi được cho biết rằng điều này không cung cấp bất cứ điều gì hữu ích nếu dữ liệu không bình thường (dường như không có). Tôi tìm thấy một bài kiểm tra ngoại lệ khác nói rằng:

Tìm phạm vi phần tư giữa, đó là IQR = Q3 - Q1, trong đó Q3 là phần tư thứ ba và Q1 là phần tư thứ nhất. Sau đó tìm hai số này:

a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR

Điểm này là ngoại lệ nếu <a hoặc> b

Dữ liệu của tôi có xu hướng là những thứ như 2 giây, 3 giây, 2 giây, 5 giây, 300 giây, 4 giây, .... trong đó 300 giây rõ ràng là một ngoại lệ.

Phương pháp nào tốt hơn? Phương pháp IQR hay phương pháp độ lệch chuẩn?


4
Bạn có thể muốn xem câu trả lời của @ user603 ở đây: có một biến thể boxplot cho dữ liệu phân tán poisson để biết thông tin về cách điều chỉnh quy tắc này cho dữ liệu sai lệch.
gung - Phục hồi Monica

3
Phương pháp "IQR" này không bao giờ có ý định được áp dụng một cách mù quáng. Đây là một phần của quá trình phân tích dữ liệu khám phá (như được mô tả bởi Nick Cox trong câu trả lời của anh ấy), trong đó trước tiên bạn sẽ tìm cách thể hiện lại dữ liệu để làm cho chúng được phân phối đối xứng.
whuber

2
Dựa trên nhận xét của bạn cho câu trả lời, câu trả lời đúng là "không", bởi vì mối quan tâm cơ bản của bạn không phải là về ngoại lệ, đó là về quá trình.
whuber

Liên quan: Phát hiện các ngoại lệ bằng độ lệch chuẩn là mặt trái của câu hỏi này
user56reinstatemonica8

Các số là time_taken vì vậy chúng sẽ không bao giờ đối xứng trừ khi bạn chia tỷ lệ lại bằng cách nào đó.
JP Bennett

Câu trả lời:


14

Thực sự có toàn bộ sách về ngoại lệ.

Câu trả lời cụ thể thông thường là độ lệch chuẩn được kéo lên bởi các ngoại lệ, do đó, bất kỳ quy tắc nào dựa trên SD có thể hoạt động kém.

Các quy tắc Tukey trên các bộ tứ +/- 1,5 IQR mà bạn trích dẫn đã ra khỏi thủ công với các bộ dữ liệu có kích thước vừa và nhỏ vào những năm 1970 và được thiết kế để chỉ ra các giá trị mà bạn có thể muốn nghĩ về cá nhân. Không rõ ràng rằng họ mang đến các bộ dữ liệu lớn hơn nhiều, cũng không áp dụng khi bạn mong đợi độ lệch đáng kể.

Một câu trả lời chung chung hơn là một quy tắc ngoại lệ là tốt nếu nó luôn đưa ra quyết định đúng, nhưng làm thế nào bạn có thể nói?

Đây là lãnh thổ gây tranh cãi, nhưng tôi hy vọng một ngoại lệ sẽ xuất hiện trên biểu đồ vì nó rất khác biệt so với các biểu đồ khác. Nhưng nó thường là (thường là?) Một cuộc gọi khó khăn để nói lên sự khác biệt giữa những gì bạn mong đợi trong một bản phân phối nặng nề và những gì quá hoang dã để coi là bất cứ điều gì ngoại trừ. Đôi khi biến đổi làm cho một ngoại lệ trông bình thường hơn nhiều.

Hơn nữa, nếu bạn sử dụng các phương thức mạnh mẽ, bạn có thể lo lắng một chút về chính xác giá trị nào được gọi là ngoại lệ, nhưng lo lắng hơn về các ngoại lệ nói chung.


1

Bạn nói rằng bạn không chắc chắn về phân phối nhưng các quy trình đang diễn ra rất dễ thu thập và đánh giá để phân phối. Chỉ cần lưu một loạt các lần và phân tích những. Cho số lần bạn đăng, bạn có thể nhận được rất nhiều trong một vài giờ.

Tìm kiếm của bạn cho một quy tắc cho một ngoại lệ không cần phải quá chung chung. Nó có thể được cụ thể cho nhiệm vụ của bạn. Bạn có thể thu thập nhiều dữ liệu. Thu thập nó, kiểm tra nó, và sau đó quyết định khi một quá trình quá dài. Có thể cách tiếp cận dựa trên IQR sẽ hoạt động nhưng bạn có thể sử dụng tập dữ liệu của mình hoặc phù hợp với tham số để thực hiện mô phỏng và xem liệu nó có hoạt động tốt không. Điều tương tự cũng xảy ra với SD. Nó có thể chỉ là> 50 là quá dài và đó là tất cả những gì bạn cần.


Tôi đang thu thập dữ liệu trên một số quy trình. Họ có thể có mỗi bản phân phối khác nhau. Tôi chỉ cần một cách đơn giản để nói "thời gian chạy quá tuyệt vời" để cảnh báo các kỹ thuật viên tiếp tục xem xét mọi thứ. Nó có thể nói chung miễn là nó gắn cờ những thứ nên được gắn cờ. Nếu một vài tích cực sai xuất hiện, vì vậy nó được. Tuy nhiên, dương tính giả nên được giữ ở mức tối thiểu vì nếu có quá nhiều nó sẽ đánh bại mục đích của kịch bản và tôi chỉ nên bỏ tất cả các kết quả và để cho các kỹ thuật viên có nó. Mục đích của kịch bản là "thu hẹp mọi thứ"
chris bedd

Bạn có thể đánh giá xem các quy trình là giống nhau hay khác nhau. Nếu chúng thực sự rất khác nhau, một số quy tắc chung có thể có xu hướng gây ra một quy trình cụ thể để kích hoạt cảnh báo thường xuyên hơn mức cần thiết. Thông tin này nên thực sự có trong câu hỏi của bạn.
Giăng

3
Đặc trưng cho vấn đề này là tìm kiếm các ngoại lệ, chris, không công bằng: bạn thực sự đang giải quyết một vấn đề kiểm soát chất lượng . Sự khác biệt chính là (1) bạn có một luồng dữ liệu đang diễn ra thay vì một bộ dữ liệu tĩnh để phân tích và (2) bạn dự định chỉ định các hành động định kỳ để thực hiện theo kết quả của mỗi phân tích: đó là, có nên can thiệp (và cố gắng cải thiện quy trình) hay không (và để quá trình chạy như hiện tại). Hiểu rằng đây là bản chất của vấn đề của bạn cho thấy rằng tài liệu khổng lồ về kiểm soát chất lượng có liên quan, cung cấp nhiều loại giải pháp phong phú.
whuber

+1 @whuber. Outliers không liên quan ở đây. Không phải thời gian chạy trung bình, cũng như bất kỳ phần trăm nào của nó, đều liên quan đến những gì "quá dài". Cách để tìm ra cái gì là "quá dài" có thể là một cuộc khảo sát người dùng, hoặc kiểm tra với các kỹ sư, hoặc chỉ là chỗ ngồi của chiếc quần đoán, hoặc một cái gì đó khác, nhưng đó không phải là một câu hỏi thống kê.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.