'Ngoại lệ' là một thuật ngữ thuận tiện để thu thập dữ liệu cùng nhau, không phù hợp với những gì bạn mong đợi quy trình của mình sẽ như thế nào, để xóa khỏi phân tích.
Tôi sẽ đề nghị không bao giờ (báo trước) loại bỏ các ngoại lệ. Nền tảng của tôi là kiểm soát quy trình thống kê, do đó thường xử lý khối lượng lớn dữ liệu chuỗi thời gian được tạo tự động được xử lý bằng biểu đồ chạy / biểu đồ hộp di chuyển / vv tùy thuộc vào dữ liệu và phân phối.
Điều với các ngoại lệ là họ sẽ luôn cung cấp thông tin về 'quy trình' của bạn. Thông thường những gì bạn đang nghĩ về một quá trình thực sự là nhiều quá trình và nó phức tạp hơn nhiều so với việc bạn cho nó tín dụng.
Sử dụng ví dụ trong câu hỏi của bạn, tôi muốn đề xuất có thể có một số 'quy trình'. sẽ có sự thay đổi do ...
- mẫu được lấy bởi một thiết bị dẫn
- mẫu được lấy giữa các thiết bị dẫn điện
- khi đối tượng loại bỏ một đầu dò
- khi đối tượng di chuyển
- sự khác biệt trong da của một đối tượng trên cơ thể họ hoặc giữa các ngày lấy mẫu khác nhau (tóc, độ ẩm, dầu, v.v.)
- sự khác biệt giữa các môn học
- đào tạo của người thực hiện các phép đo và biến thể giữa các nhân viên
Tất cả các quy trình này sẽ tạo ra sự thay đổi thêm trong dữ liệu và có thể sẽ di chuyển giá trị trung bình và thay đổi hình dạng của phân phối. Nhiều trong số này bạn sẽ không thể tách thành các quy trình riêng biệt.
Vì vậy, đi đến ý tưởng loại bỏ các điểm dữ liệu là 'ngoại lệ' ... Tôi sẽ chỉ xóa các điểm dữ liệu, khi tôi chắc chắn có thể gán chúng cho một 'quy trình' cụ thể mà tôi muốn không đưa vào phân tích của mình. Sau đó, bạn cần đảm bảo rằng các lý do không bao gồm được ghi lại như là một phần của phân tích của bạn, vì vậy điều đó là hiển nhiên. Đừng thừa nhận sự ghi nhận, đó là điều quan trọng trong việc ghi chú thêm thông qua quan sát trong quá trình thu thập dữ liệu của bạn.
Tôi sẽ thách thức tuyên bố của bạn 'vì dù sao hầu hết chúng đều là lỗi', vì chúng không phải là lỗi, mà chỉ là một phần của một quy trình khác mà bạn đã xác định trong các phép đo của mình là khác nhau.
Trong ví dụ của bạn, tôi nghĩ rằng nó là hợp lý để loại trừ các điểm dữ liệu mà bạn có thể gán cho một quá trình riêng biệt mà bạn không muốn phân tích.