Xem xét ý nghĩa của việc cắt xén là gì: Trong trường hợp nguyên mẫu, trước tiên bạn sắp xếp dữ liệu của mình theo thứ tự tăng dần. Sau đó, bạn đếm đến phần trăm cắt từ phía dưới và loại bỏ các giá trị đó. Ví dụ, trung bình cắt 10% là phổ biến; trong trường hợp đó, bạn tính từ giá trị thấp nhất cho đến khi bạn vượt qua 10% tất cả dữ liệu trong tập hợp của mình. Các giá trị dưới nhãn hiệu đó được đặt sang một bên. Tương tự, bạn đếm ngược từ giá trị cao nhất cho đến khi bạn vượt qua tỷ lệ phần trăm cắt của mình và đặt tất cả các giá trị lớn hơn giá trị đó sang một bên. Bây giờ bạn còn lại với 80% ở giữa. Bạn có ý nghĩa của điều đó, và đó là ý nghĩa cắt giảm 10% của bạn. (Lưu ý rằng bạn có thể cắt tỷ lệ không bằng nhau từ hai đuôi hoặc chỉ cắt một đuôi, nhưng các cách tiếp cận này ít phổ biến hơn và dường như không thể áp dụng cho tình huống của bạn.)
Bây giờ hãy nghĩ về những gì sẽ xảy ra nếu bạn tính trung bình 50%. Nửa dưới sẽ được đặt sang một bên, cũng như nửa trên. Bạn sẽ chỉ còn lại một giá trị duy nhất ở giữa (thông thường). Bạn sẽ lấy ý nghĩa của điều đó (có nghĩa là, bạn sẽ chỉ lấy giá trị đó) làm giá trị trung bình của bạn. Tuy nhiên, lưu ý rằng giá trị đó là trung vị. Nói cách khác, trung vị là một trung bình cắt (nó là một trung bình cắt 50%). Nó chỉ là một rất tích cực. Về cơ bản, nó giả định rằng 99% dữ liệu của bạn bị ô nhiễm. Điều này cung cấp cho bạn sự bảo vệ tối ưu chống lại các ngoại lệ với chi phí mất sức mạnh / hiệu quả cuối cùng .
Tôi đoán là trung bình / 50% trung bình được cắt giảm mạnh hơn nhiều so với mức cần thiết cho dữ liệu của bạn và quá lãng phí thông tin có sẵn cho bạn. Nếu bạn có bất kỳ ý nghĩa nào về tỷ lệ các ngoại lệ tồn tại, tôi sẽ sử dụng thông tin đó để đặt tỷ lệ phần trăm cắt và sử dụng giá trị trung bình phù hợp. Nếu bạn không có bất kỳ cơ sở nào để chọn tỷ lệ phần trăm cắt xén, bạn có thể chọn một phần trăm bằng cách xác thực chéo hoặc sử dụng phân tích hồi quy mạnh mẽ chỉ với một phần chặn.