Cắt trung bình vs trung bình


9

Tôi có một bộ dữ liệu với tất cả các cuộc gọi được thực hiện cho một dịch vụ khẩn cấp và thời gian phản hồi của bộ phận cứu thương. Họ thừa nhận rằng có một số sai lầm với thời gian phản hồi vì có những trường hợp họ không bắt đầu ghi (vì vậy giá trị là 0) hoặc khi họ không dừng đồng hồ (vì vậy giá trị có thể cực kỳ cao).

Tôi muốn tìm hiểu xu hướng trung tâm và tôi đã tự hỏi liệu tốt hơn là sử dụng trung bình hoặc trung bình cắt tỉa để thoát khỏi các ngoại lệ?


1
Đầu tiên, tôi sẽ xóa tất cả dữ liệu không hợp lệ (value = 0). Sau đó, tôi sẽ hình dung dữ liệu bằng biểu đồ hoặc biểu đồ hình hộp để xem vị trí của mình. Bởi vì bạn không thể chỉ cắt giảm dữ liệu một cách mù quáng 5% nếu bạn có 10% dữ liệu xấu ...
alesc

Vâng, hoặc âm mưu CDF. Trong R, làm điều này: lần = lần [lần> 0]; cốt truyện (ecdf (lần))
Paul

Câu trả lời:


12

Xem xét ý nghĩa của việc cắt xén là gì: Trong trường hợp nguyên mẫu, trước tiên bạn sắp xếp dữ liệu của mình theo thứ tự tăng dần. Sau đó, bạn đếm đến phần trăm cắt từ phía dưới và loại bỏ các giá trị đó. Ví dụ, trung bình cắt 10% là phổ biến; trong trường hợp đó, bạn tính từ giá trị thấp nhất cho đến khi bạn vượt qua 10% tất cả dữ liệu trong tập hợp của mình. Các giá trị dưới nhãn hiệu đó được đặt sang một bên. Tương tự, bạn đếm ngược từ giá trị cao nhất cho đến khi bạn vượt qua tỷ lệ phần trăm cắt của mình và đặt tất cả các giá trị lớn hơn giá trị đó sang một bên. Bây giờ bạn còn lại với 80% ở giữa. Bạn có ý nghĩa của điều đó, và đó là ý nghĩa cắt giảm 10% của bạn. (Lưu ý rằng bạn có thể cắt tỷ lệ không bằng nhau từ hai đuôi hoặc chỉ cắt một đuôi, nhưng các cách tiếp cận này ít phổ biến hơn và dường như không thể áp dụng cho tình huống của bạn.)

Bây giờ hãy nghĩ về những gì sẽ xảy ra nếu bạn tính trung bình 50%. Nửa dưới sẽ được đặt sang một bên, cũng như nửa trên. Bạn sẽ chỉ còn lại một giá trị duy nhất ở giữa (thông thường). Bạn sẽ lấy ý nghĩa của điều đó (có nghĩa là, bạn sẽ chỉ lấy giá trị đó) làm giá trị trung bình của bạn. Tuy nhiên, lưu ý rằng giá trị đó là trung vị. Nói cách khác, trung vị là một trung bình cắt (nó là một trung bình cắt 50%). Nó chỉ là một rất tích cực. Về cơ bản, nó giả định rằng 99% dữ liệu của bạn bị ô nhiễm. Điều này cung cấp cho bạn sự bảo vệ tối ưu chống lại các ngoại lệ với chi phí mất sức mạnh / hiệu quả cuối cùng .

Tôi đoán là trung bình / 50% trung bình được cắt giảm mạnh hơn nhiều so với mức cần thiết cho dữ liệu của bạn và quá lãng phí thông tin có sẵn cho bạn. Nếu bạn có bất kỳ ý nghĩa nào về tỷ lệ các ngoại lệ tồn tại, tôi sẽ sử dụng thông tin đó để đặt tỷ lệ phần trăm cắt và sử dụng giá trị trung bình phù hợp. Nếu bạn không có bất kỳ cơ sở nào để chọn tỷ lệ phần trăm cắt xén, bạn có thể chọn một phần trăm bằng cách xác thực chéo hoặc sử dụng phân tích hồi quy mạnh mẽ chỉ với một phần chặn.


1
Tôi đồng ý với tinh thần của điều này, nhưng nó có thể bị hiểu sai khi ngụ ý rằng việc cắt tỉa có nghĩa là nhất thiết phải dựa trên việc cắt bớt các phân số bằng nhau ở mỗi đuôi. Đó chỉ là thủ tục phổ biến và thủ tục thường được thảo luận cho một trường hợp tham chiếu gồm các phân phối xấp xỉ đối xứng nhưng có thể có chất béo, nhưng không có nghĩa là bắt buộc. Có một tài liệu về cắt tỉa chỉ ở một đuôi, điều này có ý nghĩa khi tất cả các giá trị đáng ngờ có thể nằm ở đuôi.
Nick Cox

@NickCox, điểm tốt. Tôi đã thêm một văn bản nhỏ để làm rõ điều đó. Hãy cho tôi biết nếu bạn nghĩ rằng nó cần nhiều hơn.
gung - Tái lập Monica

Có vẻ tốt. Cắt tỉa tự nhiên ở một đuôi chỉ là trường hợp đặc biệt có tỷ lệ không bằng nhau trong đó một tỷ lệ bằng không.
Nick Cox

@NickCox, chắc chắn, nhưng tôi nghĩ có lẽ tốt hơn để được rõ ràng.
gung - Phục hồi Monica

-1

Trước hết, loại bỏ dữ liệu không hợp lệ.

Thứ hai, bạn không cần phải loại bỏ các ngoại lệ vì chúng là các giá trị được quan sát. Trong một số trường hợp, nó rất hữu ích (như trong hồi quy tuyến tính) nhưng trong trường hợp của bạn tôi không thấy được vấn đề.

Cuối cùng, thích sử dụng trung bình vì chính xác hơn là tìm trung tâm dữ liệu của bạn. Như bạn đã nói, giá trị trung bình có thể nhạy cảm với các ngoại lệ (sử dụng giá trị trung bình có thể bị sai lệch).


3
Vì ước tính vị trí là một trường hợp cụ thể của hồi quy, tôi sẽ tò mò muốn biết làm thế nào có thể hữu ích để loại bỏ các ngoại lệ trong trường hợp sau nhưng không phải trong trường hợp trước.
dùng603
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.