Làm thế nào để tính toán trung bình cắt hoặc cắt?

Làm thế nào tôi có thể tính toán trung bình cắt hoặc cắt? Hãy nói rằng cắt ngắn 10%?

Tôi có thể tưởng tượng làm thế nào để làm điều đó nếu bạn có 10 mục hoặc hơn, nhưng làm thế nào tôi có thể làm điều đó cho rất nhiều mục?

— Queops
nguồn

Điều này có nên được gắn thẻ cắt tỉa thay vì cắt ngắn?

Tôi muốn nói hoặc en.wikipedia.org/wiki/Truncated_mean sẽ làm.

— Queops

Câu trả lời:

Cắt tỉa có nghĩa là cắt tỉa quan sát phần trăm từ cả hai đầu. $P$

Ví dụ: Nếu bạn được yêu cầu tính trung bình cắt 10%, . $P = 10$

Đưa ra một loạt các quan sát, : $X_i$

Đầu tiên tìm = số lượng quan sát. $n$
Sắp xếp lại chúng dưới dạng "thống kê đơn hàng" từ nhỏ nhất đến lớn nhất. $X_i$
Tìm chữ thường = tỷ lệ cắt bớt. $p = P/100$
Tính . $n p$

Nếu là số nguyên sử dụng và cắt quan sát ở cả hai đầu. $n p$ $k = n p$ $k$

= các quan sát còn lại = . $R$ $n - 2k$

Tỉa trung bình = $(1/R) \left( X_{k+1} + X_{k+2} + \ldots + X_{n-k} \right).$

Ví dụ : Tìm trung bình cắt 10% của

2, 4, 6, 7, 11, 21, 81, 90, 105, 121

Ở đây, là một số nguyên nên cắt chính xác một quan sát ở mỗi đầu, vì . Do đó cắt bỏ 2 và 121. Chúng ta còn lại với quan sát. $n = 10, p = 0.10, k = n p = 1$ $k = 1$ $R = n - 2k = 10 - 2 = 8$

Trung bình cắt 10% = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40.625

Nếu có một phần phân số, giá trị trung bình phức tạp hơn một chút. Trong ví dụ trên, nếu chúng ta muốn trung bình cắt 15%, . Điều này có phần nguyên 1 và phần 0,5 là có mặt. . Do đó $n p$ $P = 15, p = 0.15, n = 10, k = n p = 1.5$ $R = n - 2k = 10 - 2 * 1.5 = 10 - 3 = 7$ $R = 7$ các quan sát được giữ lại.

$(4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2)/7 = 38.64$

Nguồn: Ghi chú lớp trên P phần trăm trung bình cắt

— Mehper C. Palavuzlar
nguồn

@Mehper Trong ví dụ trước, bạn sẽ loại bỏ ba quan sát nào? Rõ ràng là 2 và 121, nhưng còn gì nữa không? Để không thiên vị, có vẻ như bạn phải xóa một nửa số 4 và một nửa số 105 cho giá trị trung bình đã cắt (4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2) / 7 =

— 34,64

@Mehper: chỉ cần FYI, bạn có thể định dạng toán học bằng cách viết biểu thức TeX ở giữa các dấu $. Ví dụ: $X_i$

— nico

@whuber: Cảm ơn bình luận của bạn, tôi đã thêm nhận xét của bạn vào câu trả lời; @nico: Cảm ơn đã cho tôi biết về định dạng TeX. Tôi đã cố cập nhật câu trả lời bằng định dạng TeX nhưng tôi không thể quản lý tốt. Bạn có thể vui lòng cho tôi một liên kết giải thích cách sử dụng kiểu TeX trong bài viết không? Tôi không có kinh nghiệm về TeX.

— Mehper C. Palavuzlar

@Mehper: Google "Hướng dẫn TeX" và chọn lựa. Tôi thích "giới thiệu nhẹ nhàng" vì nó chứa các bảng hữu ích, dễ đọc: tex.ac.uk/tex-archive/info/gentle/gentle.pdf

— whuber

@Mepher: chắc chắn rồi, bạn đi đây! mathjax.org/help/user (lưu ý rằng nếu bạn nhấp chuột phải vào bất kỳ công thức toán học nào, bạn sẽ có một menu ngữ cảnh liên kết đến trang đó). Bạn cũng có thể sử dụng MathML thay vì TeX (nếu bạn rất dũng cảm: P).

— nico

Ngoài câu trả lời ở trên, nếu có nhiều mục (giả sử n), thì trước tiên việc sắp xếp chúng sẽ mất thời gian O (n log n). Tuy nhiên, có một giải pháp thời gian tuyến tính.

Tính toán U-quantile L và (1-P) -quantile U. Có một thuật toán đơn giản (giống như quicksort) cho thuật toán này chạy trong thời gian tuyến tính dự kiến. Ngoài ra còn có một thuật toán phức tạp hơn chạy trong trường hợp tuyến tính tồi tệ nhất. Cả hai có thể được tìm thấy, ví dụ, trong: Cormen, Leiserson, Rivest, Stein: Giới thiệu về Algortithms.
Quét qua tất cả các giá trị và thêm các giá trị giữa L và U. Điều này rõ ràng cần thời gian tuyến tính.
Nếu có các mối quan hệ và các lượng tử tính toán tồn tại nhiều lần trong số các giá trị, chúng ta có thể đã thêm quá nhiều hoặc quá ít giá trị và có thể cần phải sửa cho điều này một cách thích hợp. Vì chúng tôi biết có bao nhiêu số chúng tôi đã thêm trong bước 2 và cũng bao nhiêu lần chúng tôi đã thấy L và U, điều này có thể được thực hiện trong thời gian không đổi.
Chia tổng số tiền cho số triệu hồi.

Lưu ý rằng công thức trên chỉ có giá trị nếu n thực sự lớn và sắp xếp tất cả chúng sẽ là một thành tích hiệu quả, có thể là vài triệu.