Trong công việc của tôi, khi các cá nhân đề cập đến giá trị "trung bình" của tập dữ liệu, họ thường đề cập đến giá trị trung bình số học (nghĩa là "trung bình" hoặc "giá trị mong đợi"). Nếu tôi cung cấp ý nghĩa hình học , mọi người có thể nghĩ rằng tôi đang ngáy hoặc không hữu ích, vì định nghĩa của "trung bình" được biết trước.
Tôi đang cố xác định xem có nhiều định nghĩa về "trung vị" của một tập dữ liệu hay không. Ví dụ: một trong những định nghĩa được cung cấp bởi một đồng nghiệp để tìm trung vị của tập dữ liệu có số phần tử chẵn sẽ là:
Thuật toán 'A'
- Chia số phần tử cho hai, làm tròn xuống.
- Giá trị đó là chỉ số của trung vị.
- tức là với tập hợp sau, trung vị sẽ là
5
. [4, 5, 6, 7]
Điều này có vẻ hợp lý, mặc dù khía cạnh làm tròn có vẻ hơi độc đoán.
Thuật toán 'B'
Trong mọi trường hợp, một đồng nghiệp khác đã đề xuất một thuật toán riêng, trong sách giáo khoa thống kê của anh ta (cần lấy tên và tác giả):
- Chia số phần tử cho 2 và giữ một bản sao của số nguyên làm tròn và làm tròn xuống. Đặt tên cho chúng
n_lo
vàn_hi
. - Lấy trung bình số học của các yếu tố tại
n_lo
vàn_hi
. - tức là với tập hợp sau, trung vị sẽ là
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Tuy nhiên, điều này có vẻ sai, vì giá trị trung bình, 5.5
trong trường hợp này, không thực sự nằm trong tập dữ liệu gốc. Khi chúng tôi hoán đổi thuật toán 'A' cho 'B' trong một số mã kiểm tra, nó đã bị hỏng một cách khủng khiếp (như chúng tôi mong đợi).
Câu hỏi
Có một "tên" chính thức cho hai cách tiếp cận này để tính trung bình của một tập dữ liệu không? tức là "trung bình ít hơn của hai trung vị" so với "trung bình giữa các yếu tố trung bình và tạo ra dữ liệu trung bình mới"?