Có nhiều hơn một công thức trung bình của người Hồi giáo không?


16

Trong công việc của tôi, khi các cá nhân đề cập đến giá trị "trung bình" của tập dữ liệu, họ thường đề cập đến giá trị trung bình số học (nghĩa là "trung bình" hoặc "giá trị mong đợi"). Nếu tôi cung cấp ý nghĩa hình học , mọi người có thể nghĩ rằng tôi đang ngáy hoặc không hữu ích, vì định nghĩa của "trung bình" được biết trước.

Tôi đang cố xác định xem có nhiều định nghĩa về "trung vị" của một tập dữ liệu hay không. Ví dụ: một trong những định nghĩa được cung cấp bởi một đồng nghiệp để tìm trung vị của tập dữ liệu có số phần tử chẵn sẽ là:

Thuật toán 'A'

  • Chia số phần tử cho hai, làm tròn xuống.
  • Giá trị đó là chỉ số của trung vị.
  • tức là với tập hợp sau, trung vị sẽ là 5.
  • [4, 5, 6, 7]

Điều này có vẻ hợp lý, mặc dù khía cạnh làm tròn có vẻ hơi độc đoán.

Thuật toán 'B'

Trong mọi trường hợp, một đồng nghiệp khác đã đề xuất một thuật toán riêng, trong sách giáo khoa thống kê của anh ta (cần lấy tên và tác giả):

  • Chia số phần tử cho 2 và giữ một bản sao của số nguyên làm tròn và làm tròn xuống. Đặt tên cho chúng n_lon_hi.
  • Lấy trung bình số học của các yếu tố tại n_lon_hi.
  • tức là với tập hợp sau, trung vị sẽ là (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Tuy nhiên, điều này có vẻ sai, vì giá trị trung bình, 5.5trong trường hợp này, không thực sự nằm trong tập dữ liệu gốc. Khi chúng tôi hoán đổi thuật toán 'A' cho 'B' trong một số mã kiểm tra, nó đã bị hỏng một cách khủng khiếp (như chúng tôi mong đợi).

Câu hỏi

Có một "tên" chính thức cho hai cách tiếp cận này để tính trung bình của một tập dữ liệu không? tức là "trung bình ít hơn của hai trung vị" so với "trung bình giữa các yếu tố trung bình và tạo ra dữ liệu trung bình mới"?


16
Tôi chưa bao giờ thấy thuật toán "A" được coi là trung vị. Nó không phải là một vấn đề mà một thống kê mô tả về xu hướng trung tâm của dữ liệu không nằm trong chính dữ liệu: xét cho cùng, hầu hết các phương tiện cũng không nằm trong dữ liệu. Một thuộc tính cơ bản hơn mà chúng ta muốn có trung vị là nó không thay đổi khi chuỗi dữ liệu bị đảo ngược, vì việc sắp xếp dữ liệu từ nhỏ nhất đến lớn nhất hoặc lớn nhất đến nhỏ nhất là một vấn đề tùy ý. Vì lý do này, hầu hết các tác giả định nghĩa trung vị là trong thuật toán "B", bởi vì đó là thủ tục bất biến đơn hàng đơn giản nhất có thể.
whuber

3
@whuber Thuật toán 'A' đôi khi được gọi là trung vị thấp . Tất nhiên cũng có một trung vị tương ứng. Thông thường trung vị là trung bình của hai (có thể hoặc không thể là một phần tử trong tập hợp trung vị được tính trên).
user603

8
Một thời điểm và địa điểm tốt để lặp lại nhận xét rằng hai giá trị trung tâm trong một mẫu được sắp xếp với số lượng quan sát chẵn - như 3 và 4 trong 1, 2, 3, 4, 5, 6 - được coi là hài (độc lập bị SM Stigler, R. Koenker, và không nghi ngờ gì nữa).
Nick Cox

3
Cả hai thuật toán đều thiếu bước quan trọng trong việc sắp xếp dữ liệu?
Emil

3
Nếu bạn cần "trung vị" của mình để luôn là một thành phần của tập dữ liệu, bạn thực sự có thể đang tìm kiếm một medoid .
Ilmari Karonen

Câu trả lời:


23

TL; DR - Tôi không biết tên cụ thể được đặt cho những người ước tính khác nhau về trung bình mẫu. Các phương pháp để ước tính số liệu thống kê mẫu từ một số dữ liệu khá cầu kỳ và các tài nguyên khác nhau đưa ra các định nghĩa khác nhau.

Trong phần Giới thiệu về Thống kê toán học của Hogg, McKean và Craig , các tác giả đưa ra định nghĩa về trung vị của các mẫu ngẫu nhiên , nhưng chỉ trong trường hợp có số lượng mẫu lẻ! Các tác giả viết

nY(n+1)/2

Yii

n

Thuật toán B có thuộc tính là một nửa dữ liệu nằm trên giá trị và một nửa dữ liệu nằm dưới giá trị. Theo định nghĩa về trung vị của một biến ngẫu nhiên , điều này có vẻ tốt.


Việc một công cụ ước tính cụ thể có phá vỡ các thử nghiệm đơn vị hay không là một thuộc tính của các thử nghiệm đơn vị - các thử nghiệm đơn vị được viết dựa trên một công cụ ước tính cụ thể sẽ không nhất thiết phải giữ khi bạn thay thế một công cụ ước tính khác. Trong trường hợp lý tưởng, các bài kiểm tra đơn vị đã được chọn vì chúng phản ánh các nhu cầu quan trọng của tổ chức của bạn, chứ không phải vì một lập luận về học thuyết đối với các định nghĩa.


2
(+1) Chúng ta cũng có thể thêm rằng (1) Khi các giá trị đi kèm với trọng số thì định nghĩa về trung vị về nguyên tắc và trong thực tế cũng phải bao gồm điều đó. (Ngẫu nhiên trong các câu trả lời cho đến nay, tất cả các trọng số đều bằng nhau, do đó là không quan trọng.) Trong khi nội suy tuyến tính trong tổng trọng số tích lũy là đơn giản nhất, có những tình huống mà các loại nội suy khác có thể có ý nghĩa. (2) Các định nghĩa trung bình nghiêm ngặt hơn thường được dùng để bao gồm các phân phối rời rạc và liên tục và lai giống nhau, bao gồm cả các định nghĩa có gai xác suất ở đâu đó.
Nick Cox

25

Những gì @Sycorax nói.

Trên thực tế, có rất nhiều định nghĩa đáng ngạc nhiên về các lượng tử nói chung, do đó, đặc biệt cũng là các trung vị. Hyndman & Fan (1996, The American Statistician ) đưa ra một cái nhìn tổng quan, đó là AFAIK, vẫn toàn diện. Các loại khác nhau không có tên chính thức. Bạn có thể chỉ cần rõ ràng về loại bạn đang sử dụng. (Nó thường không tạo ra sự khác biệt lớn với các tập dữ liệu có kích thước thực tế.)

Lưu ý rằng nó thường được chấp nhận để có một giá trị không có trong tập dữ liệu dưới dạng trung vị, ví dụ: 5,5 dưới dạng trung vị cho (4, 5, 6, 7). Đây là hành vi mặc định cho R:

> median(4:7)
[1] 5.5

median()Theo mặc định, R sử dụng loại 7 của phân loại Hyndman & Fan.


6
+1 cho "Nó thường không tạo ra sự khác biệt lớn với các tập dữ liệu có kích thước thực tế." Tôi sẽ đánh cắp điều đó, thay vì thông thường của tôi "nếu nó làm cho sự khác biệt về vật chất, có lẽ bạn cần nhiều dữ liệu hơn." :)
Jason

1
Nếu bạn có một biến nhị phân có các giá trị 0, 1 (giả sử) và với khoảng 0 và 1 bằng nhau (có nghĩa là gần 0,5) thì cỡ mẫu lớn sẽ không nhất thiết dừng trung bình được báo cáo lật qua lại giữa 0, 0,5 và 1. Mosteller và Tukey ( Phân tích và hồi quy dữ liệu năm 1977) trích dẫn các phân phối lưỡng kim và gần như đối xứng mạnh mẽ như các trường hợp mà trung vị có thể không cư xử đặc biệt tốt.
Nick Cox

3

Trong madhàm R , nó sử dụng thuật ngữ "lo-median" để mô tả thuật toán A của bạn, "hi-median" để mô tả làm tròn thay vào đó, và chỉ "trung vị" để mô tả thuật toán B của bạn (mà như những người khác đã lưu ý đến nay định nghĩa phổ biến nhất).

Thật kỳ lạ, không có tùy chọn như vậy trên median()chức năng của R ! (Nhưng R quantile()typekiểm soát tốt.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.