Sự khác biệt là thống kê tóm tắt: hệ số Gini và độ lệch chuẩn


12

Có một số thống kê tóm tắt. Khi bạn muốn mô tả mức độ lây lan của phân phối, bạn có thể sử dụng ví dụ độ lệch chuẩn hoặc hệ số Gini .

Tôi biết rằng độ lệch chuẩn dựa trên xu hướng trung tâm, nghĩa là độ lệch so với giá trị trung bình và hệ số Gini là phép đo phân tán chung. Tôi cũng biết rằng hệ số Gini có giới hạn dưới và trên [0 1], và độ lệch chuẩn thì không . Những đặc tính này là tốt để biết nhưng những hiểu biết sâu sắc nào có thể cung cấp cho độ lệch mà Gini không thể và ngược lại? Nếu tôi phải chọn sử dụng một trong hai, thì những lợi thế của việc sử dụng một so với cái kia là gì khi nói đến thông tin và sự sáng suốt.


1
Bạn đã có một sự lựa chọn kỳ lạ của các thẻ. Tôi đã chỉnh sửa chúng.
amip nói phục hồi Monica

Câu trả lời:


8

Hai điều cần xem xét

Gini độc lập với quy mô trong khi SD ở đơn vị ban đầu

Giả sử chúng ta có một biện pháp giới hạn ở trên và dưới. SD lấy giá trị tối đa của nó nếu một nửa số đo ở mỗi giới hạn trong khi Gini lấy tối đa là một ở một giới hạn và tất cả các phần còn lại ở một giới hạn khác.


Bạn có nghĩ rằng chúng ta có thể mở rộng việc sử dụng Gini để tính đến sự tập trung / không đồng nhất trong phân tích tổng hợp không? Thật thú vị khi là một phương tiện để định lượng sự tập trung trong sự không đồng nhất ...
Joe_74

1
Vì giả định là các hiệu ứng là bình thường, nên không. Nhưng tôi nghĩ rằng một cuộc thảo luận đầy đủ hơn là lạc đề trong chủ đề này
mdewey

@mdewey Câu cuối cùng đó thật sâu sắc và giúp tôi nhiều nhất. Cám ơn!
Olivier_s_j

@mdewey Tôi đã tự mình thử nghiệm điều này với một số mã, nhưng có một ấn phẩm nào đó thảo luận về điều này không? Hay một bằng chứng? (Tôi đang đề cập đến câu cuối cùng)
Olivier_s_j

@Ojtwist bài viết Wikipedia en.wikipedia.org/wiki/Gini_cooff là hữu ích.
mdewey

10

Hệ số Gini là bất biến theo tỷ lệ và bị giới hạn, độ lệch chuẩn bất biến đối với sự dịch chuyển và không bị ràng buộc, do đó chúng rất khó so sánh trực tiếp. Bây giờ bạn có thể xác định một phiên bản bất biến tỷ lệ của độ lệch chuẩn, bằng cách chia cho giá trị trung bình (hệ số biến đổi).

Tuy nhiên, chỉ số Gini vẫn dựa trên các giá trị, thứ hai trên các giá trị bình phương, do đó bạn có thể mong đợi thứ hai sẽ bị ảnh hưởng nhiều hơn bởi các ngoại lệ (giá trị quá thấp hoặc cao). Điều này có thể được tìm thấy trong các biện pháp bất bình đẳng thu nhập , F De Maio, 2007:

Thước đo bất bình đẳng thu nhập này được tính bằng cách chia độ lệch chuẩn của phân phối thu nhập theo giá trị trung bình của nó. Phân phối thu nhập bằng nhau hơn sẽ có độ lệch chuẩn nhỏ hơn; như vậy, CV sẽ nhỏ hơn trong các xã hội bình đẳng hơn. Mặc dù là một trong những biện pháp bất bình đẳng đơn giản nhất, việc sử dụng CV khá hạn chế trong tài liệu y tế công cộng và nó không được đề cập trong nghiên cứu về giả thuyết bất bình đẳng thu nhập. Điều này có thể được quy cho các hạn chế quan trọng của thước đo CV: (1) nó không có giới hạn trên, không giống như hệ số Gini, 18 khiến việc giải thích và so sánh có phần khó khăn hơn; và (2) hai thành phần của CV (giá trị trung bình và độ lệch chuẩn) có thể bị ảnh hưởng quá mức bởi các giá trị thu nhập thấp hoặc cao bất thường. Nói cách khác,

Vì vậy, hệ số biến đổi là ít mạnh mẽ hơn, và vẫn không bị ràng buộc. Để tiến thêm một bước, bạn có thể xóa giá trị trung bình và chia cho độ lệch tuyệt đối thay vào đó ( ). Tối đa một yếu tố, bạn kết thúc với tỷ lệ định mức , có thể được giới hạn, vì, đối với vectơ , .1 / 2 N 2 ( x ) 1 ( x ) 1(xm)=|xnm|1/2N2(x)1(x)N2(x)

Bây giờ bạn đã có, với chỉ số Gini và tỷ lệ định mức , hai biện pháp thú vị về độ thưa phân phối, bất biến tỷ lệ và giới hạn.1/2

Chúng được so sánh trong So sánh các biện pháp về độ thưa thớt , 2009. Được thử nghiệm dựa trên các đặc tính thưa thớt tự nhiên khác nhau (Robin Hood, Scaling, Rising Tide, Clone, Bill Gates và Babies), chỉ số Gini nổi bật là tốt nhất. Nhưng hình dạng của nó gây khó khăn khi sử dụng làm chức năng mất và các phiên bản thường xuyên của1/2 có thể được sử dụng trong ngữ cảnh này.

Vì vậy, trừ khi bạn muốn mô tả phân phối gần Gaussian, nếu bạn muốn đo độ thưa, hãy sử dụng chỉ số Gini, nếu bạn muốn thúc đẩy độ thưa giữa các mô hình khác nhau, bạn có thể thử tỷ lệ định mức như vậy.

Bài giảng bổ sung: Sự khác biệt trung bình của Gini: một thước đo vượt trội về tính biến đổi đối với các bản phân phối không bình thường , Shlomo Yitzhaki, 2003, người có vẻ trừu tượng có thể xuất hiện:

Trong tất cả các biện pháp biến đổi, phương sai là phổ biến nhất. Bài viết này lập luận rằng Sự khác biệt trung bình của Gini (GMD), một chỉ số thay đổi thay thế, chia sẻ nhiều đặc tính với phương sai, nhưng có thể cung cấp nhiều thông tin hơn về các thuộc tính của phân phối xuất phát từ tính quy tắc


1

Độ lệch chuẩn có thang đo (giả sử, ° K, mét, mmHg, ...). Thông thường, điều này ảnh hưởng đến sự đánh giá của chúng tôi về độ lớn của nó. Vì vậy, chúng tôi có xu hướng thích hệ số biến đổi hoặc thậm chí tốt hơn (trên các mẫu hữu hạn) sai số chuẩn.

Hệ số Gini được xây dựng trên các giá trị phần trăm (không tỷ lệ) và do đó không có thang đo trên đơn vị của chính nó (ví dụ như số Mach). Sử dụng hệ số Gini nếu bạn muốn so sánh sự bình đẳng của cổ phiếu trên một cái gì đó phổ biến (cổ phiếu 100%). Lưu ý rằng đối với ứng dụng này, độ lệch chuẩn cũng có thể được sử dụng, vì vậy tôi nghĩ rằng câu hỏi của bạn để so sánh ưu điểm và nhược điểm chỉ áp dụng cho loại ứng dụng này. Trong trường hợp này, độ lệch chuẩn cũng sẽ được giới hạn ở . Cả hai chỉ số sẽ phụ thuộc vào số lượng cổ phiếu (không âm) nhưng theo hướng ngược lại: Gini tăng khi số lượng tăng, độ lệch chuẩn giảm.[0,1]

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.