Hệ số Gini và giới hạn lỗi


11

Tôi có một chuỗi thời gian dữ liệu với số lượng N = 14 tại mỗi thời điểm và tôi muốn tính hệ số Gini và một lỗi tiêu chuẩn cho ước tính này tại mỗi thời điểm.

Vì tôi chỉ có N = 14 đếm tại mỗi thời điểm nên tôi đã tiến hành bằng cách tính phương sai jackknife, tức là từ phương trình 7 của Tomson Ogwang 'Một phương pháp thuận tiện để tính toán chỉ số Gini và' lỗi tiêu chuẩn 'của nó . Trong đó là hệ số Gini của các giá trị N không có phần tử và là giá trị trung bình của .var(G)=n1n×k=1n(G(n,k)G¯(n))2G(n,k)kG¯(x)G(n,k)

Thực hiện ngây thơ trực tiếp của công thức trên cho phương sai.

calc.Gini.variance <- function(x) {
  N <- length(x)
  # using jacknifing as suggested by Tomson Ogwang - equation 7
  # in the Oxford Bulletin of Economics and Statistics, 62, 1 (2000)
  # ((n-1)/n) \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2
  gini.bar <- Gini(x)

  gini.tmp <- vector(mode='numeric', length=N)
  for (k in 1:N) {
    gini.tmp[k] <- Gini(x[-k])
  }
  gini.bar <- mean(gini.tmp)
  sum((gini.tmp-gini.bar)^2)*(N-1)/N
 }
 calc.Gini.variance(c(1,2,2,3,4,99)) 
 # [1] 0.1696173
 Gini(c(1,2,2,3,4,99))
 # [1] 0.7462462

Đây có phải là một cách tiếp cận hợp lý cho một N nhỏ? Bất cứ một đề nghị nào khác?


Có lẽ bạn có thể thêm các tính toán thực tế bạn đang sử dụng cho cả ước tính mẫu và lỗi tiêu chuẩn do nhiều người có thể không có quyền truy cập vào bài báo tại liên kết được cung cấp.
Đức hồng y

Câu trả lời:


5

Một vấn đề sẽ là với cỡ mẫu nhỏ này và một thống kê phức tạp (hệ số gini), phân phối xác suất của thống kê của bạn chắc chắn sẽ không xấp xỉ bình thường, do đó, "lỗi tiêu chuẩn" có thể gây hiểu nhầm nếu bạn định sử dụng nó để tạo khoảng tin cậy hoặc kiểm tra giả thuyết dựa trên tính quy phạm.

Tôi đã nghĩ rằng một bootstrap phần trăm sẽ là một phương pháp tốt hơn và đơn giản hơn để thực hiện. Ví dụ:

> library(reldist) # just for the gini() function
> library(boot) # for the boot() function
> x <- c(1,2,2,3,4,99)
> gini(x)
[1] 0.7462462 # check get same result as in your question
> y <- boot(x, gini, 500)
> quantile(y$t, probs=c(0.025, 0.975))
     2.5%     97.5% 
0.6353158 0.7717868 
> plot(density(y$t))

Tôi chưa đính kèm cốt truyện được tạo ra vào cuối nhưng điều đó cho thấy khoảng tin cậy là rất đồng nhất, vì vậy sử dụng phương pháp như +/- 1.96 * se cho khoảng tin cậy sẽ gây hiểu nhầm. Tôi không phải là người hâm mộ các phương pháp jackknife cho khoảng tin cậy chủ yếu vì lý do này; jackknife được phát minh như một kỹ thuật giảm sai lệch cho các ước tính điểm, trong khi đó khoảng tin cậy là nội tại đối với toàn bộ ý tưởng của bootstrap.


Thực tế đây là một trong những điểm của bài báo gốc - phương pháp được phát triển để ~ giảm gánh nặng tính toán khi sử dụng jackknife để tính toán Gini SEs. Với , hầu như không có bất kỳ gánh nặng nào. N=14
MichaelChirico
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.