Độ tự do có thể là một số không nguyên?


27

Khi tôi sử dụng GAM, nó mang lại cho tôi DF còn lại là (dòng cuối cùng trong mã). Điều đó nghĩa là gì? Vượt ra ngoài ví dụ về GAM, nói chung, số bậc tự do có thể là một số không nguyên?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Nói chung, có, df có thể là một số dấu phẩy động.
David Lane

6
Bạn có thể muốn hỏi về số thực (hoặc một số không phải là số nguyên); số dấu phẩy động là một khái niệm máy tính (một cách xấp xỉ các số thực) liên quan đến việc thực hiện nhưng bạn thực sự đang hỏi về ý tưởng toán học cơ bản (và tốt hơn là hỏi một câu hỏi toán học). Người ta thường gặp các tình huống trong đó (vì lý do này hay lý do khác, không phải lúc nào cũng tốt) một đại lượng về mặt khái niệm là một số nguyên vẫn được triển khai dưới dạng số dấu phẩy động. Tôi đề nghị "một mô hình có thể có các bậc tự do không nguyên?" cho tiêu đề.
Glen_b -Reinstate Monica

Câu trả lời:


40

Độ tự do là không nguyên trong một số bối cảnh. Thật vậy, trong một vài trường hợp, bạn có thể thiết lập rằng mức độ tự do để phù hợp với dữ liệu cho một số mô hình cụ thể phải nằm giữa một số giá trị và .kk+1

Chúng ta thường nghĩ về mức độ tự do là số lượng tham số miễn phí, nhưng có những tình huống mà các tham số không hoàn toàn miễn phí và sau đó chúng có thể khó đếm. Điều này có thể xảy ra khi làm mịn / thường xuyên, ví dụ.

Các trường hợp của phương pháp hồi quy / nhân trọng số cục bộ, một spline làm mịn là ví dụ của tình huống như vậy - tổng số tham số miễn phí không phải là thứ bạn có thể dễ dàng đếm được bằng cách thêm các yếu tố dự đoán, vì vậy cần có ý tưởng tổng quát hơn về mức độ tự do.

Trong tổng quát Additive Models mà trên đó gamđược dựa một phần, Hastie và Tibshirani (1990) [1] (và thực sự trong nhiều tài liệu tham khảo khác) đối với một số mô hình mà chúng ta có thể viết , mức độ tự do đôi khi được đưa đến là (họ cũng thảo luận về hoặc ). Cách đầu tiên phù hợp với cách tiếp cận thông thường hơn khi cả hai đều hoạt động (ví dụ như hồi quy, trong trường hợp bình thường sẽ là kích thước cột của ), nhưng khi đối xứng và không đối xứng, cả ba đều công thức là như nhau.y^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)XA

[Tôi không có tài liệu tham khảo này để kiểm tra đủ các chi tiết; một sự thay thế của cùng các tác giả (cộng với Friedman) dễ dàng nắm bắt là Các yếu tố của học thống kê [2]; xem ví dụ phương trình 5.16, định nghĩa mức độ tự do hiệu quả của một spline làm mịn là (theo ký hiệu của tôi)]tr(A)

Nói chung, Ye (1998) [3] đã định nghĩa mức độ tự do tổng quát là , là tổng độ nhạy của các giá trị được trang bị cho các quan sát tương ứng của chúng. Đổi lại, điều này phù hợp với nơi định nghĩa đó hoạt động. Để sử dụng định nghĩa của Ye, bạn chỉ cần có thể tính toán và làm nhiễu dữ liệu theo một số lượng nhỏ (để tính toán bằng số). Điều này làm cho nó được áp dụng rất rộng rãi.iy^iyitr(A)y^y^iyi

Đối với các mô hình như được trang bị bởi gam, các biện pháp khác nhau thường không phải là số nguyên.

(Tôi đặc biệt khuyên bạn nên đọc thảo luận của các tài liệu tham khảo về vấn đề này, mặc dù câu chuyện có thể trở nên phức tạp hơn trong một số tình huống. Xem, ví dụ [4])

[1] Hastie, T. và Tibshirani, R. (1990),
Các mô hình phụ gia tổng quát
London: Chapman và Hall.

[2] Hastie, T., Tibshirani, R. và Friedman, J. (2009),
Các yếu tố của học thống kê: Khai thác dữ liệu, suy luận và dự đoán , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
"Về đo lường và sửa chữa ảnh hưởng của khai thác dữ liệu và lựa chọn mô hình"
Tạp chí của Hiệp hội thống kê Mỹ , Tập. 93, số 441, trang 120-131

[4] Janson, L., Fithian, W. và Hastie, T. (2013),
"Mức độ tự do hiệu quả: Một phép ẩn dụ thiếu sót"
https://arxiv.org/abs/1312.7851


7
Nó không liên quan đến trường hợp này nhưng phép thử hai mẫu của Welch khi các phương sai không bằng nhau có thể có số bậc tự do không nguyên.
Michael R. Chernick

5
Như df điều chỉnh epsilon trong các biện pháp lặp lại ANOVA.
David Lane

2
Một tài liệu tham khảo khác là statweb.stanford.edu/~tibs/ElemStatLearn/printings/iên phần 5.4.1 Độ tự do và ma trận mượt mà hơn
Adrian

1
@Adrian cảm ơn; Tôi đã được đưa ra liệu có nên thêm tham chiếu đó không (và đặc biệt là có đề cập đến eqn 5.16 trong phần bạn chỉ đến không). Tôi đã kết luận rằng nên thêm nó vào.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.