Làm thế nào để hiểu mức độ tự do?


257

Từ Wikipedia , có ba cách hiểu về mức độ tự do của một thống kê:

Trong thống kê, số bậc tự do là số lượng giá trị trong phép tính cuối cùng của một thống kê có thể tự do thay đổi .

Ước tính các tham số thống kê có thể dựa trên lượng thông tin hoặc dữ liệu khác nhau. Số lượng thông tin độc lập đi vào ước tính của một tham số được gọi là mức độ tự do (df). Nói chung, mức độ tự do của ước tính của một tham số bằng với số điểm độc lập đi vào ước tính trừ đi số lượng tham số được sử dụng làm bước trung gian trong ước tính của chính tham số (trong phương sai mẫu, là một, vì giá trị trung bình mẫu là bước trung gian duy nhất).

Về mặt toán học, bậc tự do là thứ nguyên của miền của một vectơ ngẫu nhiên , hoặc về cơ bản là số lượng thành phần 'miễn phí': có bao nhiêu thành phần cần phải biết trước khi vectơ được xác định đầy đủ .

Những từ in đậm là những gì tôi không hiểu lắm. Nếu có thể, một số công thức toán học sẽ giúp làm rõ khái niệm này.

Cũng làm ba cách giải thích đồng ý với nhau?



3
Cũng xem câu hỏi này "mức độ tự do là gì?"
Jeromy Anglim

Câu trả lời:


242

Đây là một câu hỏi tinh tế. Nó cần một người chu đáo không hiểu những trích dẫn đó! Mặc dù chúng mang tính gợi ý, nhưng hóa ra không ai trong số chúng là chính xác hoặc nói chung là chính xác. Tôi không có thời gian (và không có không gian ở đây) để đưa ra một giải trình đầy đủ, nhưng tôi muốn chia sẻ một cách tiếp cận và một cái nhìn sâu sắc mà nó gợi ý.

Trường hợp khái niệm mức độ tự do (DF) phát sinh? Các bối cảnh mà nó được tìm thấy trong các phương pháp điều trị cơ bản là:

  • Bài kiểm tra t Student và các biến thể của nó như các giải pháp của Welch hoặc Satterthwaite cho vấn đề BehDR-Fisher (trong đó hai quần thể có phương sai khác nhau).

  • Phân phối Chi bình phương (được định nghĩa là tổng bình phương của các tiêu chuẩn chuẩn độc lập), có liên quan đến phân phối lấy mẫu của phương sai.

  • Phép thử F (tỷ lệ phương sai ước tính).

  • Các thử nghiệm Chi-bình phương , bao gồm sử dụng của nó trong (a) thử nghiệm độc lập trong các bảng dự phòng và (b) thử nghiệm cho sự tốt lành của cơn dự toán phân bổ.

Về mặt tinh thần, các bài kiểm tra này thực hiện một giao thức từ chính xác (bài kiểm tra t của sinh viên và bài kiểm tra F cho các biến thể bình thường) để đạt được xấp xỉ tốt (bài kiểm tra t của sinh viên và các bài kiểm tra Welch / Satterthwaite cho dữ liệu không quá sai lệch ) dựa trên các xấp xỉ tiệm cận (kiểm tra Chi bình phương). Một khía cạnh thú vị của một số trong số này là sự xuất hiện của "mức độ tự do" không tách rời (các bài kiểm tra tiếng Wales / Satterthwaite và, như chúng ta sẽ thấy, bài kiểm tra Chi bình phương). Đây là mối quan tâm đặc biệt bởi vì đây là gợi ý đầu tiên rằng DF không phải là bất kỳ điều gì được tuyên bố về nó.

Chúng tôi có thể loại bỏ ngay một số yêu cầu trong câu hỏi. Bởi vì "tính toán cuối cùng của một thống kê" không được xác định rõ (rõ ràng nó phụ thuộc vào thuật toán mà người ta sử dụng để tính toán), nên nó không thể là một gợi ý mơ hồ và không đáng bị chỉ trích thêm. Tương tự, không phải "số lượng điểm độc lập đi vào ước tính" hay "số lượng tham số được sử dụng làm bước trung gian" đều được xác định rõ.

"Những thông tin độc lập đi vào [ước tính] rất khó đối phó, bởi vì có hai ý nghĩa khác nhau nhưng liên quan mật thiết đến" độc lập "có thể liên quan ở đây. Một là sự độc lập của các biến ngẫu nhiên; khác là độc lập chức năng. Để làm ví dụ cho trường hợp sau, giả sử chúng tôi thu thập các phép đo hình thái của các đối tượng - giả sử, để đơn giản, ba chiều dài , , , diện tích bề mặt và thể tích của một bộ các khối gỗ. Ba độ dài bên có thể được coi là biến ngẫu nhiên độc lập, nhưng tất cả năm biến là RV phụ thuộc. Năm cũng có chức năngY Z S = 2 ( X Y + Y Z + Z X ) V = X Y Z ( X , Y , Z , S , V ) R 5 ω R 5 f ω g ω f ω ( X ( ψ ) , ... , V ( ψ ) ) = 0 g ωXYZS=2(XY+YZ+ZX)V=XYZphụ thuộc vì codomain ( không "miền"!) của biến ngẫu nhiên vector có giá trị vạch ra một đa tạp ba chiều trong . (Như vậy, cục bộ tại bất kỳ điểm , có hai chức năng và mà và cho các điểm "gần" và các dẫn xuất của và đánh giá tại(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω f g ω ( X , S , V )gω(X(ψ),,V(ψ))=0ψωfgωlà tuyến tính độc lập) Tuy nhiên -. đây là kicker - đối với nhiều biện pháp xác suất về các khối, các tập con của các biến như là phụ thuộc như các biến ngẫu nhiên nhưng chức năng độc lập.(X,S,V)

Đã được cảnh báo bởi những sự mơ hồ tiềm tàng này, chúng ta hãy kiểm tra mức độ phù hợp của Chi bình phương để kiểm tra , bởi vì (a) nó đơn giản, (b) đó là một trong những tình huống phổ biến mà mọi người thực sự cần biết về DF để có được p-value right và (c) nó thường được sử dụng không chính xác. Dưới đây là tóm tắt ngắn gọn về ứng dụng ít gây tranh cãi nhất của bài kiểm tra này:

  • Bạn có một tập hợp các giá trị dữ liệu , được coi là một mẫu của dân số.(x1,,xn)

  • Bạn đã ước tính một số tham số của một bản phân phối. Ví dụ: bạn ước tính trung bình và độ lệch chuẩn của phân phối Bình thường, giả thuyết rằng dân số được phân phối bình thường nhưng không biết (trước khi lấy dữ liệu) có thể là gì hoặc .θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • Trước, bạn đã tạo một bộ "thùng" cho dữ liệu. (Có thể có vấn đề khi các thùng được xác định bởi dữ liệu, mặc dù điều này thường được thực hiện.) Sử dụng các thùng này, dữ liệu được giảm xuống thành bộ đếm trong mỗi thùng. Dự đoán giá trị thực của có thể là gì, bạn đã sắp xếp nó sao cho (hy vọng) mỗi thùng sẽ nhận được xấp xỉ cùng một số lượng. (Việc tạo thùng xác suất bằng nhau đảm bảo phân phối chi bình phương thực sự là một xấp xỉ tốt với phân phối thực sự của thống kê chi bình phương sắp được mô tả.)( θ )k(θ)

  • Bạn có rất nhiều dữ liệu - đủ để đảm bảo rằng hầu hết tất cả các thùng phải có số lượng từ 5 trở lên. (Điều này, chúng tôi hy vọng, sẽ cho phép phân phối lấy mẫu của thống kê được xấp xỉ đầy đủ bởi một số phân phối )χ 2χ2χ2

Sử dụng các ước tính tham số, bạn có thể tính số lượng dự kiến ​​trong mỗi thùng. Thống kê Chi bình phương là tổng của các tỷ lệ

(observedexpected)2expected.

Điều này, nhiều nhà chức trách nói với chúng ta, nên có (một xấp xỉ rất gần) một phân phối Chi bình phương. Nhưng có cả một gia đình phân phối như vậy. Chúng được phân biệt bởi một tham số thường được gọi là "bậc tự do". Lý do chuẩn về cách xác định đi như thế nàyvνν

Tôi có tính. Đó là mẩu dữ liệu. Nhưng có những mối quan hệ ( chức năng ) trong số đó. Để bắt đầu, tôi biết trước rằng tổng của các số phải bằng . Đó là một mối quan hệ. Tôi ước tính hai (hoặc , nói chung) từ dữ liệu. Đó là hai (hoặc ) mối quan hệ bổ sung, cho tổng số mối quan hệ . Giả sử chúng (các tham số) hoàn toàn độc lập (về mặt chức năng ), chỉ để lại "bậc tự do" độc lập (về mặt chức năng ): đó là giá trị được sử dụng cho .k n p p p + 1 k - p - 1 νkknppp+1kp1ν

Vấn đề với lý do này (đó là cách tính toán các trích dẫn trong câu hỏi đang ám chỉ) là nó sai trừ khi một số điều kiện bổ sung đặc biệt giữ. Hơn nữa, những điều kiện đó không liên quan gì đến tính độc lập (chức năng hoặc thống kê), với số lượng "thành phần" của dữ liệu, với số lượng tham số, cũng như với bất kỳ điều gì khác được đề cập trong câu hỏi ban đầu.

Hãy để tôi chỉ cho bạn một ví dụ. (Để làm cho rõ ràng nhất có thể, tôi đang sử dụng một số lượng nhỏ các thùng, nhưng điều đó không cần thiết.) Hãy tạo ra 20 biến thể tiêu chuẩn độc lập và phân phối (iid) bình thường và ước tính độ lệch chuẩn và trung bình của chúng với các công thức thông thường ( nghĩa là = tổng / đếm, v.v. ). Để kiểm tra mức độ phù hợp, tạo bốn thùng với các điểm cắt tại các phần tư của một tiêu chuẩn thông thường: -0.675, 0, +0.657 và sử dụng số lượng thùng để tạo ra một thống kê Chi bình phương. Lặp lại như sự kiên nhẫn cho phép; Tôi đã có thời gian để thực hiện 10.000 lần lặp lại.

Sự khôn ngoan tiêu chuẩn về DF nói rằng chúng ta có 4 thùng và 1 + 2 = 3 ràng buộc, ngụ ý phân phối 10.000 thống kê Chi bình phương này phải tuân theo phân phối Chi bình phương với 1 DF. Đây là biểu đồ:

Hình 1

Đường màu xanh lam đậm biểu đồ PDF của phân phối - biểu đồ mà chúng tôi nghĩ sẽ hoạt động - trong khi biểu đồ đường màu đỏ sẫm phân phối χ 2 ( 2 ) (sẽ là một phỏng đoán tốt nếu có ai đó để nói với bạn rằng ν = 1 là không chính xác). Không phù hợp với dữ liệu.χ2(1)χ2(2)ν=1

Bạn có thể mong đợi vấn đề là do kích thước nhỏ của các tập dữ liệu ( = 20) hoặc có lẽ là kích thước nhỏ của số lượng thùng. Tuy nhiên, vấn đề vẫn tồn tại ngay cả với các bộ dữ liệu rất lớn và số lượng thùng lớn hơn: nó không chỉ đơn thuần là không đạt được một xấp xỉ tiệm cận.n

Mọi thứ đã sai vì tôi đã vi phạm hai yêu cầu của bài kiểm tra Chi bình phương:

  1. Bạn phải sử dụng ước tính Khả năng tối đa của các tham số. (Yêu cầu này trong thực tế, có thể bị vi phạm một chút.)

  2. Bạn phải căn cứ vào ước tính đó , không dựa trên dữ liệu thực tế! (Điều này rất quan trọng .)

Hình 2

Biểu đồ màu đỏ mô tả số liệu thống kê chi bình phương cho 10.000 lần lặp riêng biệt, theo các yêu cầu này. Chắc chắn, nó rõ ràng đi theo đường cong (với số lượng lỗi lấy mẫu chấp nhận được), như chúng ta đã hy vọng ban đầu.χ2(1)

Điểm so sánh này - mà tôi hy vọng bạn đã thấy sắp tới - là DF chính xác được sử dụng để tính toán các giá trị p phụ thuộc vào nhiều thứ khác với kích thước của đa tạp, số lượng mối quan hệ chức năng hoặc hình học của các biến thể Bình thường . Có một sự tương tác tinh tế, tinh tế giữa các phụ thuộc chức năng nhất định , như được tìm thấy trong các mối quan hệ toán học giữa các đại lượng và phân phối dữ liệu, số liệu thống kê của chúng và các công cụ ước tính được hình thành từ chúng. Theo đó, DF không thể giải thích thỏa đáng về mặt hình học của các phân phối bình thường đa biến, hoặc về tính độc lập chức năng, hoặc như các thông số, hoặc bất cứ điều gì khác có tính chất này.

Chúng tôi đang dẫn để xem, sau đó, rằng "bậc tự do" chỉ đơn thuần là một heuristic,cho thấy những gì phân phối lấy mẫu của một (t, Chi-bình phương, hoặc F) Thống kê nên được, nhưng nó không phải là dispositive. Niềm tin rằng đó là chủ ý dẫn đến lỗi nghiêm trọng. (Ví dụ, lượt truy cập hàng đầu trên Google khi tìm kiếm "chi bình phương phù hợp" là một trang web từ một trường đại học thuộc Ivy League , hầu hết đều sai hoàn toàn! Đặc biệt, một mô phỏng dựa trên hướng dẫn của nó cho thấy chi bình phương giá trị nó khuyến nghị là có 7 DF thực sự có 9 DF.)

Với sự hiểu biết nhiều sắc thái này, đáng để đọc lại bài viết Wikipedia được đề cập: trong chi tiết của nó, mọi thứ trở nên đúng đắn, chỉ ra nơi mà heuristic DF có xu hướng hoạt động và nơi đó là một xấp xỉ hoặc hoàn toàn không áp dụng.


Một tài khoản tốt về hiện tượng được minh họa ở đây (DF cao bất ngờ trong các bài kiểm tra GOF bình phương) xuất hiện trong Tập II của Kendall & Stuart, ấn bản thứ 5 . Tôi biết ơn cơ hội dành cho câu hỏi này để đưa tôi trở lại văn bản tuyệt vời này, nơi chứa đầy những phân tích hữu ích như vậy.


Chỉnh sửa (tháng 1 năm 2017)

Đây là Rmã để tạo ra con số theo "Sự khôn ngoan tiêu chuẩn về DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Đây là một câu trả lời tuyệt vời. Bạn giành chiến thắng tại internet cho điều này.
Adam

6
@caracal: như bạn đã biết, phương pháp ML cho dữ liệu gốc là thường xuyên và rộng rãi: cho phân phối chuẩn, ví dụ, MLE của là trung bình mẫu và MLE của σ là căn bậc hai của độ lệch chuẩn mẫu ( mà không sự điều chỉnh sai lệch thông thường). Để có được ước tính dựa trên số đếm, tôi đã tính hàm khả năng cho số đếm - điều này đòi hỏi các giá trị tính toán của CDF tại các điểm cắt, lấy nhật ký của chúng, nhân với số đếm và cộng lại - và tối ưu hóa nó bằng phần mềm tối ưu hóa chung. μσ
whuber

4
@caracal Có thể bạn không còn cần nó nữa, nhưng một ví dụ về Rmã cho ML phù hợp với dữ liệu đã bị đánh cắp hiện xuất hiện trong một câu hỏi liên quan: stats.stackexchange.com/a/34894 .
whuber

1
"Vấn đề với lý do này (đó là cách tính toán mà các trích dẫn trong câu hỏi đang ám chỉ) là nó sai trừ khi một số điều kiện bổ sung đặc biệt giữ." Bây giờ tôi (gần như) thông qua hai học kỳ của chuỗi mô hình tuyến tính và tôi hiểu mức độ tự do là thứ hạng của ma trận ở "giữa" của dạng bậc hai. Những "điều kiện bổ sung" này là gì?
Clarinetist

4
@Clarinetist Điểm chính trong câu trả lời của tôi là đề xuất rằng những gì bạn đã được dạy dựa trên sự nhầm lẫn của hai khái niệm về DF. Mặc dù sự nhầm lẫn đó không gây ra vấn đề gì cho các mô hình lý thuyết bình thường tối thiểu tiêu chuẩn, nó dẫn đến các lỗi ngay cả trong các trường hợp đơn giản, phổ biến như phân tích các bảng dự phòng. Thứ hạng ma trận đó cung cấp cho DF chức năng . Trong một mô hình tuyến tính bình phương nhỏ nhất, nó sẽ đưa ra DF chính xác cho các loại thử nghiệm nhất định, chẳng hạn như thử nghiệm F. Đối với bài kiểm tra chi bình phương, các điều kiện đặc biệt được liệt kê sau trong câu trả lời là điểm (1) và (2).
whuber

74

Hoặc đơn giản là: số phần tử trong một mảng số mà bạn được phép thay đổi để giá trị của thống kê không thay đổi.

# for instance if:
x + y + z = 10

ví dụ, bạn có thể thay đổi xy một cách ngẫu nhiên, nhưng bạn không thể thay đổi z (bạn có thể, nhưng không phải ngẫu nhiên, do đó bạn không được tự do thay đổi - xem bình luận của Harvey), vì bạn sẽ thay đổi giá trị của thống kê (Σ = 10). Vì vậy, trong trường hợp này df = 2.


19
Nó không hoàn toàn chính xác để nói "bạn không thể thay đổi z". Trong thực tế, bạn phải thay đổi z để tổng số bằng 10. Nhưng bạn không có lựa chọn (không có tự do) về những gì nó thay đổi. Bạn có thể thay đổi bất kỳ hai giá trị, nhưng không thay đổi giá trị thứ ba.
Harvey Motulsky

53

Khái niệm này hoàn toàn không khó để đưa ra chính xác toán học với một chút kiến ​​thức chung về hình học Euclide -chiều, không gian con và các phép chiếu trực giao.viết sai rồi

Nếu là một chiếu trực giao từ R n đến một p chiều không gian con Lx là một tùy ý n -vector rồi P x là trong L , x - P xP x là trực giao và x - P x L là trong sự bổ sung trực giao của L . Kích thước của bổ sung trực giao này, L , là n - p . Nếu nhưPRviết sai rồipLxviết sai rồiPxLxPxPxxPxLLLnp là tự do thay đổi trong mộtkhông gian hai chiều n thì x - P x được tự do thay đổi trongkhông gian n - p chiều. Vì lý do này, chúng tôi nói rằng x - P x n - p bậc tự do.xnxPxnpxPxnp

Những cân nhắc này rất quan trọng đối với thống kê vì nếu là một vectơ ngẫu nhiên n chiều và L là một mô hình của giá trị trung bình của nó, nghĩa là vectơ trung bình E ( X ) nằm trong L , thì chúng ta gọi X - P X là vectơ của phần dư và chúng tôi sử dụng phần dư để ước tính phương sai. Vectơ của phần dư có n - p bậc tự do, nghĩa là, nó bị giới hạn trong một không gian con có kích thước n - p .XnLE(X)LXPXnpnp

Nếu tọa độ của độc lập và thường được phân phối với cùng phương sai σ 2 thìXσ2

  • Các vectơ X - P X là độc lập.PXXPX
  • Nếu sự phân bố của các chỉ tiêu bình phương của vector của dư | | X - P X | | 2 là phân phối χ 2 với tham số tỷ lệ σ 2 và một tham số khác xảy ra là bậc tự do n - p .E(X)L||XPX||2χ2σ2np

Bản phác thảo bằng chứng về những sự thật này được đưa ra dưới đây. Hai kết quả là trung tâm cho sự phát triển hơn nữa của lý thuyết thống kê dựa trên phân phối chuẩn. Cũng lưu ý rằng đây là lý do tại sao phân phối có tham số hóa. Nó cũng là một Γ -distribution với tham số quy mô 2 σ 2 và tham số hình dạng ( n - p ) / 2 , nhưng trong bối cảnh trên đó là tự nhiên để parametrize về mức độ tự do.χ2Γ2σ2(np)/2

Tôi phải thừa nhận rằng tôi không tìm thấy bất kỳ đoạn nào được trích dẫn từ bài viết trên Wikipedia đặc biệt khai sáng, nhưng chúng cũng không thực sự sai hoặc mâu thuẫn. Họ nói một cách thiếu chính xác và theo nghĩa lỏng lẻo chung chung, rằng khi chúng ta tính toán ước lượng của tham số phương sai, nhưng làm như vậy dựa trên phần dư, chúng ta dựa vào tính toán trên một vectơ chỉ tự do thay đổi trong một không gian có kích thước .np

Ngoài lý thuyết về mô hình bình thường tuyến tính, việc sử dụng khái niệm bậc tự do có thể gây nhầm lẫn. Ví dụ, nó được sử dụng trong tham số của phân phối cho dù có hay không có tham chiếu đến bất cứ điều gì có thể có bất kỳ mức độ tự do nào. Khi chúng tôi xem xét phân tích thống kê dữ liệu phân loại, có thể có một số nhầm lẫn về việc "các phần độc lập" nên được tính trước hay sau khi lập bảng. Hơn nữa, đối với các ràng buộc, ngay cả đối với các mô hình bình thường, không phải là các ràng buộc không gian con, không rõ ràng làm thế nào để mở rộng khái niệm về mức độ tự do. Nhiều đề xuất khác nhau tồn tại dưới tên của mức độ tự do hiệu quả .χ2

Trước khi bất kỳ cách sử dụng và ý nghĩa khác của mức độ tự do được xem xét, tôi sẽ khuyến nghị mạnh mẽ để trở nên tự tin với nó trong bối cảnh của các mô hình bình thường tuyến tính. Một tài liệu tham khảo liên quan đến lớp mô hình này là Khóa học đầu tiên về Lý thuyết mô hình tuyến tính và có các tài liệu tham khảo bổ sung trong lời nói đầu của cuốn sách cho các cuốn sách cổ điển khác về mô hình tuyến tính.

Bằng chứng về kết quả trên: Hãy , lưu ý rằng ma trận phương sai là σ 2 tôi và chọn một trực giao cơ sở z 1 , ... , z p của L và một trực giao cơ sở z p + 1 , ... , z n của L . Sau đó, z 1 , ... , z n là một cơ sở trực giao của R n . Hãy ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRviết sai rồiX~biểu thị -vector của các hệ số của X trong cơ sở đó, có nghĩa là ~ X i = z T i X . Điều này cũng có thể được viết là ˜ X = Z T X trong đó Z là ma trận trực giao với z i 's trong các cột. Sau đó, chúng ta phải sử dụng ~ X có phân phối chuẩn với trung bình Z T ξ và, vì Z là trực giao, ma trận sai σ 2 tôiviết sai rồiX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I. Điều này xuất phát từ kết quả biến đổi tuyến tính chung của phân phối bình thường. Các cơ sở được chọn sao cho các hệ số của ~ X i cho i = 1 , ... , p , và các hệ số của X - P X~ X i cho i = p + 1 , ... , n . Kể từ khi hệ số là không tương quan và cùng bình thường, họ là độc lập, và điều này ngụ ý rằng P X = p Σ iPXX~TôiTôi= =1,Giáo dục,pX-PXX~TôiTôi= =p+1,Giáo dục,viết sai rồiX-PX= n Σ i = p + 1 ~ X izi là độc lập. Hơn nữa, | | X-PX| | 2= n i = p + 1 ˜ X 2 i . NếuξLsau đóE( ~ X i
PX= =ΣTôi= =1pX~TôizTôi
X-PX= =ΣTôi= =p+1viết sai rồiX~TôizTôi
||XPX||2=i=p+1nX~i2.
ξL cho i = p + 1 , ... , n bởi vì khi đó z iL và do đó z iξ . Trong trường hợp này | | X - P X | | 2 là tổng của n - p độc lập N ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)-Các biến ngẫu nhiên phân phối, có phân phối, theo định nghĩa, là phân phối với tham số tỷ lệ σ 2n - p bậc tự do.χ2σ2np

NRH, Cảm ơn! (1) Tại sao bắt buộc phải ở trong L ? (2) Tại sao P XX - P X độc lập? (3) Là dof trong bối cảnh biến ngẫu nhiên được xác định từ dof trong trường hợp xác định của nó? Ví dụ, là lý do cho | | X - P X | | 2 có dof n - p vì nó đúng khi X là biến xác định thay vì biến ngẫu nhiên? (4) Có tài liệu tham khảo (sách, giấy tờ hoặc liên kết) có cùng quan điểm / tương tự như của bạn không?E(X)LPXXPX||XPX||2npX
Tim

@Tim, X - P X là độc lập, vì chúng là bình thường và không tương quan. PXXPX
mpiktas

@Tim, tôi đã điều chỉnh lại câu trả lời một chút và đưa ra bằng chứng về kết quả đã nêu. Giá trị trung bình được yêu cầu là để chứng minh kết quả về phân phối χ 2 . Đó là một giả định mô hình. Trong tài liệu bạn nên tìm các mô hình bình thường tuyến tính hoặc mô hình tuyến tính nói chung, nhưng ngay bây giờ tôi chỉ có thể nhớ lại một số ghi chú bài giảng cũ, chưa được công bố. Tôi sẽ xem nếu tôi có thể tìm thấy một tài liệu tham khảo phù hợp. Lχ2
NRH

Câu trả lời tuyệt vời. Cảm ơn vì sự sáng suốt. Một câu hỏi: Tôi đã bị mất ý của bạn bởi cụm từ "vectơ trung bình nằm trong L ". Bạn có thể giải thích? Bạn đang cố gắng xác định E ? để định nghĩa L ? thứ gì khác? Có lẽ câu này đang cố gắng làm quá nhiều hoặc quá súc tích đối với tôi. Bạn có thể xây dựng các định nghĩa về là những gì E trong bối cảnh mà bạn đề cập đến: là nó chỉ E ( x 1 , x 2 , ... , x n ) = ( x 1 + x 2 + + xEXLELE ? Bạn có thể giải thích về L trong bối cảnh này (tọa độ iid bình thường) không? Có phải chỉ là L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW là toán tử kỳ vọng. Vì vậy, E ( X ) là vector của những kỳ vọng coordinatewise của X . Không gian con L là bất kỳ không gian con p chiều nào của R n . Đó là một không gian của n -vector và chắc chắn không phải R , nhưng nó rất có thể là một chiều. Ví dụ đơn giản nhất có lẽ là khi nó được kéo dài bởi 1 -vector với 1 ở tất cả n -ordord. Đây là mô hình của tất cả các tọa độ của X có cùng giá trị trung bình, nhưng có thể có nhiều mô hình phức tạp hơn. EE(X)XLpRnnR1nX
NRH

30

Nó thực sự không khác với cách thuật ngữ "bậc tự do" hoạt động trong bất kỳ lĩnh vực nào khác. Ví dụ: giả sử bạn có bốn biến: chiều dài, chiều rộng, diện tích và chu vi của hình chữ nhật. Bạn có thực sự biết bốn điều? Không, bởi vì chỉ có hai bậc tự do. Nếu bạn biết chiều dài và chiều rộng, bạn có thể lấy được diện tích và chu vi. Nếu bạn biết chiều dài và diện tích, bạn có thể lấy được chiều rộng và chu vi. Nếu bạn biết diện tích và chu vi, bạn có thể lấy được chiều dài và chiều rộng (tối đa cho phép quay). Nếu bạn có tất cả bốn, bạn có thể nói rằng hệ thống phù hợp (tất cả các biến đồng ý với nhau) hoặc không nhất quán (không có hình chữ nhật nào thực sự có thể đáp ứng tất cả các điều kiện). Một hình vuông là một hình chữ nhật với một mức độ tự do được loại bỏ;

Trong thống kê, mọi thứ trở nên mờ nhạt hơn, nhưng ý tưởng vẫn giống nhau. Nếu tất cả dữ liệu bạn đang sử dụng làm đầu vào cho hàm là các biến độc lập, thì bạn có nhiều mức độ tự do như bạn có đầu vào. Nhưng nếu họ có sự phụ thuộc theo một cách nào đó, như vậy nếu bạn có đầu vào n - k, bạn có thể tìm ra k còn lại, thì bạn thực sự chỉ có n - k bậc tự do. Và đôi khi bạn cần tính đến điều đó, vì sợ bạn tự thuyết phục rằng dữ liệu đáng tin cậy hơn hoặc có sức mạnh dự đoán hơn so với thực tế, bằng cách đếm nhiều điểm dữ liệu hơn bạn thực sự có các bit dữ liệu độc lập.

(Lấy từ một bài đăng tại http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Hơn nữa, cả ba định nghĩa gần như đang cố gắng đưa ra một thông điệp giống nhau.


1
Về cơ bản là đúng, nhưng tôi lo ngại rằng đoạn giữa có thể được đọc theo cách gây nhầm lẫn giữa tương quan, tính độc lập (của các biến ngẫu nhiên) và tính độc lập chức năng (của một đa dạng các tham số). Sự khác biệt tương quan-độc lập là đặc biệt quan trọng để duy trì.
whuber

@whuber: bây giờ có ổn không?
Biuler

3
Điều đó đúng, nhưng cách nó sử dụng thuật ngữ có thể khiến một số người nhầm lẫn. Nó vẫn không phân biệt rõ ràng sự phụ thuộc của các biến ngẫu nhiên với sự phụ thuộc chức năng. Ví dụ, hai biến trong phân phối chuẩn bivariate (không biến đổi) với tương quan khác không sẽ phụ thuộc (như các biến ngẫu nhiên) nhưng chúng vẫn cung cấp hai bậc tự do.
whuber

5
Đây là bản sao được dán từ một bài đăng reddit tôi đã thực hiện vào năm 2009 .
hobbs

2
Trung tâm trợ giúp của chúng tôi cung cấp hướng dẫn rõ ràng về cách tham chiếu tài liệu do người khác viết , vì vậy tôi hy vọng OP sẽ quay lại bài đăng này để có hành động phù hợp và tham gia vào các tương tác mang tính xây dựng (mặc dù chúng tôi đã không thấy anh ấy trong một thời gian).
chl

19

Tôi thực sự thích câu đầu tiên trong cuốn Cẩm nang nhỏ về thực hành thống kê. Chương tự do

Một trong những câu hỏi mà một Barsutor sợ nhất từ ​​một khán giả không tinh tế về mặt toán học là "Chính xác thì mức độ tự do là gì?"

Tôi nghĩ bạn có thể hiểu rất rõ về mức độ tự do khi đọc chương này.


6
Sẽ thật tốt khi có một lời giải thích cho lý do tại sao mức độ tự do là quan trọng, thay vì chỉ là những gì nó là. Chẳng hạn, cho thấy ước tính phương sai với 1 / n là sai lệch nhưng sử dụng 1 / (n-1) sẽ mang lại một công cụ ước tính không thiên vị.
Tristan

9

Wikipedia khẳng định rằng mức độ tự do của một vectơ ngẫu nhiên có thể được hiểu là các kích thước của không gian con vectơ. Tôi muốn đi từng bước một, về cơ bản thông qua điều này như là một câu trả lời một phần và chi tiết về mục Wikipedia.

Ví dụ được đề xuất là một vectơ ngẫu nhiên tương ứng với các phép đo của một biến liên tục cho các đối tượng khác nhau, được biểu thị dưới dạng một vectơ kéo dài từ gốc . Hình chiếu trực giao của nó trên vectơ [ 1[abc]T kết quả trong một vector bằng với dự báo của các vector của phương tiện đo lường ( ˉ x = 1 / 3 ( một + b + c ) ), tức là [ ˉ x[111]Tx¯=1/3(a+b+c), chấm vớivectơ1 ,[1[x¯x¯x¯]T1 Phép chiếu này lên không gian con được kéo dài bởi vectơ của những cái có 1[111]T . Cácvector (khoảng cách từ giá trị trung bình) là chiếu bình phương nhỏ nhất vào ( n - 1 ) bổ sung trực giao chiều của không gian con này, và có n - 11degree of freedom(n1) , n là tổng số của các thành phần của vector (trong trường hợp của chúng tôi 3 kể từ khi chúng tôi đang trong R 3 trong ví dụ) .Đây có thể chỉ cần chứng minh bằng cách lấy dấu chấm sản phẩm của [ ˉ xn1degrees of freedomn3R3với sự khác biệt giữa[a[x¯x¯x¯]T [ ˉ x[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

.

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

Và mối quan hệ này mở rộng đến bất kỳ điểm nào trong mặt phẳng trực giao với . Khái niệm này rất quan trọng để hiểu tại sao1[x¯x¯x¯]T , một bước đi nguồn gốc của phân phối t (ở đâyở đây).1σ2((X1X¯)2++(XnX¯)2)χn12

Hãy lấy điểm , tương ứng với ba quan sát. Giá trị trung bình là 55 và vectơ [ 55[355080]T55 là bình thường (trực giao) vào một máy bay, 55 x + 55 y + 55 z = D . Cắm tọa độ điểm vào phương trình mặt phẳng, D = - 9075 .[555555]T55x+55y+55z=DD=9075

Bây giờ chúng ta có thể chọn bất kỳ điểm nào khác trong mặt phẳng này và giá trị trung bình của tọa độ của nó sẽ là , tương ứng về mặt hình học với hình chiếu của nó lên vectơ [ 155 . Do đó với mỗi giá trị trung bình (trong ví dụ của chúng tôi, 55 ), chúng tôi có thể chọn vô sốcặptọa độ trong R 2 mà không bị hạn chế ( 2[111]T55R2 ); Tuy nhiên, vì mặt phẳng nằm trong R 3 , tọa độ thứ ba sẽ được xác định bởi phương trình của mặt phẳng (hoặc, về mặt hình học hình chiếu trực giao của điểm lên [ 552degrees of freedomR3 .[555555]T

Dưới đây là đại diện của ba điểm (màu trắng) nằm trên mặt phẳng (màu xanh cerulean) trực giao với (mũi tên): [ 35[555555]T , [ 80[355080]T [ 90[80805] tất cả chúng trên mặt phẳng (không gian con có 2[901560] ), và sau đó với giá trị trung bình của các thành phần là 55 và phép chiếu trực giao thành [ 12df55 (không gian con với 1[111]T ) bằng [ 551df :[555555]T


9

Trong các lớp học của mình, tôi sử dụng một tình huống "đơn giản" có thể giúp bạn tự hỏi và có lẽ phát triển cảm giác ruột thịt về mức độ tự do có nghĩa là gì.

Đây là một cách tiếp cận "Forrest Gump" cho chủ đề này, nhưng nó đáng để thử.

Hãy xem xét bạn có 10 quan sát độc lập đi kèm ngay từ dân bình thường có nghĩa là μ và phương sai σ 2 chưa được biết.X1,X2,,X10N(μ,σ2)μσ2

Quan sát của bạn mang đến cho bạn chung thông tin cả về σ 2 . Sau khi tất cả, quan sát của bạn có xu hướng bị lây lan xung quanh một giá trị trung ương, mà nên được gần với giá trị thực tế và không rõ của μ và tương tự như vậy, nếu μ là rất cao hoặc rất thấp, sau đó bạn có thể mong đợi để xem quan sát của bạn vây quanh một giá trị rất cao hoặc rất thấp tương ứng. Một tốt "thay thế" cho μ (trong trường hợp không hiểu biết về giá trị thực tế của nó) là ˉ X , tỷ lệ trung bình của sự quan sát của bạn. μσ2μμμX¯

Ngoài ra, nếu quan sát của bạn rất gần gũi với nhau, đó là một dấu hiệu cho thấy bạn có thể hy vọng rằng phải nhỏ, và tương tự như vậy, nếu σ 2 là rất lớn, sau đó bạn có thể mong đợi để xem các giá trị cực kỳ khác nhau cho X 1 để X 10 . σ2σ2X1X10

Nếu bạn đặt cược mức lương trong tuần của mình vào đó phải là giá trị thực tế của σ 2 , bạn sẽ cần chọn một cặp giá trị mà bạn sẽ đặt cược tiền của mình. Đừng nghĩ về bất cứ điều gì là kịch tính như mất tiền lương của bạn, trừ khi bạn đoán μ đúng cho tới khi vị trí thập phân thứ 200 của mình. Không. Hãy nghĩ về một số loại hệ thống prizing rằng gần bạn đoán μσ 2 bạn càng được khen thưởng.μσ2μμσ2

Trong một nghĩa nào đó, tốt hơn, hiểu biết hơn, và đoán lịch sự hơn cho giá trị 's có thể là ˉ X . Trong ý nghĩa đó, bạn ước tính rằng μ phải có một số giá trị xung quanh ˉ X . Tương tự như vậy, một trong những tốt "thay thế" cho σ 2 (không cần thiết cho bây giờ) là S 2 , phương sai mẫu của bạn, mà làm cho một ước lượng tốt cho σ .μX¯μX¯σ2S2σ

Nếu bạn tin rằng những sự thay thế đó là giá trị thực của σ 2 , thì có lẽ bạn đã sai, bởi vì rất mong manh là bạn đã rất may mắn khi các quan sát của bạn phối hợp để có được món quà ˉ X bằng nhau để LS 2 bằng σ 2 . Không, có lẽ nó đã không xảy ra.μσ2X¯μS2σ2

Nhưng bạn có thể ở các mức độ sai khác nhau, thay đổi từ sai một chút sang thực sự, thực sự, thực sự sai lầm thảm hại (hay còn gọi là "Tạm biệt, trả lương; hẹn gặp lại vào tuần tới!").

Ok, giả sử bạn đã lấy như dự đoán của bạn cho μ . Chỉ xem xét hai kịch bản: S 2 = 2S 2 = 20 , 000 , 000 . Đầu tiên, các quan sát của bạn ngồi khá đẹp và gần nhau. Sau này, các quan sát của bạn rất khác nhau. Trong kịch bản nào bạn nên quan tâm hơn với những mất mát tiềm năng của mình? Nếu bạn nghĩ đến cái thứ hai, bạn đã đúng. Có một ước tính khoảng σ 2 thay đổi niềm tin của bạn vào đặt cược của bạn rất hợp lý, vì càng lớn σ 2 là, rộng hơn bạn có thể mong đợi ˉ XX¯μS2=2S2=20,000,000σ2σ2X¯ để thay đổi.

Nhưng, ngoài thông tin về σ 2 , quan sát của bạn cũng thực hiện một số lượng biến động ngẫu nhiên chỉ thuần túy đó không phải là thông tin không phải về μ cũng không về σ 2 . μσ2μσ2

Làm thế nào bạn có thể nhận thấy nó?

Vâng, chúng ta hãy giả định, vì lợi ích của các đối số, rằng có một Thiên Chúa và Ngài có thời gian rảnh rỗi, đủ để cung cấp cho chính mình những sự phù phiếm của bạn nói cụ thể là giá trị thực tế (và cho đến nay chưa được biết) của cả hai σ .μσ

Và đây là cốt truyện khó chịu của câu chuyện lysergic này: Anh ấy nói với bạn sau khi bạn đặt cược. Có lẽ để soi sáng cho bạn, có lẽ để chuẩn bị cho bạn, có lẽ để chế giễu bạn. Làm thế nào bạn có thể biết?

Vâng, đó là làm cho các thông tin về σ 2 chứa trong quan sát của bạn khá vô dụng bây giờ. Vị trí trung tâm của các quan sát của bạn ˉ X và phương sai S 2 không còn giúp ích gì nữa để đến gần hơn với các giá trị thực tế của μσ 2 , vì bạn đã biết chúng.μσ2X¯S2μσ2

Một trong những lợi ích của người quen tốt của bạn với Thiên Chúa là bạn thực sự biết bao nhiêu bạn thất bại trong việc đoán một cách chính xác bằng cách sử dụng ˉ X , nghĩa là ( ˉ X - μ ) lỗi ước lượng của bạn.μX¯(X¯μ)

Vâng, vì , sau đó ˉ X ~ N ( μ , σ 2 / 10 ) (tôi tin tưởng ở chỗ nếu bạn sẽ), cũng ( ˉ X - μ ) ~ N ( 0 , σ 2 / 10 ) (ok, tôi tin tưởng rằng trong quá trên) và cuối cùng, ˉ X - μXiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10) (đoán những gì? Tin tưởng tôi trong một điều đó là tốt), có thể mang theo hoàn toàn không có thông tin vềμhoặcσ2.

X¯μσ/10N(0,1)
μσ2

Bạn biết gì? Nếu bạn mất bất kỳ quan sát cá nhân của bạn như một đoán cho , lỗi ước lượng của bạn ( X i - μ ) sẽ được phân phối như N ( 0 , σ 2 ) . Vâng, giữa ước lượng μ với ˉ X và bất kỳ X i , chọn ˉ X sẽ kinh doanh tốt hơn, bởi vì V một r ( ˉ X ) = σ 2 / 10 < σ 2 = Vμ(Xiμ)N(0,σ2)μX¯XiX¯ , vì vậy ˉ X là ít bị được lạc lối từ μ hơn một cá nhân X i .Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

Dù sao, cũng là hoàn toàn không cung cấp thông tin về không μ cũng không σ 2 .(Xiμ)/σN(0,1)μσ2

"Câu chuyện này sẽ bao giờ kết thúc?" bạn có thể đang suy nghĩ Bạn cũng có thể suy nghĩ "Có bất kỳ biến động ngẫu nhiên hơn đó là không nhiều thông tin về σ 2 ?".μσ2

[Tôi thích nghĩ rằng bạn đang nghĩ về cái sau.]

Có, có!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). Mỗi một trong những phân phối Chi bình phương duy nhất là một đóng góp cho số lượng biến thiên ngẫu nhiên mà bạn sẽ phải đối mặt, với cùng số tiền đóng góp vào tổng.

Giá trị của mỗi đóng góp không bằng toán học với chín phần còn lại, nhưng tất cả chúng đều có cùng một hành vi dự kiến ​​trong phân phối. Theo nghĩa đó, chúng bằng cách nào đó đối xứng.

Mỗi một trong những hình vuông Chi là một đóng góp cho số lượng biến thiên ngẫu nhiên, thuần túy mà bạn nên mong đợi trong tổng đó.

Nếu bạn có 100 quan sát, số tiền ở trên sẽ được dự kiến ​​sẽ lớn hơn chỉ vì nó có nhiều nguồn tranh luận hơn .

Mỗi "nguồn đóng góp" có cùng hành vi có thể được gọi là mức độ tự do .

Bây giờ hãy lùi lại một hoặc hai bước, đọc lại các đoạn trước nếu cần để đáp ứng sự xuất hiện đột ngột của mức độ tự do tìm kiếm của bạn .

μσ2

Vấn đề là, bạn bắt đầu tin tưởng vào hành vi của 10 nguồn biến thiên tương đương đó. Nếu bạn có 100 quan sát, bạn sẽ có 100 nguồn biến động ngẫu nhiên hoàn toàn ngẫu nhiên đối với tổng đó.

χ102χ12

μσ2

μσ2

Mọi thứ bắt đầu trở nên kỳ lạ (Hahahaha; chỉ bây giờ!) Khi bạn nổi loạn chống lại Thiên Chúa và cố gắng tự mình hòa thuận, mà không mong đợi Ngài bảo trợ bạn.

X¯S2μσ2

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"Có phải tất cả chẳng vì gì?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.

Thuật ngữ đầu tiên có phân phối Chi bình phương với 10 bậc tự do và thuật ngữ cuối cùng có phân phối Chi bình phương với một bậc tự do (!).

Chúng tôi chỉ đơn giản chia một bình phương Chi với 10 nguồn biến đổi độc lập tương đương nhau thành hai phần, cả hai đều tích cực: một phần là bình phương Chi với một nguồn biến đổi và phần còn lại chúng tôi có thể chứng minh (bước nhảy vọt của WO? ) cũng là một hình vuông Chi với 9 (= 10-1) nguồn biến đổi hoạt động như nhau độc lập, với cả hai phần độc lập với nhau.

Đây đã là một tin tốt, vì bây giờ chúng tôi có phân phối của nó.

σ2

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

t

[^ 1]: @whuber nói trong các bình luận bên dưới rằng Gosset không làm toán mà thay vào đó là đoán ! Tôi thực sự không biết chiến công nào đáng ngạc nhiên hơn vào thời điểm đó.

t(101)X¯μS2X¯

Có bạn đi. Với rất nhiều chi tiết kỹ thuật bị cuốn theo phía sau tấm thảm, nhưng không chỉ phụ thuộc vào sự can thiệp của Chúa để đặt cược một cách nguy hiểm toàn bộ tiền lương của bạn.


1
1010

Cảm ơn bạn rất nhiều vì đánh giá của bạn, @whuber! Thật đáng ngạc nhiên khi có nhiều lỗi chính tả bật lên khi bạn quên những gì bạn đã viết. Về đánh giá của bạn, tôi dự định chỉ để minh họa một cách suy nghĩ khác - một chút ít toán học trong một số ý nghĩa. Ngoài ra, tôi không nắm bắt được đầy đủ ý nghĩa của bạn Nếu thay vào đó bạn đã tổng hợp 10 biến thể bình thường độc lập thay vì 10 biến thể chi bình phương độc lập, bạn sẽ kết thúc với - một biến thiên bình thường - mà tôi đoán là sẽ giữ điểm chính của bạn . Tôi sẽ cố gắng xây dựng về nó, hy vọng sẽ cải thiện bài viết.
Marcelo Ventura

2

Một lời giải thích trực quan về mức độ tự do là chúng đại diện cho số lượng thông tin độc lập có sẵn trong dữ liệu để ước tính một tham số (nghĩa là số lượng chưa biết) quan tâm .

Ví dụ, trong một mô hình hồi quy tuyến tính đơn giản có dạng:

Yi=β0+β1Xi+ϵi,i=1,,n

ϵiσβ0β1nn2n2σ


Cảm ơn rất nhiều vì những chỉnh sửa của bạn cho câu trả lời của tôi, @COOLSerdash!
Isabella Ghement

2

nX1,Giáo dục,Xviết sai rồiΣTôi= =1viết sai rồi(XTôi-X¯viết sai rồi)2~Xviết sai rồi-12X¯viết sai rồi= =1viết sai rồiΣTôi= =1viết sai rồiXTôiviết sai rồi-1(X¯viết sai rồi= =1viết sai rồiΣTôi= =1viết sai rồiXTôi)

Để biết thêm thông tin xem này


0

Đối với tôi lời giải thích đầu tiên tôi hiểu là:

Nếu bạn biết một số giá trị thống kê như giá trị trung bình hoặc biến thể, có bao nhiêu biến số dữ liệu bạn cần biết trước khi bạn có thể biết giá trị của mỗi biến?

Điều này giống như aL3xa đã nói, nhưng không đưa ra bất kỳ điểm dữ liệu nào có vai trò đặc biệt và gần với trường hợp thứ ba được đưa ra trong câu trả lời. Theo cách này, ví dụ tương tự sẽ là:

Nếu bạn biết giá trị trung bình của dữ liệu, bạn cần biết các giá trị cho tất cả trừ một điểm dữ liệu, để biết giá trị cho tất cả các điểm dữ liệu.


Biến -> quan sát
Richard Hardy

0

xyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1x1x¯=0i=1n(xix¯)2n100xn=2x1x2x¯=x1+x22x¯x1x2nx¯nn1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.