Tôi sẽ không làm lại B e t a ( k - 12 ,n - k2 )phân phối trong câu trả lời tuyệt vời của @ Alecos (đó là kết quả chuẩn, xemtại đâyđể biết một cuộc thảo luận tốt đẹp khác) nhưng tôi muốn điền thêm chi tiết về hậu quả! Đầu tiên, phân phối null củaR2trông như thế nào đối với một phạm vi các giá trị củanvàk? Biểu đồ trong câu trả lời của @ Alecos khá tiêu biểu cho những gì xảy ra trong nhiều hồi quy thực tế, nhưng đôi khi cái nhìn sâu sắc được lượm lặt dễ dàng hơn từ các trường hợp nhỏ hơn. Tôi đã bao gồm giá trị trung bình, chế độ (nơi nó tồn tại) và độ lệch chuẩn. Biểu đồ / bảng xứng đáng là một nhãn cầu tốt:được xem tốt nhất ở kích thước đầy đủ. Tôi có thể bao gồm ít khía cạnh hơn nhưng mô hình sẽ ít rõ ràng hơn; Tôi đã nốiBeta(k−12,n−k2)R2nkR
mã để người đọc có thể thử nghiệm với các tập con khác nhau của n và k .nk
Giá trị của các tham số hình dạng
Bảng màu của biểu đồ cho biết mỗi tham số hình dạng nhỏ hơn một (màu đỏ), bằng một (màu xanh) hay nhiều hơn một (màu xanh lá cây). Bên trái, tay phải phía chương trình giá trị của α trong khi β là ở bên phải. Vì α = k - 1αβ2 , giá trị của nó tăng theo tiến trình số học bởi sự khác biệt chung là1α=k−122 như chúng tôi di chuyển ngay từ cột đến cột (thêm một regressor để mô hình của chúng tôi) trong khi, đối với cố địnhn,β=n-k12n2 giảm1β=n−k22 . Tổngα+β=n-1122 được cố định cho mỗi hàng (đối với một cỡ mẫu nhất định). Nếu thay vào đó chúng tôi sửa chữakvà di chuyển xuống các cột (tăng kích thước mẫu bằng 1), sau đóαtrú liên tục vàβtăng1α+β=n−12kαβ2 . Xét về hồi quy,αlà một nửa số hồi quy đưa vào mô hình, vàβlà một nửa độ còn lại của tự do. Để xác định hình dạng của phân phối của chúng tôi đặc biệt quan tâm đến nơiαhoặcβbằng một.12αβαβ
Đại số đơn giản cho α : chúng ta có k - 1α2 =1nênk=3. Đây thực sự là cột duy nhất của cốt truyện khía cạnh đầy màu xanh bên trái. Tương tựα<1chok<3(cộtk=2có màu đỏ ở bên trái) vàα>1chok>3(từ cộtk=4trở đi, bên trái có màu xanh lá cây).k−12=1k=3α<1k<3k=2α>1k>3k=4
Đối với β = 1 chúng tôi có n - kβ=12 =1do đók=n-2. Lưu ý cách các trường hợp này (được đánh dấu bằng một bên phải màu xanh) cắt một đường chéo trên biểu đồ khía cạnh. Đối vớiβ>1ta đượck<n-2(các đồ thị với một bên lời nói dối xanh trái để bên trái của đường chéo). Vớiβ<1,chúng ta cầnk>n-2, chỉ liên quan đến hầu hết các trường hợp đúng trên biểu đồ của tôi: tạin=kchúng ta cóβ=0và phân phối bị suy biến, nhưngnn−k2=1k=n−2β>1k<n−2β<1k>n−2n=kβ=0= k - 1 trong đó β = 1n=k−12 được vẽ (bên phải màu đỏ).β=12
Vì PDF là f ( x ;α ,β ) α x α - 1 ( 1 - x ) β - 1 , rõ ràng là nếu (và chỉ nếu) α < 1 thì f ( x ) → ∞ như x → 0 . Chúng ta có thể thấy điều này trong biểu đồ: khi phía bên trái được tô màu đỏ, quan sát hành vi tại 0. Tương tự như vậy khi β < 1 thì f ( x ) → ∞ như x → 1 . Nhìn chỗ bên phải màu đỏ!f(x;α,β)∝xα−1(1−x)β−1α<1f(x)→∞x→0β<1f(x)→∞x→1
Đối xứng
Một trong những tính năng bắt mắt nhất của biểu đồ là mức độ đối xứng, nhưng khi phân phối Beta có liên quan, điều này không đáng ngạc nhiên!
Sự phân bố Beta chính nó là đối xứng nếu α = β . Đối với chúng tôi, điều này xảy ra nếu n = 2 k - 1 xác định chính xác các bảng ( k = 2 , n = 3 ) , ( k = 3 , n = 5 ) , ( k = 4 , n = 7 ) và ( k = 5 , n = 9 )α=βn=2k−1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9). Mức độ phân phối đối xứng trên R 2 = 0,5 phụ thuộc vào số lượng biến hồi quy mà chúng tôi đưa vào mô hình cho kích thước mẫu đó. Nếu k = n + 1R2=0.52 phân bố củaR2hoàn toàn đối xứng khoảng 0,5; nếu chúng ta bao gồm ít biến hơn thì nó trở nên ngày càng không đối xứng và phần lớn khối lượng xác suất dịch chuyển gần hơn vớiR2=0; nếu chúng ta bao gồm nhiều biến hơn thì nó dịch chuyển gần hơn vớiR2=1. Hãy nhớ rằngkbao gồm phần chặn trong số đếm của nó và chúng ta đang làm việc dưới giá trị null, vì vậy các biến hồi quy phải có hệ số 0 trong mô hình được chỉ định chính xác.k=n+12R2R2=0R2=1k
Ngoài ra còn có sự đối xứng rõ ràng giữa các bản phân phối cho bất kỳ n đã cho , tức là bất kỳ hàng nào trong lưới khía cạnh. Ví dụ: so sánh ( k = 3 , n = 9 ) với ( k = 7 , n = 9 ) . Điều gì gây ra điều này? Nhớ lại rằng sự phân bố của B e t một ( α , β ) là hình ảnh phản chiếu của B e t một ( β , α ) qua xn(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)= 0,5 . Bây giờ chúng ta đã có α k , n = k - 1x=0.52 vàβk,n=n-kαk,n=k−122 . Xétk′=n-k+1và chúng tôi tìm thấy:βk,n=n−k2k′=n−k+1
α k ′ , n = ( n - k + 1 ) - 12 =n-k2 =βk,nβk′,n=n-(n-k+1)
αk′,n=(n−k+1)−12=n−k2=βk,n
2 =k-12 =αk,nβk′,n=n−(n−k+1)2=k−12=αk,n
Vì vậy, điều này giải thích sự đối xứng khi chúng ta thay đổi số lượng hồi quy trong mô hình cho một cỡ mẫu cố định. Nó cũng giải thích các phân phối mà bản thân chúng đối xứng như một trường hợp đặc biệt: đối với chúng, k ′ = k vì vậy chúng có nghĩa vụ phải đối xứng với chính chúng!k′=k
Điều này cho chúng một cái gì đó chúng ta có thể không đoán về nhiều hồi quy: cho một kích thước mẫu cho n , và giả sử không có hồi quy có một mối quan hệ chính hãng với Y , các R 2 cho một mô hình sử dụng k - 1 hồi quy cộng với một đánh chặn có sự phân bố giống như 1 - R 2 làm cho một mô hình với k - 1 độ tự do còn lại .nYR2k−11−R2k−1
Phân phối đặc biệt
Khi k = n chúng ta có β = 0 , mà không phải là một tham số hợp lệ. Tuy nhiên, khi β → 0 phân phối trở nên suy biến với mức tăng sao cho P ( R 2 = 1 ) = 1 . Điều này phù hợp với những gì chúng ta biết về một mô hình có nhiều tham số như điểm dữ liệu - nó đạt được sự phù hợp hoàn hảo. Tôi đã không vẽ phân phối suy biến trên biểu đồ của mình nhưng đã bao gồm giá trị trung bình, chế độ và độ lệch chuẩn.k=nβ=0β→0P(R2=1)=1
Khi k = 2 và n = 3 ta thu được B e t a ( 1k=2n=32 ,12 )đó làphân phối arcsine. Đây là đối xứng (vìα=β) và lưỡng kim (0 và 1). Vì đây là trường hợp duy nhất có cảα<1vàβ<1(được đánh dấu màu đỏ ở cả hai bên), đây là phân phối duy nhất của chúng tôi đi đến vô cùng ở cả hai đầu của hỗ trợ.Beta(12,12)α=βα<1β<1
Các B e t một ( 1 ,1 ) phân phối là phân phối Beta duy nhất códạng hình chữ nhật (thống nhất). Tất cả các giá trị của R 2 từ 0 đến 1 đều có khả năng như nhau. Sự kết hợp duy nhất của k và n mà α = β = 1 xảy ra là k = 3 và n = 5 (đánh dấu màu xanh trên cả hai mặt).Beta(1,1)R2knα=β=1k=3n=5
Các trường hợp đặc biệt trước đây có khả năng áp dụng hạn chế nhưng trường hợp α > 1 và β = 1 (màu xanh lá cây bên trái, màu xanh bên phải) là quan trọng. Bây giờ f ( x ;α>1β=1α ,β ) α x α - 1 ( 1 - x ) β - 1 = x α - 1 vì vậy chúng tôi có mộtphân phối điện rểtrên [0, 1]. Tất nhiên, chúng tôi sẽ không thực hiện hồi quy với k = n - 2 và k > 3 , đó là khi tình huống này xảy ra. Nhưng theo đối số đối xứng trước đó hoặc một số đại số tầm thường trên PDF,khi k = 3 và n > 5f(x;α,β)∝xα−1(1−x)β−1=xα−1k=n−2k>3k=3n>5, đó là quy trình thường xuyên của hồi quy bội với hai biến hồi quy và chặn trên cỡ mẫu không tầm thường, R 2 sẽ tuân theo phân phối luật công suất phản xạ trên [0, 1] theo H 0 . R2H0Điều này tương ứng với α = 1 và β > 1 vì vậy được đánh dấu màu xanh bên trái, màu xanh lá cây bên phải.α=1β>1
Bạn cũng có thể nhận thấy các phân phối tam giác tại ( k = 5 , n = 7 ) và phản xạ của nó ( k = 3 , n = 7 ) . Chúng ta có thể nhận ra từ α và β của họ rằng đây chỉ là những trường hợp đặc biệt của luật phân phối quyền lực và luật phân phối quyền lực trong đó công suất là 2 - 1 = 1 .(k=5,n=7)(k=3,n=7)αβ2−1=1
Chế độ
Nếu α > 1 và β > 1 , tất cả màu xanh lá cây trong ô, f ( x ;α>1β>1α ,β)f(x;α,β) is concave with f(0)=f(1)=0f(0)=f(1)=0, and the Beta distribution has a unique mode α−1α+β−2α−1α+β−2. Putting these in terms of kk and nn, the condition becomes k>3k>3 and n>k+2n>k+2 while the mode is k−3n−5k−3n−5.
All other cases have been dealt with above. If we relax the inequality to allow β=1β=1, then we include the (green-blue) power-law distributions with k=n−2k=n−2 and k>3k>3 (equivalently, n>5n>5). These cases clearly have mode 1, which actually agrees with the previous formula since (n−2)−3n−5=1(n−2)−3n−5=1. If instead we allowed α=1α=1 but still demanded β>1β>1, we'd find the (blue-green) reflected power-law distributions with k=3k=3 and n>5n>5. Their mode is 0, which agrees with 3−3n−5=03−3n−5=0. However, if we relaxed both inequalities simultaneously to allow α=β=1α=β=1, we'd find the (all blue) uniform distribution with k=3k=3 and n=5n=5, which does not have a unique mode. Moreover the previous formula can't be applied in this case, since it would return the indeterminate form 3−35−5=003−35−5=00.
When n=kn=k we get a degenerate distribution with mode 1. When β<1β<1 (in regression terms, n=k−1n=k−1 so there is only one residual degree of freedom) then f(x)→∞f(x)→∞ as x→1x→1, and when α<1α<1 (in regression terms, k=2k=2 so a simple linear model with intercept and one regressor) then f(x)→∞f(x)→∞ as x→0x→0. These would be unique modes except in the unusual case where k=2k=2 and n=3n=3 (fitting a simple linear model to three points) which is bimodal at 0 and 1.
Mean
The question asked about the mode, but the mean of R2R2 under the null is also interesting - it has the remarkably simple form k−1n−1k−1n−1. For a fixed sample size it increases in arithmetic progression as more regressors are added to the model, until the mean value is 1 when k=nk=n. The mean of a Beta distribution is αα+βαα+β so such an arithmetic progression was inevitable from our earlier observation that, for fixed nn, the sum α+βα+β is constant but αα increases by 0.5 for each regressor added to the model.
αα+β=(k−1)/2(k−1)/2+(n−k)/2=k−1n−1
αα+β=(k−1)/2(k−1)/2+(n−k)/2=k−1n−1
Code for plots
require(grid)
require(dplyr)
nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot
totaln <- length(nlist)
totalk <- length(klist)
df <- data.frame(
x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
k = rep(klist, times = totaln, each = 100),
n = rep(nlist, each = totalk * 100)
)
df <- mutate(df,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
density = dbeta(x, (k-1)/2, (n-k)/2),
groupcol = ifelse(x < 0.5,
ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)
g <- ggplot(df, aes(x, density)) +
geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
scale_fill_brewer(palette="Set1") +
facet_grid(nname ~ kname) +
ylab("probability density") + theme_bw() +
labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
theme(panel.margin = unit(0.6, "lines"),
legend.title=element_text(size=20),
legend.text=element_text(size=20),
legend.background = element_rect(colour = "black"),
legend.position = c(1, 1), legend.justification = c(1, 1))
df2 <- data.frame(
k = rep(klist, times = totaln),
n = rep(nlist, each = totalk),
x = 0.5,
ymean = 7.5,
ymode = 5,
ysd = 2.5
)
df2 <- mutate(df2,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
meanR2 = ifelse(k > n, NaN, a/(a+b)),
modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2),
ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)
g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
geom_text(data=df2, aes(x, ymode, label=modetext)) +
geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)