Phân phối của trong hồi quy tuyến tính theo giả thuyết null là gì? Tại sao chế độ của nó không bằng 0 khi ?


26

Phân phối của hệ số xác định, hay R bình phương, , trong hồi quy đa biến tuyến tính đơn biến theo giả thuyết null ?R 2 R2H 0 : β = 0H0:β=0

Làm thế nào nó phụ thuộc vào số lượng dự đoán và số lượng mẫu n> k ? Có một biểu thức dạng đóng cho chế độ phân phối này không?k kn > kn>k

Cụ thể, tôi có cảm giác rằng đối với hồi quy đơn giản (với một yếu tố dự đoán xx ) phân phối này có chế độ ở mức 0, nhưng đối với nhiều hồi quy, chế độ ở giá trị dương khác không. Nếu điều này thực sự đúng, liệu có một lời giải thích trực quan về "giai đoạn chuyển tiếp" này?


Cập nhật

Như @Alecos đã chỉ ra bên dưới, phân phối thực sự đạt cực đại ở mức 0 khi k = 2k=2k = 3k=3 và không ở mức 0 khi k > 3k>3 . Tôi cảm thấy rằng nên có một cái nhìn hình học về quá trình chuyển pha này. Xem xét chế độ xem hình học của OLS: yy là một vectơ trong R nRn , XX định nghĩa một không gian con kk -chiều ở đó. OLS tương đương với việc chiếu yy lên không gian con này và R 2R2 là bình phương cosin của góc giữa yy và hình chiếu của nó yy^ .

Bây giờ, từ câu trả lời của @ Alecos, theo sau, nếu tất cả các vectơ là ngẫu nhiên, thì phân phối xác suất của góc này sẽ đạt cực đại ở 90 90 cho k = 2k=2k = 3k=3 , nhưng sẽ có chế độ ở một giá trị khác < 90 <90 cho k > 3k>3 . Tại sao?!


Cập nhật 2: Tôi chấp nhận câu trả lời của @ Alecos, nhưng vẫn có cảm giác rằng tôi đang thiếu một số hiểu biết quan trọng ở đây. Nếu bất cứ ai từng đề xuất bất kỳ quan điểm nào khác (hình học hoặc không) về hiện tượng này sẽ làm cho nó "rõ ràng", tôi sẽ rất vui khi cung cấp một tiền thưởng.


1
Bạn có sẵn sàng để giả định bình thường lỗi?
Dimitriy V. Masterov

1
Vâng, tôi đoán người ta phải giả định nó để làm cho câu hỏi này có thể trả lời được (?).
amip nói rằng Phục hồi lại


1
@Khashaa: trên thực tế, tôi phải thừa nhận rằng tôi đã tìm thấy trang blogspot đó trước khi đăng câu hỏi của tôi ở đây. Thành thật mà nói, tôi vẫn muốn có một cuộc thảo luận về hiện tượng này trên diễn đàn của chúng tôi, vì vậy tôi giả vờ rằng tôi không thấy điều đó.
amip nói rằng Phục hồi lại

1
Số liệu thống kê câu hỏi CV có liên quan mạnh mẽ.stackexchange.com/questions/123651 / từ
Alecos Papadopoulos

Câu trả lời:


33

Đối với giả thuyết cụ thể (rằng tất cả các hệ số hồi quy đều bằng 0, không bao gồm số hạng không đổi, không được kiểm tra trong thử nghiệm này) và theo quy tắc, chúng tôi biết (xem ví dụ Maddala 2001, trang 155, nhưng lưu ý rằng, tính hồi quy không có thuật ngữ không đổi, vì vậy biểu thức có vẻ hơi khác)kk

F = n - kk - 1 R21 - R 2 F(k-1,n-k)

F=nkk1R21R2
được phân phối dưới dạng biến ngẫu nhiên trung tâm .F(k1,nk)

Lưu ý rằng mặc dù chúng tôi không kiểm tra thuật ngữ không đổi, cũng tính nó.kk

Di chuyển mọi thứ xung quanh,

( k - 1 ) F - ( k - 1 ) F R 2 = ( n - k ) R 2( k - 1 ) F = R 2 [ ( n - k ) + ( k - 1 ) F ]

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R 2 = ( k - 1 ) F( n - k ) + ( k - 1 ) F

R2=(k1)F(nk)+(k1)F

Nhưng phía bên tay phải được phân phối dưới dạng phân phối Beta , cụ thể

R 2 ~ B e t một ( k - 12 ,n-k2 )

R2Beta(k12,nk2)

Các phương thức phân phối này là

chế độ R 2 = k - 12 -1k - 12 +n-k2 -2=k-3n - 5

modeR2=k121k12+nk22=k3n5

CHẾ ĐỘ FINITE & UNIITE
Từ mối quan hệ trên, chúng ta có thể suy ra rằng để phân phối có chế độ duy nhất và hữu hạn, chúng ta phải có

k 3 , n > 5

k3,n>5

Điều này phù hợp với yêu cầu chung đối với bản phân phối Beta, đó là

{ Α > 1 , beta 1 } ,HOẶC LÀ{ Alpha 1 , β > 1 }

{α>1,β1},OR{α1,β>1}

như người ta có thể suy ra từ chủ đề CV này hoặc đọc ở đây .
Lưu ý rằng nếu , chúng tôi có được phân phối Đồng nhất, vì vậy tất cả các điểm mật độ là chế độ (hữu hạn nhưng không phải là duy nhất). Điều này tạo ra câu hỏi: Tại sao, nếu , được phân phối dưới dạng ?{ Α = 1 , β = 1 } k = 3 , n = 5 R 2 U ( 0 , 1 ){α=1,β=1}k=3,n=5R2U(0,1)

ẢNH HƯỞNG
Giả sử rằng bạn có biến hồi quy (bao gồm hằng số) và quan sát. Hồi quy khá đẹp, không thừa. Sau đók = 5 n = 99k=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

R2β=0Beta(2,47),modeR2=1470.021

và mật độ âm mưu

nhập mô tả hình ảnh ở đây

Trực giác xin vui lòng: đây là phân phối của theo giả thuyết rằng không có biến hồi quy nào thực sự thuộc về hồi quy. Vì vậy, a) phân phối độc lập với các biến hồi quy, b) khi kích thước mẫu tăng phân phối của nó tập trung về 0 do thông tin gia tăng biến đổi mẫu nhỏ có thể tạo ra một số "phù hợp" nhưng cũng là c) vì số lượng hồi quy không liên quan tăng cho kích thước mẫu nhất định, phân phối tập trung vào và chúng ta có hiện tượng "phù hợp giả". R2R211

Nhưng cũng cần lưu ý rằng "dễ dàng" như thế nào để từ chối giả thuyết null: trong ví dụ cụ thể, với xác suất tích lũy đã đạt , do đó, sẽ từ chối null "hồi quy không đáng kể "Ở mức ý nghĩa %.R2=0.13R2=0.130.990.99R2>0.13R2>0.1311

ĐỊA CHỈ
Để đáp ứng vấn đề mới liên quan đến chế độ phân phối , tôi có thể đưa ra dòng suy nghĩ sau (không phải hình học), liên kết nó với hiện tượng "phù hợp giả": khi chúng ta chạy bình phương nhỏ nhất trên dữ liệu thiết lập, về cơ bản chúng ta giải một hệ phương trình phương trình tuyến tính với ẩn số (điểm khác biệt duy nhất so với toán trung học là hồi đó chúng ta gọi là "hệ số đã biết", trong hồi quy tuyến tính, chúng ta gọi là "biến / hồi quy", "unknown x" là gì bây giờ chúng ta gọi là "hệ số chưa biết" và "thuật ngữ không đổi" cái mà chúng ta gọi là "biến phụ thuộc"). Miễn làR 2 n k k < n 1 - R 2 k = n k R 2 1 k nR2nkk<nhệ thống được xác định quá mức và không có giải pháp chính xác, chỉ có xấp xỉ - và sự khác biệt nổi lên là "phương sai không giải thích được của biến phụ thuộc", được bắt bởi . Nếu , hệ thống có một giải pháp chính xác (giả sử độc lập tuyến tính). Ở giữa, khi chúng tôi tăng số lượng , chúng tôi sẽ giảm "mức độ quá mức" của hệ thống và chúng tôi "tiến tới" giải pháp chính xác duy nhất. Theo quan điểm này, có lý do tại sao tăng đột biến khi thêm các hồi quy không liên quan, và do đó, tại sao chế độ của nó di chuyển dần về , khi tăng cho .1R2k=nkR21kn


1
Toán học của nó. Với k = 2 , tham số đầu tiên của phân phối beta ( ký hiệu " α " trong ký hiệu chuẩn) trở nên nhỏ hơn thống nhất. Trong trường hợp đó, bản phân phối Beta không có chế độ hữu hạn, hãy chơi xung quanh với keisan.casio.com/exec/system/1180573226 để xem các hình dạng thay đổi như thế nào. k=2α
Alecos Papadopoulos

1
@Alecos Câu trả lời tuyệt vời! (+1) Tôi có thể đề nghị bạn thêm vào câu trả lời của bạn yêu cầu cho chế độ tồn tại không? Điều này thường được nêu là α > 1β > 1 nhưng tinh tế hơn, sẽ ổn nếu bình đẳng giữ một trong hai ... Tôi nghĩ vì mục đích của chúng tôi, điều này trở thành k 3n k + 2 và ít nhất một trong số những bất bình đẳng là nghiêm ngặt . α>1β>1k3 nk+2
Cá bạc

2
@Khashaa Ngoại trừ nếu lý thuyết yêu cầu, tôi không bao giờ loại trừ việc chặn khỏi hồi quy - đó là mức trung bình của biến phụ thuộc, biến hồi quy hoặc không có biến hồi quy (và mức này thường là dương bỏ qua nó Nhưng tôi luôn loại trừ nó khỏi phép thử F của hồi quy, vì điều tôi quan tâm không phải là liệu biến phụ thuộc có trung bình vô điều kiện không, mà là các biến hồi quy có bất kỳ khả năng giải thích nào liên quan đến độ lệch so với giá trị này không.
Alecos Papadopoulos

1
+1! Có kết quả cho sự phân bố của R 2 cho nonzero β j ? R2βj
Christoph Hanck


18

Tôi sẽ không làm lại B e t a ( k - 12 ,n - k2 )phân phối trong câu trả lời tuyệt vời của @ Alecos (đó là kết quả chuẩn, xemtại đâyđể biết một cuộc thảo luận tốt đẹp khác) nhưng tôi muốn điền thêm chi tiết về hậu quả! Đầu tiên, phân phối null củaR2trông như thế nào đối với một phạm vi các giá trị củank? Biểu đồ trong câu trả lời của @ Alecos khá tiêu biểu cho những gì xảy ra trong nhiều hồi quy thực tế, nhưng đôi khi cái nhìn sâu sắc được lượm lặt dễ dàng hơn từ các trường hợp nhỏ hơn. Tôi đã bao gồm giá trị trung bình, chế độ (nơi nó tồn tại) và độ lệch chuẩn. Biểu đồ / bảng xứng đáng là một nhãn cầu tốt:được xem tốt nhất ở kích thước đầy đủ. Tôi có thể bao gồm ít khía cạnh hơn nhưng mô hình sẽ ít rõ ràng hơn; Tôi đã nốiBeta(k12,nk2)R2nkRmã để người đọc có thể thử nghiệm với các tập con khác nhau của nk .nk

Distribution of R2 for small sample sizes

Giá trị của các tham số hình dạng

Bảng màu của biểu đồ cho biết mỗi tham số hình dạng nhỏ hơn một (màu đỏ), bằng một (màu xanh) hay nhiều hơn một (màu xanh lá cây). Bên trái, tay phải phía chương trình giá trị của α trong khi β là ở bên phải. Vì α = k - 1αβ2 , giá trị của nó tăng theo tiến trình số học bởi sự khác biệt chung là1α=k122 như chúng tôi di chuyển ngay từ cột đến cột (thêm một regressor để mô hình của chúng tôi) trong khi, đối với cố địnhn,β=n-k12n2 giảm1β=nk22 . Tổngα+β=n-1122 được cố định cho mỗi hàng (đối với một cỡ mẫu nhất định). Nếu thay vào đó chúng tôi sửa chữakvà di chuyển xuống các cột (tăng kích thước mẫu bằng 1), sau đóαtrú liên tục vàβtăng1α+β=n12kαβ2 . Xét về hồi quy,αlà một nửa số hồi quy đưa vào mô hình, vàβlà một nửa độ còn lại của tự do. Để xác định hình dạng của phân phối của chúng tôi đặc biệt quan tâm đến nơiαhoặcβbằng một.12αβαβ

Đại số đơn giản cho α : chúng ta có k - 1α2 =1nênk=3. Đây thực sự là cột duy nhất của cốt truyện khía cạnh đầy màu xanh bên trái. Tương tựα<1chok<3(cộtk=2có màu đỏ ở bên trái) vàα>1chok>3(từ cộtk=4trở đi, bên trái có màu xanh lá cây).k12=1k=3α<1k<3k=2α>1k>3k=4

Đối với β = 1 chúng tôi có n - kβ=12 =1do đók=n-2. Lưu ý cách các trường hợp này (được đánh dấu bằng một bên phải màu xanh) cắt một đường chéo trên biểu đồ khía cạnh. Đối vớiβ>1ta đượck<n-2(các đồ thị với một bên lời nói dối xanh trái để bên trái của đường chéo). Vớiβ<1,chúng ta cầnk>n-2, chỉ liên quan đến hầu hết các trường hợp đúng trên biểu đồ của tôi: tạin=kchúng ta cóβ=0và phân phối bị suy biến, nhưngnnk2=1k=n2β>1k<n2β<1k>n2n=kβ=0= k - 1 trong đó β = 1n=k12 được vẽ (bên phải màu đỏ).β=12

Vì PDF là f ( x ;α ,β ) α x α - 1 ( 1 - x ) β - 1 , rõ ràng là nếu (và chỉ nếu) α < 1 thì f ( x ) như x 0 . Chúng ta có thể thấy điều này trong biểu đồ: khi phía bên trái được tô màu đỏ, quan sát hành vi tại 0. Tương tự như vậy khi β < 1 thì f ( x ) như x 1 . Nhìn chỗ bên phải màu đỏ!f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

Đối xứng

Một trong những tính năng bắt mắt nhất của biểu đồ là mức độ đối xứng, nhưng khi phân phối Beta có liên quan, điều này không đáng ngạc nhiên!

Sự phân bố Beta chính nó là đối xứng nếu α = β . Đối với chúng tôi, điều này xảy ra nếu n = 2 k - 1 xác định chính xác các bảng ( k = 2 , n = 3 ) , ( k = 3 , n = 5 ) , ( k = 4 , n = 7 )( k = 5 , n = 9 )α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9). Mức độ phân phối đối xứng trên R 2 = 0,5 phụ thuộc vào số lượng biến hồi quy mà chúng tôi đưa vào mô hình cho kích thước mẫu đó. Nếu k = n + 1R2=0.52 phân bố củaR2hoàn toàn đối xứng khoảng 0,5; nếu chúng ta bao gồm ít biến hơn thì nó trở nên ngày càng không đối xứng và phần lớn khối lượng xác suất dịch chuyển gần hơn vớiR2=0; nếu chúng ta bao gồm nhiều biến hơn thì nó dịch chuyển gần hơn vớiR2=1. Hãy nhớ rằngkbao gồm phần chặn trong số đếm của nó và chúng ta đang làm việc dưới giá trị null, vì vậy các biến hồi quy phải có hệ số 0 trong mô hình được chỉ định chính xác.k=n+12R2R2=0R2=1k

Ngoài ra còn có sự đối xứng rõ ràng giữa các bản phân phối cho bất kỳ n đã cho , tức là bất kỳ hàng nào trong lưới khía cạnh. Ví dụ: so sánh ( k = 3 , n = 9 ) với ( k = 7 , n = 9 ) . Điều gì gây ra điều này? Nhớ lại rằng sự phân bố của B e t một ( α , β ) là hình ảnh phản chiếu của B e t một ( β , α ) qua xn(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)= 0,5 . Bây giờ chúng ta đã có α k , n = k - 1x=0.52βk,n=n-kαk,n=k122 . Xétk=n-k+1và chúng tôi tìm thấy:βk,n=nk2k=nk+1

α k , n = ( n - k + 1 ) - 12 =n-k2 =βk,nβk,n=n-(n-k+1)

αk,n=(nk+1)12=nk2=βk,n
2 =k-12 =αk,n
βk,n=n(nk+1)2=k12=αk,n

Vì vậy, điều này giải thích sự đối xứng khi chúng ta thay đổi số lượng hồi quy trong mô hình cho một cỡ mẫu cố định. Nó cũng giải thích các phân phối mà bản thân chúng đối xứng như một trường hợp đặc biệt: đối với chúng, k = k vì vậy chúng có nghĩa vụ phải đối xứng với chính chúng!k=k

Điều này cho chúng một cái gì đó chúng ta có thể không đoán về nhiều hồi quy: cho một kích thước mẫu cho n , và giả sử không có hồi quy có một mối quan hệ chính hãng với Y , các R 2 cho một mô hình sử dụng k - 1 hồi quy cộng với một đánh chặn có sự phân bố giống như 1 - R 2 làm cho một mô hình với k - 1 độ tự do còn lại .nYR2k11R2k1

Phân phối đặc biệt

Khi k = n chúng ta có β = 0 , mà không phải là một tham số hợp lệ. Tuy nhiên, khi β 0 phân phối trở nên suy biến với mức tăng sao cho P ( R 2 = 1 ) = 1 . Điều này phù hợp với những gì chúng ta biết về một mô hình có nhiều tham số như điểm dữ liệu - nó đạt được sự phù hợp hoàn hảo. Tôi đã không vẽ phân phối suy biến trên biểu đồ của mình nhưng đã bao gồm giá trị trung bình, chế độ và độ lệch chuẩn.k=nβ=0β0P(R2=1)=1

Khi k = 2n = 3 ta thu được B e t a ( 1k=2n=32 ,12 )đó làphân phối arcsine. Đây là đối xứng (vìα=β) và lưỡng kim (0 và 1). Vì đây là trường hợp duy nhất có cảα<1β<1(được đánh dấu màu đỏ ở cả hai bên), đây là phân phối duy nhất của chúng tôi đi đến vô cùng ở cả hai đầu của hỗ trợ.Beta(12,12)α=βα<1β<1

Các B e t một ( 1 ,1 ) phân phối là phân phối Beta duy nhất códạng hình chữ nhật (thống nhất). Tất cả các giá trị của R 2 từ 0 đến 1 đều có khả năng như nhau. Sự kết hợp duy nhất của k n α = β = 1 xảy ra là k = 3 n = 5 (đánh dấu màu xanh trên cả hai mặt).Beta(1,1)R2knα=β=1k=3n=5

Các trường hợp đặc biệt trước đây có khả năng áp dụng hạn chế nhưng trường hợp α > 1β = 1 (màu xanh lá cây bên trái, màu xanh bên phải) là quan trọng. Bây giờ f ( x ;α>1β=1α ,β ) α x α - 1 ( 1 - x ) β - 1 = x α - 1 vì vậy chúng tôi có mộtphân phối điện rểtrên [0, 1]. Tất nhiên, chúng tôi sẽ không thực hiện hồi quy với k = n - 2 k > 3 , đó là khi tình huống này xảy ra. Nhưng theo đối số đối xứng trước đó hoặc một số đại số tầm thường trên PDF,khi k = 3 n > 5f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5, đó là quy trình thường xuyên của hồi quy bội với hai biến hồi quy và chặn trên cỡ mẫu không tầm thường, R 2 sẽ tuân theo phân phối luật công suất phản xạ trên [0, 1] theo H 0 . R2H0Điều này tương ứng với α = 1β > 1 vì vậy được đánh dấu màu xanh bên trái, màu xanh lá cây bên phải.α=1β>1

Bạn cũng có thể nhận thấy các phân phối tam giác tại ( k = 5 , n = 7 ) và phản xạ của nó ( k = 3 , n = 7 ) . Chúng ta có thể nhận ra từ αβ của họ rằng đây chỉ là những trường hợp đặc biệt của luật phân phối quyền lực và luật phân phối quyền lực trong đó công suất là 2 - 1 = 1 .(k=5,n=7)(k=3,n=7)αβ21=1

Chế độ

Nếu α > 1β > 1 , tất cả màu xanh lá cây trong ô, f ( x ;α>1β>1α ,β)f(x;α,β) is concave with f(0)=f(1)=0f(0)=f(1)=0, and the Beta distribution has a unique mode α1α+β2α1α+β2. Putting these in terms of kk and nn, the condition becomes k>3k>3 and n>k+2n>k+2 while the mode is k3n5k3n5.

All other cases have been dealt with above. If we relax the inequality to allow β=1β=1, then we include the (green-blue) power-law distributions with k=n2k=n2 and k>3k>3 (equivalently, n>5n>5). These cases clearly have mode 1, which actually agrees with the previous formula since (n2)3n5=1(n2)3n5=1. If instead we allowed α=1α=1 but still demanded β>1β>1, we'd find the (blue-green) reflected power-law distributions with k=3k=3 and n>5n>5. Their mode is 0, which agrees with 33n5=033n5=0. However, if we relaxed both inequalities simultaneously to allow α=β=1α=β=1, we'd find the (all blue) uniform distribution with k=3k=3 and n=5n=5, which does not have a unique mode. Moreover the previous formula can't be applied in this case, since it would return the indeterminate form 3355=003355=00.

When n=kn=k we get a degenerate distribution with mode 1. When β<1β<1 (in regression terms, n=k1n=k1 so there is only one residual degree of freedom) then f(x)f(x) as x1x1, and when α<1α<1 (in regression terms, k=2k=2 so a simple linear model with intercept and one regressor) then f(x)f(x) as x0x0. These would be unique modes except in the unusual case where k=2k=2 and n=3n=3 (fitting a simple linear model to three points) which is bimodal at 0 and 1.

Mean

The question asked about the mode, but the mean of R2R2 under the null is also interesting - it has the remarkably simple form k1n1k1n1. For a fixed sample size it increases in arithmetic progression as more regressors are added to the model, until the mean value is 1 when k=nk=n. The mean of a Beta distribution is αα+βαα+β so such an arithmetic progression was inevitable from our earlier observation that, for fixed nn, the sum α+βα+β is constant but αα increases by 0.5 for each regressor added to the model.

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Code for plots

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Really illuminating visualization. +1
Khashaa

Great addition, +1, thanks. I noticed that you call 00 a mode when the distribution goes to ++ when x0x0 (and nowhere else) -- something @Alecos above (in the comments) did not want to do. I agree with you: it is convenient.
amoeba says Reinstate Monica

1
@amoeba from the graphs we'd like to say "values around 0 are most likely" (or 1). But the answer of Alecos is also both self-consistent and consistent with many authorities (people differ on what to do about the 0 and 1 full stop, let alone whether they can count as a mode!). My approach to the mode differs from Alecos mostly because I use conditions on alpha and beta to determine where the formula is applicable, rather than taking my starting point as the formula and seeing which k and n give sensible answers.
Silverfish

1
(+1), this is a very meaty answer. By keeping kk too close to nn and both small, the question studies in detail, and so decisively, the case of really small samples with relatively too many and irrelevant regressors.
Alecos Papadopoulos

@amoeba You probably noticed that this answer furnishes an algebraic answer for why, for sufficiently large nn, the mode of the distribution is 0 for k=3k=3 but positive for k>3k>3. Since f(x)x(k3)/2(1x)(nk2)/2f(x)x(k3)/2(1x)(nk2)/2 then for k=3k=3 we have f(x)(1x)(n5)/2f(x)(1x)(n5)/2 which will clearly have mode at 0 for n>5n>5, whereas for k=4k=4 we have f(x)x1/2(1x)(n6)/2f(x)x1/2(1x)(n6)/2 whose maximum can be found by calculus to be the quoted mode formula. As kk increases, the power of xx rises by 0.5 each time. It's this xα1xα1 factor which makes f(0)=0f(0)=0 so kills the mode at 0
Silverfish
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.