Đây là một câu chuyện về mức độ tự do và các thông số thống kê và tại sao thật tuyệt khi hai người có một kết nối đơn giản trực tiếp.
Trong lịch sử, các thuật ngữ " - 1 " xuất hiện trong các nghiên cứu của Euler về chức năng Beta. Ông đã sử dụng tham số hóa đó vào năm 1763, và Adrien-Marie Legendre cũng vậy: việc sử dụng chúng đã thiết lập quy ước toán học tiếp theo. Công việc này chống lại tất cả các ứng dụng thống kê đã biết.−1
Lý thuyết toán học hiện đại cung cấp các chỉ dẫn phong phú, thông qua sự phong phú của các ứng dụng trong phân tích, lý thuyết số và hình học, rằng các thuật ngữ " - 1 " thực sự có một số ý nghĩa. Tôi đã phác thảo một số trong những lý do trong các ý kiến cho câu hỏi.−1
Quan tâm hơn là những gì tham số thống kê "đúng" nên có. Điều đó không hoàn toàn rõ ràng và nó không phải giống như quy ước toán học. Có một mạng lưới lớn các gia đình phân phối xác suất thường được sử dụng, nổi tiếng, có liên quan. Do đó, các quy ước được sử dụng để đặt tên (nghĩa là tham số hóa) một gia đình thường ngụ ý các quy ước liên quan đến tên các gia đình liên quan. Thay đổi một tham số và bạn sẽ muốn thay đổi tất cả. Do đó, chúng tôi có thể xem xét các mối quan hệ cho các đầu mối.
Rất ít người không đồng ý rằng các gia đình phân phối quan trọng nhất xuất phát từ gia đình Bình thường. Nhớ lại rằng một biến ngẫu nhiên X được gọi là "Thông thường phân phối" khi ( X - μ ) / σ có mật độ xác suất f ( x ) tỷ lệ với exp ( - x 2 / 2 ) . Khi σ = 1 và μ = 0 , X được cho là có một tiêu chuẩn phân phối chuẩn.X(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
Nhiều bộ dữ liệu x 1 , x 2 , ... , x n được nghiên cứu sử dụng thống kê tương đối đơn giản liên quan đến sự kết hợp hợp lý các dữ liệu và thấp quyền hạn (thường là hình vuông). Khi các dữ liệu đó được mô hình hóa dưới dạng các mẫu ngẫu nhiên từ một phân phối Bình thường - để mỗi x i được xem như là một nhận thức của biến Bình thường X i , tất cả X i đều chia sẻ một phân phối chung và độc lập - các phân phối của các thống kê đó được xác định bởi phân phối chuẩn. Những cái phát sinh thường xuyên nhất trong thực tế làx1,x2,…,xnxiXiXi
t ν ,phân phối t Sinh viênvới ν = n - 1 "bậc tự do." Đây là sự phân bố của các số liệu thống kê t = ˉ Xtνtν=n−1se ( X ) nơi ˉ X =(X1+X2+⋯+Xn)/nmô hình giá trị trung bình của dữ liệu vàse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/nn ) √( X 2 1 + X 2 2 + ⋯ + X 2 n ) / ( n - 1 ) - ˉ X 2 là sai số chuẩn của giá trị trung bình. Việc chia chon-1cho thấynphải là2hoặc lớn hơn, trong đóνlà số nguyên1hoặc lớn hơn. Công thức, mặc dù có vẻ hơi phức tạp, là căn bậc hai của hàm số hữu tỷ của dữ liệu bậc hai: nó tương đối đơn giản.se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1
χ 2 ν ,các χ 2 phân phối (chi-squared)với ν "bậc tự do" (df). Đây là sự phân bố của các tổng bình phương của ν biến bình thường tiêu chuẩn độc lập. Sự phân bố của giá trị trung bình của các hình vuông của các biến này do đó sẽ là một χ 2 phân phối theo tỷ lệ 1 / ν : Tôi sẽ đề cập đến điều này như một "bình thường hóa" χ 2 phân phối.χ2νχ2ννχ21/νχ2
F v 1 , ν 2 ,các F phân phối tỷ lệ với các thông số ( ν 1 , ν 2 ) là tỉ số của hai độc lập bình thường χ 2 phân phối với ν 1 và ν 2 bậc tự do.Fν1,ν2F(ν1,ν2)χ2ν1ν2
Tính toán toán học cho thấy rằng cả ba phân phối này đều có mật độ dày đặc. Quan trọng hơn, mật độ của χ 2 ν phân phối tỷ lệ với tích phân trong định nghĩa không thể thiếu Euler của Gamma ( Γ chức năng). Hãy so sánh chúng:χ2νΓ
f χ 2 ν ( 2 x ) ∝ x ν / 2 - 1 e - x ;f Γ ( ν ) ( x ) ∝ x ν - 1 e - x .
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
Điều này cho thấy hai lần một biến χ 2 ν có phân phối Gamma với tham số ν / 2 . Yếu tố của một nửa là đủ khó chịu, nhưng trừ đi 1 sẽ khiến mối quan hệ trở nên tồi tệ hơn nhiều. Này đã cung cấp một câu trả lời thuyết phục cho câu hỏi: nếu chúng ta muốn các tham số của một χ 2 phân phối để đếm số lượng các biến bình thường bình phương sản xuất nó (lên đến một yếu tố của 1 / 2 ), sau đó số mũ trong hàm mật độ phải của nó được ít hơn một nửa số đó. χ2νν/21χ21/2
Tại sao là yếu tố của 1 / 2 ít rắc rối hơn là một sự khác biệt của 1 ? Lý do là yếu tố sẽ vẫn nhất quán khi chúng ta thêm mọi thứ. Nếu tổng bình phương của n Tiêu chuẩn độc lập tỷ lệ thuận với phân phối Gamma với tham số n (nhân một số yếu tố), thì tổng bình phương của m Tiêu chuẩn độc lập tỷ lệ thuận với phân phối Gamma với tham số m (nhân với cùng hệ số) , từ đó tổng bình phương của tất cả các biến n + m tỷ lệ thuận với phân phối Gamma với tham số m + n (vẫn nhân với cùng một yếu tố). 1/21nnmmn+mm+nThực tế là việc thêm các tham số mô phỏng chặt chẽ thêm các số đếm là rất hữu ích.
Tuy nhiên, nếu chúng ta loại bỏ " - 1 " trông có vẻ phiền phức đó ra khỏi các công thức toán học, những mối quan hệ tốt đẹp này sẽ trở nên phức tạp hơn. Ví dụ, nếu chúng ta thay đổi tham số hóa các bản phân phối Gamma để tham khảo với sức mạnh thực sự của x trong công thức, do đó một χ 2 1 phân phối sẽ được liên quan đến một "Gamma ( 0 ) " phân phối (vì sức mạnh của x trong của nó PDF là 1 - 1 = 0 ), sau đó tổng ba phân phối χ 2 1 sẽ phải được gọi là "Gamma ( 2 )−1xχ21(0)x1−1=0χ21(2)"phân phối. Tóm lại, mối quan hệ phụ gia chặt chẽ giữa mức độ tự do và tham số trong phân phối Gamma sẽ bị mất bằng cách loại bỏ - 1 khỏi công thức và hấp thụ nó trong tham số.−1
Tương tự, hàm xác suất của phân phối tỷ lệ F có liên quan chặt chẽ với phân phối Beta. Thật vậy, khi Y có F phân phối tỷ lệ, sự phân bố của Z = ν 1 Y / ( ν 1 Y + ν 2 ) có một Beta ( ν 1 / 2 , ν 2 / 2 ) phân phối. Hàm mật độ của nó tỷ lệ thuận vớiFYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)
f Z ( z ) α z ν 1 / 2 - 1 ( 1 - z ) ν 2 / 2 - 1 .
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Hơn nữa - lấy các ý tưởng này đầy đủ vòng tròn - bình phương của phân phối Student t với ν df có phân phối tỷ lệ F với các tham số ( 1 , ν ) . Một lần nữa, rõ ràng việc giữ tham số thông thường duy trì mối quan hệ rõ ràng với số lượng cơ bản góp phần vào mức độ tự do.tνF(1,ν)
Từ một quan điểm thống kê của xem, sau đó, nó sẽ là tự nhiên nhất và đơn giản nhất để sử dụng một biến thể của tham số hoá toán học thông thường của Γ và phân phối Beta: chúng ta nên thích gọi một Γ ( α ) phân phối một " Γ ( 2 α ) phân phối" và Beta ( α , β ) phân phối phải được gọi là "Beta ( 2 α , 2 β ) phân phối." Trên thực tế, chúng tôi đã thực hiện điều đó: đây chính là lý do tại sao chúng tôi tiếp tục sử dụng tên "Chi-squared" và " FΓΓ(α)Γ(2α)(α,β)(2α,2β)FTỷ lệ "phân phối thay vì" Gamma "và" Beta ". Bất kể, trong mọi trường hợp, chúng tôi sẽ không muốn xóa các thuật ngữ " - 1 "xuất hiện trong các công thức toán học cho mật độ của chúng.−1 Nếu chúng tôi làm vậy, chúng tôi sẽ mất kết nối trực tiếp giữa các tham số về mật độ và số liệu dữ liệu mà chúng được liên kết: chúng tôi sẽ luôn bị tắt bởi một.