Định lý mà bạn đề cập (phần giảm thông thường "giảm mức độ tự do thông thường do các tham số ước tính") chủ yếu được RA Fisher ủng hộ. Trong phần 'Giải thích về Quảng trường Chi từ các Bảng dự phòng và Tính toán P' (1922), ông lập luận sử dụng quy tắc và trong 'Mức độ phù hợp của các công thức hồi quy' ( 1922), ông lập luận để giảm mức độ tự do bằng số lượng tham số được sử dụng trong hồi quy để thu được các giá trị mong đợi từ dữ liệu. (Thật thú vị khi lưu ý rằng mọi người đã sử dụng sai bài kiểm tra chi bình phương, với mức độ tự do sai, trong hơn hai mươi năm kể từ khi được giới thiệu vào năm 1900)( R - 1 ) * ( C- 1 )
Trường hợp của bạn thuộc loại thứ hai (hồi quy) chứ không phải loại trước (bảng dự phòng) mặc dù hai trường hợp này có liên quan ở chỗ chúng là các hạn chế tuyến tính đối với các tham số.
Vì bạn mô hình hóa các giá trị dự kiến, dựa trên các giá trị được quan sát của bạn và bạn thực hiện điều này với một mô hình có hai tham số, mức giảm tự do 'thông thường' là hai cộng một (thêm một vì O_i cần tổng hợp tổng cộng, đó là một hạn chế tuyến tính khác, và bạn kết thúc hiệu quả bằng việc giảm hai, thay vì ba, vì 'hiệu quả' của các giá trị dự kiến được mô hình hóa).
Kiểm tra chi bình phương sử dụng làm thước đo khoảng cách để biểu thị mức độ gần với kết quả với dữ liệu dự kiến. Trong nhiều phiên bản của phép thử chi bình phương, phân phối 'khoảng cách' này có liên quan đến tổng độ lệch trong các biến phân phối bình thường (chỉ đúng trong giới hạn và là xấp xỉ nếu bạn xử lý dữ liệu phân phối không bình thường) .χ2
Đối với phân phối chuẩn nhiều biến, hàm mật độ có liên quan đến bởiχ2
f( x1, . . . , xk) = e- 12χ2( 2 π)k| Σ |√
với là định thức của ma trận hiệp phương sai củax| Σ |x
và là mahalanobis khoảng cách giảm xuống khoảng cách Euclidian nếu .Σ = Tôiχ2= ( X - μ)TΣ-1( X - μ )Σ = Tôi
Trong bài viết năm 1900, Pearson đã lập luận rằng -levels là các nhân vật anh hùng và anh ta có thể biến đổi thành tọa độ hình cầu để tích hợp một giá trị như . Mà trở thành một tích phân duy nhất. P ( χ 2 > một )χ2P( χ2> a )
Đây là biểu diễn hình học, như một khoảng cách và cũng là một thuật ngữ trong hàm mật độ, có thể giúp hiểu được việc giảm mức độ tự do khi có các hạn chế tuyến tính.χ2
Đầu tiên là trường hợp của bảng dự phòng 2x2 . Bạn nên lưu ý rằng bốn giá trị không phải là bốn biến phân phối bình thường độc lập. Thay vào đó, chúng có liên quan với nhau và biến thành một biến duy nhất.Ôitôi- EtôiEtôi
Cho phép sử dụng bảng
Ôitôi j= o11o21o12o22
sau đó nếu các giá trị mong đợi
Etôi j= e11e21e12e22
trong đó cố định thì sẽ được phân phối dưới dạng phân phối chi bình phương với bốn bậc tự do nhưng chúng tôi thường ước tính dựa trên và biến thể không giống như bốn biến độc lập. Thay vào đó, chúng ta nhận thấy rằng tất cả sự khác biệt giữa và là như nhau∑ otôi j- etôi jetôi jetôi jotôi joe
--( o11- e11)( o22- e22)( o21- e21)( o12- e12)= == == == o11- ( o11+ o12) ( o11+ o21)( o11+ o12+ o21+ o22)
và chúng thực sự là một biến duy nhất chứ không phải bốn. Về mặt hình học, bạn có thể thấy đây là giá trị không được tích hợp trên hình cầu bốn chiều mà trên một dòng.χ2
Lưu ý rằng thử nghiệm bảng dự phòng này không phải là trường hợp của bảng dự phòng trong thử nghiệm Hosmer-Lemeshow (nó sử dụng một giả thuyết null khác!). Xem thêm phần 2.1 'trường hợp khi và được biết đến' trong bài viết của Hosmer và Lemshow. Trong trường hợp của họ, bạn nhận được 2g-1 độ tự do chứ không phải g-1 độ tự do như trong quy tắc (R-1) (C-1). Quy tắc (R-1) (C-1) này là trường hợp cụ thể cho giả thuyết null cho rằng các biến hàng và cột là độc lập (tạo ra các ràng buộc R + C-1 trên các giá trị ). Thử nghiệm Hosmer-Lemeshow liên quan đến giả thuyết rằng các ô được điền theo xác suất của mô hình hồi quy logistic dựa trênβ0β--otôi- etôifo u rtham số trong trường hợp giả định phân phối A và tham số trong trường hợp giả định phân phối B.p + 1
Thứ hai trường hợp hồi quy. Hồi quy thực hiện một cái gì đó tương tự như sự khác biệt như bảng dự phòng và làm giảm tính chiều của biến thể. Có một biểu diễn hình học đẹp cho điều này vì giá trị có thể được biểu diễn dưới dạng tổng của một thuật ngữ mô hình và một thuật ngữ còn lại (không phải lỗi) . Các thuật ngữ mô hình và thuật ngữ còn lại mỗi đại diện cho một không gian thứ nguyên vuông góc với nhau. Điều đó có nghĩa là các điều khoản còn lại không thể nhận bất kỳ giá trị có thể nào! Cụ thể, chúng được giảm bởi phần dự án trên mô hình và cụ thể hơn là 1 chiều cho mỗi tham số trong mô hình.o - eytôiβxtôiεtôiεtôi
Có lẽ những hình ảnh sau đây có thể giúp một chút
Dưới đây là 400 lần ba biến số (không tương quan) từ các phân phối nhị thức . Chúng liên quan đến các biến phân phối bình thường . Trong cùng một hình ảnh, chúng ta vẽ bề mặt iso cho . Tích hợp trên không gian này bằng cách sử dụng tọa độ hình cầu sao cho chúng ta chỉ cần tích hợp duy nhất (vì thay đổi góc không thay đổi mật độ), kết quả là trong trong đó phần đại diện cho diện tích của hình cầu d chiều. Nếu chúng ta sẽ giới hạn các biếnB ( n = 60 , p = 1 / 6 , 2 / 6 , 3 / 6 )N( Μ = n * p , σ2= N * p * ( 1 - p ) )χ2= 1 , 2 , 6χ∫một0e- 12χ2χd- 1dχχd- 1χ theo một cách nào đó, sự tích hợp sẽ không nằm trên một hình cầu chiều mà là một thứ gì đó có chiều thấp hơn.
Hình ảnh dưới đây có thể được sử dụng để có được ý tưởng về việc giảm kích thước trong các điều khoản còn lại. Nó giải thích phương pháp phù hợp bình phương tối thiểu trong thuật ngữ hình học.
Trong màu xanh bạn có số đo. Trong màu đỏ bạn có những gì mô hình cho phép. Phép đo thường không chính xác bằng mô hình và có một số sai lệch. Bạn có thể coi điều này, về mặt hình học, là khoảng cách từ điểm đo đến bề mặt màu đỏ.
Mũi tên đỏ và có các giá trị và và có thể liên quan đến một số mô hình tuyến tính như lỗi x = a + b * z + hoặcm u1m u2( 1 , 1 , 1 )( 0 , 1 , 2 )
⎡⎣⎢x1x2x3⎤⎦⎥= Một ⎡⎣⎢111⎤⎦⎥+ B ⎡⎣⎢012⎤⎦⎥+ ⎡⎣⎢ε1ε2ε3⎤⎦⎥
vì vậy khoảng của hai vectơ đó và (mặt phẳng màu đỏ) là các giá trị cho có thể có trong mô hình hồi quy và là một vectơ có sự khác biệt giữa giá trị quan sát và giá trị hồi quy / mô hình hóa. Trong phương pháp bình phương tối thiểu, vectơ này vuông góc (khoảng cách nhỏ nhất là tổng bình phương nhỏ nhất) với bề mặt màu đỏ (và giá trị mô hình là hình chiếu của giá trị quan sát lên bề mặt màu đỏ).( 1 , 1 , 1 )( 0 , 1 , 2 )xε
Vì vậy, sự khác biệt giữa quan sát và (được mô hình hóa) dự kiến là tổng các vectơ vuông góc với vectơ mô hình (và không gian này có kích thước của tổng không gian trừ đi số lượng vectơ mô hình).
Trong trường hợp ví dụ đơn giản của chúng tôi. Tổng kích thước là 3. Mô hình có 2 chiều. Và lỗi có thứ nguyên 1 (vì vậy cho dù bạn lấy điểm xanh nào trong số đó, mũi tên màu xanh lá cây hiển thị một ví dụ duy nhất, các thuật ngữ lỗi luôn có cùng tỷ lệ, theo một vectơ duy nhất).
Tôi hy vọng giải thích này sẽ giúp. Đây không phải là một bằng chứng nghiêm ngặt và có một số thủ thuật đại số đặc biệt cần được giải quyết trong các biểu diễn hình học này. Nhưng dù sao tôi cũng thích hai biểu diễn hình học này. Một mẹo cho Pearson để tích hợp bằng cách sử dụng tọa độ hình cầu và cái còn lại để xem tổng phương pháp bình phương tối thiểu như một hình chiếu lên mặt phẳng (hoặc nhịp lớn hơn).χ2
Tôi luôn ngạc nhiên về cách chúng ta kết thúc với , đây là quan điểm của tôi không tầm thường vì sự gần đúng bình thường của một nhị thức không phải là một sự sai lệch của mà bởi và trong trường hợp các bảng dự phòng bạn có thể giải quyết dễ dàng nhưng trong trường hợp hồi quy hoặc các hạn chế tuyến tính khác, nó không hoạt động dễ dàng như vậy trong khi tài liệu thường rất dễ tranh luận rằng 'nó hoạt động tương tự đối với các hạn chế tuyến tính khác' . (Một ví dụ thú vị về vấn đề. Nếu bạn thực hiện bài kiểm tra sau nhiều lần 'ném 2 lần 10 lần một đồng xu và chỉ đăng ký các trường hợp trong đó tổng là 10' thì bạn không có được phân phối chi bình phương điển hình cho việc này " "hạn chế tuyến tính" đơn giảno - eeen p ( 1 - p )