Bài này trình bày một phương pháp lý luận mạnh mẽ mà tránh được rất nhiều đại số và tính toán. Đối với những người quen thuộc với phương pháp này, công việc rất tự động và tự nhiên đến nỗi câu trả lời ban đầu của một người cho câu hỏi như thế này là "nó hiển nhiên!" Nhưng có lẽ nó không quá rõ ràng cho đến khi bạn đã thấy phương pháp này. Do đó, tất cả các chi tiết được giải thích, từng bước.
Lý lịch
Có một số công thức cho phương sai của dữ liệu (với trung bình ), bao gồmˉ x = ( x 1 + ⋯ + x n ) / nx=x1,x2,…,xnx¯=(x1+⋯+xn)/n
Var(x)=1n∑i=1n(xi−x¯)2=1n(∑i=1nx2i)−x¯2.(1)
Điều này xác định hiệp phương sai của dữ liệu được ghép nối thông qua(x1,y1),…,(xn,yn)
Cov(x,y)=14(Var(x+y)−Var(x−y)).
Công thức ngụ ý trong bài viết hiệp phương sai với bút chì màu được tham chiếu là
C(x,y)=∑i=1n−1∑j=i+1n(xj−xi)(yj−yi)=12∑i,j=1n(xj−xi)(yj−yi).(2)
Bài đăng đó khẳng định tỷ lệ thuận với hiệp phương sai. Hằng số tỷ lệ có thể (và không) thay đổi theo . Do đó, khi một hàm ý của khẳng định này làc ( n ) n x = yCc(n)nx=y
C(x,x)=c(n)Var(x).
Phân tích
Mặc dù điều này có thể được chứng minh bằng đại số vũ phu, nhưng có một cách tốt hơn: hãy khai thác các tính chất cơ bản của hiệp phương sai. Những tính chất đó sẽ là gì? Tôi muốn đề xuất những điều sau đây là cơ bản:
Vị trí độc lập. Đó là, cho mọi số . (Biểu thức đề cập đến tập dữ liệu .)a x - a x 1 - a , x 2 - a , Lỗi , x n - a
Cov(x,y)=Cov(x−a,y)
ax−ax1−a,x2−a,…,xn−a
Đa tuyến. Điều này ngụ ý cho bất kỳ số nào . (Biểu thức đề cập đến bộ dữ liệu .)λ λ x λ x 1 , λ x 2 , ... , λ x n
Cov(λx,y)=λCov(x,y)
λλxλx1,λx2,…,λxn
Đối diện. Hiệp phương sai của và là hiệp phương sai của và :y y x Cov ( x , y ) = Cov ( y , x ) .xyyx
Cov(x,y)=Cov(y,x).
Bất biến dưới hoán vị. Hiệp phương sai không thay đổi khi chúng ta lập chỉ mục lại . Chính thức, cho mọi hoán vị . (Các biểu thức như thể hiện việc sắp xếp lại theo , sao cho )(xi,yi)
Cov(x,y)=Cov(xσ,yσ)
σ∈Snxσxiσxσ=xσ(1),xσ(2),…,xσ(n).
Tất cả các thuộc tính này rõ ràng giữ cho cả và kiểm tra các dạng biểu thức và . Điều duy nhất có thể cần bất kỳ lời giải thích là độc lập vị trí. Tuy nhiên, sự thay đổi liên tục của các giá trị của không làm thay đổi cả phần dư cũng như sự khác biệt:VarC(1)(2)xi
xi−x¯=(xi−a)−x−a¯¯¯¯¯¯¯¯¯¯¯¯
và
xj−xi=(xj−a)−(xi−a).
Do đó, rõ ràng là phiên bản đầu tiên của và không phụ thuộc vào vị trí.(1)(2)
Giải pháp
Ở đây, sau đó, là lý do. Bởi vì là đối xứng và đa tuyến, nó là một hình thức bậc hai hoàn toàn được xác định bởi các hệ số :Ccij=cji
C(x,y)=∑i,j=1ncijxiyj.
Bởi vì nó là hoán vị-bất biến, cho mọi chỉ số mà và ; đồng thời, cho tất cả các chỉ số và . Do đó, được xác định chỉ bằng hai số, giả sử và . Cuối cùng, một trong những số này xác định hai số còn lại nhờ tính bất biến của vị trí: điều kiện đó có nghĩa làcij=ci′j′i,j,i′,j′i≠ji′≠j′cii=ci′i′ii′Cc11c12
0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)
(trong đó " " và " " đề cập đến -vector không đổi với các giá trị này). Nhưng01n
0=C(1,1)=∑i,jncij=nc11+(n2−n)c12,
xác định từng của và về mặt khác.
c11c12
Điều này đã chứng minh điểm chính: phải tỷ lệ thuận với , vì mỗi điểm được xác định bởi bất kỳ một trong các hệ số của chúng. Để tìm hằng số tỷ lệ, kiểm tra hai công thức và , tìm kiếm tất cả các lần xuất hiện của : bạn có thể đọc giá trị liên quan của từ chúng. Từ phiên bản thứ hai của , hệ số của rõ ràng là . Từ phiên bản đầu tiên của , với , hệ số của rõ ràng làCCov(1)(2)x21c11(1)x211/n−(1/n)2(2)y=xx21n−1. (Về mặt hình học, mỗi điểm trong biểu đồ phân tán của được ghép với khác, từ đó bình phương tọa độ của nó sẽ xuất hiện lần.) Do đó(x,x)n−1n−1
c(n)=n−11/n−(1/n)2=n2,
QED . Đây là phép tính duy nhất cần thiết để chứng minh
Cov(x,y)=1n2C(x,y)=1n2∑i=1n−1∑j=i+1n(xj−xi)(yj−yi).