Tại sao phương sai không được định nghĩa là chênh lệch giữa mọi giá trị theo nhau?


19

Đây có thể là một câu hỏi đơn giản cho nhiều người nhưng đây là:

Tại sao phương sai không được định nghĩa là chênh lệch giữa mọi giá trị theo nhau thay vì chênh lệch trung bình của các giá trị?

Đây sẽ là lựa chọn hợp lý hơn với tôi, tôi đoán rõ ràng tôi đang giám sát một số nhược điểm. Cảm ơn

CHỈNH SỬA:

Hãy để tôi nói lại càng rõ ràng càng tốt. Đó là thứ tôi nghĩ:

  1. Giả sử bạn có một dãy số, được đặt hàng: 1,2,3,4,5
  2. Tính và tổng các chênh lệch (tuyệt đối) (liên tục, giữa mọi giá trị sau, không phải theo cặp) giữa các giá trị (không sử dụng giá trị trung bình).
  3. Chia theo số lượng chênh lệch
  4. (Theo dõi: câu trả lời sẽ khác nếu các số chưa được sắp xếp)

-> Những nhược điểm của phương pháp này so với công thức chuẩn cho phương sai là gì?


1
Bạn cũng có thể quan tâm đến việc đọc về tự động tương quan (ví dụ: stats.stackexchange.com/questions/185521/ ám ).
Tim

2
@ user2305193 câu trả lời của người đánh máy là chính xác, nhưng công thức của anh ta sử dụng khoảng cách bình phương giữa một thứ tự dữ liệu và tính trung bình trên tất cả các thứ tự. Thủ thuật gọn gàng, tuy nhiên quá trình tìm ra phương sai mà bạn đã chỉ ra, chính xác là những gì tôi đã cố gắng thực hiện trong câu trả lời của mình và chứng minh rằng sẽ không làm tốt công việc. Cố gắng để xóa sự nhầm lẫn.
Greenparker

1
Để giải trí, hãy tra cứu phương sai Allan.
hobbs

theo một suy nghĩ khác, tôi đoán vì bạn không có sự khác biệt bình phương (và sau đó bạn không lấy căn bậc hai) mà lấy các giá trị tuyệt đối, điều này đúng hơn là 'tại sao đây không phải là cách chúng ta tính độ lệch chuẩn' thay vì "tại sao đây không phải là cách chúng ta tính toán phương sai". Nhưng tôi sẽ cho nó nghỉ ngơi ngay bây giờ
user2305193 27/07/16

Câu trả lời:


27

Lý do rõ ràng nhất là thường không có chuỗi thời gian trong các giá trị. Vì vậy, nếu bạn làm xáo trộn dữ liệu, nó không tạo ra sự khác biệt trong thông tin được truyền tải bởi dữ liệu. Nếu chúng tôi làm theo phương pháp của bạn, thì mỗi lần bạn làm xáo trộn dữ liệu bạn sẽ nhận được một phương sai mẫu khác nhau.

Câu trả lời lý thuyết hơn là phương sai mẫu ước tính phương sai thực sự của một biến ngẫu nhiên. Phương sai thực sự của một biến ngẫu nhiên E [ ( X - E X ) 2 ] .X

E[(XEX)2].

Ở đây đại diện cho kỳ vọng hoặc "giá trị trung bình". Vì vậy, định nghĩa của phương sai là khoảng cách bình phương trung bình giữa biến từ giá trị trung bình của nó. Khi bạn nhìn vào định nghĩa này, không có "thứ tự thời gian" ở đây vì không có dữ liệu. Nó chỉ là một thuộc tính của biến ngẫu nhiên.E

Khi bạn thu thập dữ liệu iid từ phân phối này, bạn có ngộ . Cách tốt nhất để ước tính kỳ vọng là lấy trung bình mẫu. Chìa khóa ở đây là chúng tôi có dữ liệu iid và do đó không có thứ tự nào cho dữ liệu. Mẫu x 1 , x 2 , ... , x n là tương tự như các mẫu x 2 , x 5 , x 1 , x n . .x1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

CHỈNH SỬA

Phương sai mẫu đo một loại phân tán cụ thể cho mẫu, loại đo khoảng cách trung bình từ giá trị trung bình. Có nhiều loại phân tán khác như phạm vi dữ liệu và phạm vi Inter-Quantile.

Ngay cả khi bạn sắp xếp các giá trị của mình theo thứ tự tăng dần, điều đó không thay đổi các đặc tính của mẫu. Mẫu (dữ liệu) bạn nhận được là các nhận thức từ một biến. Tính toán phương sai mẫu giống như hiểu được mức độ phân tán trong biến. Vì vậy, ví dụ, nếu bạn lấy mẫu 20 người và tính chiều cao của họ, thì đó là 20 "hiện thực hóa" từ biến ngẫu nhiên chiều cao của người. Bây giờ phương sai mẫu được cho là để đo lường sự thay đổi về chiều cao của các cá nhân nói chung. Nếu bạn đặt hàng dữ liệu 100 , 110 , 123 , 124 , ... ,X=

100,110,123,124,,

Điều đó không thay đổi thông tin trong mẫu.

Hãy nhìn vào một ví dụ nữa. giả sử bạn có 100 quan sát từ một biến ngẫu nhiên được sắp xếp theo cách này Sau đó, khoảng cách trung bình tiếp theo là 1 đơn vị, do đó, theo phương pháp của bạn, phương sai sẽ là 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

Cách để giải thích "phương sai" hoặc "phân tán" là hiểu phạm vi giá trị nào có khả năng cho dữ liệu. Trong trường hợp này, bạn sẽ nhận được một phạm vi 0,99 đơn vị, tất nhiên không đại diện cho biến thể tốt.

Nếu thay vì lấy trung bình, bạn chỉ cần tính tổng các chênh lệch tiếp theo, thì phương sai của bạn sẽ là 99. Tất nhiên điều đó không đại diện cho tính biến thiên trong mẫu, bởi vì 99 cung cấp cho bạn phạm vi dữ liệu, không phải là cảm giác biến đổi.


1
Với đoạn cuối cùng bạn đã liên lạc với tôi, haha, cảm ơn vì câu trả lời đáng kinh ngạc này, tôi ước tôi có đủ đại diện để nâng cao nó, xin mọi người, hãy làm điều đó cho tôi ;-) CHẤP NHẬN !!!
dùng2305193

Theo dõi để theo dõi: Điều tôi thực sự muốn nói (vâng, xin lỗi, tôi chỉ nhận ra câu hỏi đúng sau khi đọc câu trả lời của bạn) là bạn tổng hợp các khác biệt và chia nó qua số lượng mẫu. Trong ví dụ cuối cùng của bạn sẽ là 99/100 - bạn có thể giải thích về điều đó cho hoàn hảo không?
dùng2305193

@ user2305193 Đúng, tôi đã nói trung bình 1 đơn vị, không chính xác. Nó nên có 0,99 đơn vị. Đã thay đổi nó.
xanh

Để biết thêm thông tin về loạt 1-100: phương sai trong 1-100 sẽ là 841,7 và độ lệch chuẩn 29,01 nguồn . Vì vậy, thực sự khá một kết quả khác nhau.
dùng2305193

31

được định nghĩa theo cách đó!

Đây là đại số. Đặt các giá trị là . Biểu thị bằng F chức năng phân phối thực nghiệm của các giá trị (có nghĩa là mỗi x i góp phần một khối lượng xác suất 1 / n theo giá trị x i ) và để cho XY là các biến ngẫu nhiên độc lập với phân phối F . Nhờ các tính chất cơ bản của phương sai (cụ thể, nó là một hình thức bậc hai) cũng như định nghĩa của F và thực tếx=(x1,x2,,xn)Fxi1/nxiXYFF Y có cùng một nghĩa,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Công thức này không phụ thuộc vào cách được sắp xếp: nó sử dụng tất cả các cặp thành phần có thể, so sánh chúng bằng một nửa sự khác biệt bình phương của chúng. Nó có thể, tuy nhiên, có liên quan đến một trung bình trên toàn orderings thể (nhóm S ( n ) của tất cả n ! Hoán vị của các chỉ số 1 , 2 , ... , n ). Cụ thể làxS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

Tổng kết bên trong đó lấy các giá trị được sắp xếp lại và số tiền các (một nửa) bình phương khác nhau giữa tất cản-1cặp liên tiếp. Việc chia chonvề cơ bản tính trung bình cáckhác biệt bình phương liên tiếp. Nó tính toán cái được gọi là nửa bán kếtlag-1. Tổng kết bên ngoài làm điều nàycho tất cả các thứ tự có thể.xσ(1),xσ(2),,xσ(n)n1n


Hai quan điểm đại số tương đương của công thức phương sai tiêu chuẩn cung cấp cái nhìn sâu sắc mới về ý nghĩa của phương sai. Bán dẫn là một phép đo nghịch đảo của hiệp phương sai nối tiếp của một chuỗi: hiệp phương sai cao (và các số có tương quan dương) khi bán tổng thể thấp và ngược lại. Phương sai của một tập dữ liệu không có thứ tự , sau đó, là một loại trung bình của tất cả các bán thành phần có thể đạt được theo cách sắp xếp lại tùy ý.


1
@ Mur1lo Ngược lại: Tôi tin rằng phái sinh này là chính xác. Áp dụng công thức cho một số dữ liệu và xem!
whuber

1
Tôi nghĩ Mur1lo có thể đã nói không phải về tính chính xác của công thức cho phương sai mà rõ ràng là chuyển trực tiếp từ kỳ vọng của các biến ngẫu nhiên sang các hàm của đại lượng mẫu.
Glen_b -Reinstate Monica

1
@glen Nhưng đó chính xác là những gì chức năng phân phối theo kinh nghiệm cho phép chúng ta làm. Đó là toàn bộ quan điểm của phương pháp này.
whuber

3
Vâng, điều đó rõ ràng với tôi; Tôi đã cố gắng chỉ ra nơi mà sự nhầm lẫn dường như nằm. Xin lỗi để mơ hồ. Hy vọng rằng bây giờ rõ ràng hơn tại sao nó chỉ xuất hiện * là một vấn đề.* (đây là lý do tại sao tôi đã sử dụng từ "rõ ràng" trước đó, để nhấn mạnh rằng đó chỉ là sự xuất hiện ngoài ngữ cảnh của bước đó có khả năng là nguyên nhân của sự nhầm lẫn)
Glen_b -Reinstate Monica

2
@ Mur1o Điều duy nhất tôi đã làm trong bất kỳ phương trình nào là áp dụng các định nghĩa. Không có sự chuyển từ kỳ vọng sang "số lượng mẫu". (Đặc biệt, không có mẫu F nào được đặt ra hoặc sử dụng.) Vì vậy, tôi không thể xác định vấn đề rõ ràng là gì, cũng không đề xuất một lời giải thích khác. Nếu bạn có thể mở rộng mối quan tâm của bạn thì tôi có thể đáp ứng.
whuber

11

Chỉ cần bổ sung cho các câu trả lời khác, phương sai có thể được tính là sự khác biệt bình phương giữa các thuật ngữ:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

Tôi nghĩ rằng đây là gần nhất với đề xuất OP. Hãy nhớ phương sai là thước đo độ phân tán của mọi quan sát cùng một lúc, không chỉ giữa các số "lân cận" trong tập hợp.


CẬP NHẬT

Sử dụng ví dụ của bạn: . Chúng ta biết phương sai là V a r ( X )X=1,2,3,4,5 .Var(X)=2

Với phương pháp đề xuất của bạn , vì vậy chúng tôi biết trước sự khác biệt giữa các hàng xóm vì phương sai không cộng dồn. Ý tôi là lấy mọi khác biệt có thể bình phương rồi tóm lại:Var(X)=1

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2

Bây giờ tôi đang bối rối nghiêm trọng
dùng2305193

@ user2305193 Trong câu hỏi của bạn, bạn có nghĩa là mọi khác biệt theo cặp hoặc bạn có nghĩa là sự khác biệt giữa một giá trị và tiếp theo trong một chuỗi? Ông có thể làm rõ?
Firebug

2
@ Mur1lo không có ai, mặc dù tôi không biết bạn đang đề cập đến cái gì.
Firebug

2
@ Mur1lo Đây là một câu hỏi chung và tôi đã trả lời chung chung. Phương sai là một tham số tính toán, có thể được ước tính từ các mẫu. Câu hỏi này không phải là về ước tính mặc dù. Ngoài ra chúng ta đang nói về các bộ rời rạc, không phải về phân phối liên tục.
Firebug

1
Bạn đã chỉ ra cách ước tính phương sai theo thống kê U và mức phạt của nó. Vấn đề là khi bạn viết: Var ("chữ hoa" X) = những thứ liên quan đến "chữ thường" x, bạn đang trộn lẫn hai khái niệm khác nhau về tham số và ước lượng.
Mur1lo

6

Những người khác đã trả lời về tính hữu ích của phương sai được định nghĩa như bình thường. Dù sao, chúng tôi chỉ có hai định nghĩa hợp pháp về những điều khác nhau: định nghĩa thông thường về phương sai và định nghĩa của bạn.

Sau đó, câu hỏi chính là tại sao cái đầu tiên được gọi là phương sai mà không phải của bạn. Đó chỉ là vấn đề quy ước. Cho đến năm 1918, bạn có thể đã phát minh ra bất cứ thứ gì bạn muốn và gọi nó là "phương sai", nhưng vào năm 1918, Fisher đã sử dụng tên đó cho cái vẫn được gọi là phương sai, và nếu bạn muốn xác định bất cứ điều gì khác, bạn sẽ cần tìm một tên khác để đặt tên cho nó.

Câu hỏi khác là nếu điều bạn xác định có thể hữu ích cho bất cứ điều gì. Những người khác đã chỉ ra các vấn đề của nó được sử dụng như một biện pháp phân tán, nhưng tùy thuộc vào bạn để tìm các ứng dụng cho nó. Có thể bạn tìm thấy những ứng dụng hữu ích đến nỗi trong một thế kỷ, thứ của bạn nổi tiếng hơn phương sai.


Tôi biết mọi định nghĩa tùy thuộc vào những người quyết định về nó, tôi thực sự đang tìm kiếm sự giúp đỡ trong những nhược điểm cho mỗi phương pháp. Thông thường có lý do chính đáng để mọi người hội tụ một định nghĩa và như tôi nghi ngờ đã không hiểu tại sao ngay lập tức.
dùng2305193

1
Fisher giới thiệu phương sai là một thuật ngữ vào năm 1918 nhưng ý tưởng này đã cũ hơn.
Nick Cox

Theo như tôi biết, Fisher là người đầu tiên sử dụng tên "phương sai" cho phương sai. Đó là lý do tại sao tôi nói rằng trước năm 1918, bạn có thể sử dụng "phương sai" để đặt tên cho bất kỳ thứ gì khác mà bạn đã phát minh ra.
Pere

3

Câu trả lời @GreenParker đầy đủ hơn, nhưng một ví dụ trực quan có thể hữu ích để minh họa nhược điểm cho cách tiếp cận của bạn.

Trong câu hỏi của bạn, bạn dường như cho rằng thứ tự thực hiện một biến ngẫu nhiên xuất hiện vấn đề. Tuy nhiên, thật dễ dàng để nghĩ về các ví dụ mà nó không.

Hãy xem xét ví dụ về chiều cao của các cá nhân trong dân số. Thứ tự mà các cá nhân được đo không liên quan đến cả chiều cao trung bình trong dân số và phương sai (mức độ lan truyền của các giá trị đó xung quanh giá trị trung bình).

Phương pháp của bạn có vẻ kỳ quặc áp dụng cho trường hợp như vậy.


2

Mặc dù có nhiều câu trả lời hay cho câu hỏi này nhưng tôi tin rằng một số điểm quan trọng bị bỏ lại phía sau và vì câu hỏi này đưa ra một điểm thực sự thú vị, tôi muốn đưa ra một quan điểm khác.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

Điều đầu tiên cần có trong đầu là phương sai là một loại tham số cụ thể và không phải là một loại tính toán nhất định. Có một định nghĩa toán học khắt khe về tham số là gì nhưng hiện tại chúng ta có thể nghĩ đó là các phép toán trên phân phối một biến ngẫu nhiên. Ví dụ: nếu là biến ngẫu nhiên có hàm phân phối FXFXμx

μX=+xdFX(x)

XσX2

σX2=+(xμX)2dFX(x)

Vai trò của ước tính trong thống kê là cung cấp, từ một tập hợp các nhận thức của rv, một xấp xỉ tốt cho các tham số quan tâm.

Điều tôi muốn chỉ ra là có một sự khác biệt lớn trong các khái niệm về một tham số (phương sai cho câu hỏi cụ thể này) và thống kê chúng tôi sử dụng để ước tính nó.

Why isn't the variance calculated this way?

Xx={x1,,xn}

ψ(x)=1ni=2n|xixi1|

và thống kê thông thường là:

S2(x)=1n1i=in(xix¯)2,

x¯

Khi so sánh hai ước lượng của một tham số, tiêu chí thông thường cho tiêu chí tốt nhất là có sai số bình phương trung bình tối thiểu (MSE) và một đặc tính quan trọng của MSE là nó có thể được phân tách thành hai thành phần:

MSE = sai lệch ước lượng + phương sai ước lượng.

S2

  • Đầu tiên, nó là một công cụ ước lượng không thiên vị của phương sai nhưng thống kê của bạn không thiên vị.

  • S2σ2

S2


3
1/n1/(n-1)


1

Rất nhiều câu trả lời hay ở đây, nhưng tôi sẽ thêm một vài câu.

  1. Cách nó được xác định bây giờ đã được chứng minh là hữu ích. Ví dụ: phân phối bình thường xuất hiện mọi lúc trong dữ liệu và phân phối bình thường được xác định bởi giá trị trung bình và phương sai của nó. Chỉnh sửa: như @whuber đã chỉ ra trong một nhận xét, có nhiều cách khác nhau chỉ định phân phối bình thường. Nhưng không ai trong số họ, theo như tôi biết, đối phó với các cặp điểm theo trình tự.
  2. Phương sai như thường được xác định cung cấp cho bạn một thước đo về mức độ lan truyền của dữ liệu. Ví dụ: giả sử bạn có nhiều điểm dữ liệu với giá trị trung bình bằng 0 nhưng khi bạn nhìn vào nó, bạn sẽ thấy rằng dữ liệu chủ yếu ở khoảng -1 hoặc khoảng 1. Phương sai của bạn sẽ là khoảng 1. Tuy nhiên, theo bạn đo lường, bạn sẽ nhận được tổng số không. Cái nào hữu ích hơn? Chà, điều đó còn tùy, nhưng đối với tôi không rõ ràng rằng một số đo bằng 0 cho "phương sai" của nó sẽ có ý nghĩa.
  3. Nó cho phép bạn làm những thứ khác. Chỉ là một ví dụ, trong lớp thống kê của tôi, chúng tôi đã thấy một video về việc so sánh những người ném bóng (trong bóng chày) theo thời gian. Theo tôi nhớ, những người ném bóng dường như trở nên tồi tệ hơn vì tỷ lệ các cú ném bóng (hoặc chạy trên sân nhà) đang tăng lên. Một lý do là các batters đã trở nên tốt hơn. Điều này làm cho nó khó để so sánh bình đựng theo thời gian. Tuy nhiên, họ có thể sử dụng chỉ số z của bình để so sánh chúng theo thời gian.

Tuy nhiên, như @Pere đã nói, số liệu của bạn có thể chứng minh bản thân rất hữu ích trong tương lai.


1
Một phân phối bình thường cũng có thể được xác định bởi thời điểm trung tâm thứ tư và trung bình của nó, cho vấn đề đó - hoặc bằng nhiều cặp khoảnh khắc khác. Phương sai không đặc biệt theo cách đó.
whuber

@whuber thú vị. Tôi sẽ thừa nhận tôi đã không nhận ra điều đó. Tuy nhiên, trừ khi tôi nhầm, tất cả các khoảnh khắc là "phương sai như" ở chỗ chúng dựa trên khoảng cách từ một điểm nhất định trái ngược với việc xử lý các cặp điểm theo trình tự. Nhưng tôi sẽ chỉnh sửa câu trả lời của mình để ghi chú lại những gì bạn nói.
roundsapes

1
Bạn có thể giải thích ý nghĩa của từ "đối phó với các cặp điểm theo trình tự" không? Đó không phải là một phần của bất kỳ định nghĩa tiêu chuẩn về một khoảnh khắc. Cũng lưu ý rằng tất cả các khoảnh khắc tuyệt đối xung quanh giá trị trung bình - bao gồm tất cả các khoảnh khắc chẵn xung quanh giá trị trung bình - đưa ra "thước đo mức độ lan truyền dữ liệu". Do đó, người ta có thể xây dựng một điểm tương tự của điểm Z với chúng. Do đó, không có điểm nào trong ba điểm của bạn xuất hiện để phân biệt phương sai với bất kỳ thời điểm trung tâm tuyệt đối nào.
whuber

@whuber vâng. Câu hỏi ban đầu đặt ra một chuỗi 4 bước trong đó bạn sắp xếp các điểm, lấy sự khác biệt giữa từng điểm và điểm tiếp theo, sau đó tính trung bình các điểm này. Đó là những gì tôi gọi là "đối phó với các cặp điểm theo trình tự". Vì vậy, bạn đã đúng, không có điểm nào trong ba điểm tôi đưa ra để phân biệt phương sai với bất kỳ thời điểm trung tâm tuyệt đối nào - chúng có nghĩa là để phân biệt phương sai (và, tôi cho rằng, tất cả các khoảnh khắc trung tâm tuyệt đối) với quy trình được mô tả trong câu hỏi ban đầu.
roundsapes
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.