Lý do rõ ràng nhất là thường không có chuỗi thời gian trong các giá trị. Vì vậy, nếu bạn làm xáo trộn dữ liệu, nó không tạo ra sự khác biệt trong thông tin được truyền tải bởi dữ liệu. Nếu chúng tôi làm theo phương pháp của bạn, thì mỗi lần bạn làm xáo trộn dữ liệu bạn sẽ nhận được một phương sai mẫu khác nhau.
Câu trả lời lý thuyết hơn là phương sai mẫu ước tính phương sai thực sự của một biến ngẫu nhiên. Phương sai thực sự của một biến ngẫu nhiên là
E [ ( X - E X ) 2 ] .X
E[(X−EX)2].
Ở đây đại diện cho kỳ vọng hoặc "giá trị trung bình". Vì vậy, định nghĩa của phương sai là khoảng cách bình phương trung bình giữa biến từ giá trị trung bình của nó. Khi bạn nhìn vào định nghĩa này, không có "thứ tự thời gian" ở đây vì không có dữ liệu. Nó chỉ là một thuộc tính của biến ngẫu nhiên.E
Khi bạn thu thập dữ liệu iid từ phân phối này, bạn có ngộ . Cách tốt nhất để ước tính kỳ vọng là lấy trung bình mẫu. Chìa khóa ở đây là chúng tôi có dữ liệu iid và do đó không có thứ tự nào cho dữ liệu. Mẫu x 1 , x 2 , ... , x n là tương tự như các mẫu x 2 , x 5 , x 1 , x n . .x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn..
CHỈNH SỬA
Phương sai mẫu đo một loại phân tán cụ thể cho mẫu, loại đo khoảng cách trung bình từ giá trị trung bình. Có nhiều loại phân tán khác như phạm vi dữ liệu và phạm vi Inter-Quantile.
Ngay cả khi bạn sắp xếp các giá trị của mình theo thứ tự tăng dần, điều đó không thay đổi các đặc tính của mẫu. Mẫu (dữ liệu) bạn nhận được là các nhận thức từ một biến. Tính toán phương sai mẫu giống như hiểu được mức độ phân tán trong biến. Vì vậy, ví dụ, nếu bạn lấy mẫu 20 người và tính chiều cao của họ, thì đó là 20 "hiện thực hóa" từ biến ngẫu nhiên chiều cao của người. Bây giờ phương sai mẫu được cho là để đo lường sự thay đổi về chiều cao của các cá nhân nói chung. Nếu bạn đặt hàng dữ liệu
100 , 110 , 123 , 124 , ... ,X=
100,110,123,124,…,
Điều đó không thay đổi thông tin trong mẫu.
Hãy nhìn vào một ví dụ nữa. giả sử bạn có 100 quan sát từ một biến ngẫu nhiên được sắp xếp theo cách này Sau đó, khoảng cách trung bình tiếp theo là 1 đơn vị, do đó, theo phương pháp của bạn, phương sai sẽ là 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
Cách để giải thích "phương sai" hoặc "phân tán" là hiểu phạm vi giá trị nào có khả năng cho dữ liệu. Trong trường hợp này, bạn sẽ nhận được một phạm vi 0,99 đơn vị, tất nhiên không đại diện cho biến thể tốt.
Nếu thay vì lấy trung bình, bạn chỉ cần tính tổng các chênh lệch tiếp theo, thì phương sai của bạn sẽ là 99. Tất nhiên điều đó không đại diện cho tính biến thiên trong mẫu, bởi vì 99 cung cấp cho bạn phạm vi dữ liệu, không phải là cảm giác biến đổi.