Hãy để bởi một k - vector ngẫu nhiên chiều, tức là một bộ sưu tập cố định vị trí của các biến ngẫu nhiên (chức năng thực thể đo lường được).x =( X1, . . . , Xj, . . . , Xk)k -
Hãy xem xét nhiều vectơ như vậy, giả sử và lập chỉ mục các vectơ này theo i = 1 , . . . , n , vì vậy, nóini = 1 , . . . , n
và coi chúng như một bộ sưu tập mang tên "mẫu",S=( x 1 ,..., x i ,..., x n ). Sau đó, chúng tôi gọi từngk-
xtôi= ( X1 tôi, . . . , Xj i, . . . , Xk tôi)
S= ( X1, . . . , xtôi, . . . , xn)k - vectơ một chiều "quan sát" (mặc dù nó thực sự chỉ trở thành một khi chúng ta đo lường và ghi lại các nhận thức của các biến ngẫu nhiên có liên quan).
Trước tiên, hãy xử lý trường hợp có hàm khối xác suất (PMF) hoặc hàm mật độ xác suất (PDF) tồn tại và khớp với các hàm đó. Suy ra bởi các PMF doanh hoặc PDF chung của mỗi vector ngẫu nhiên, và f ( x 1 , . . . , X i , . . . , X n ) các PMF doanh hoặc PDF chung của tất cả các vectơ với nhau. ftôi( xtôi) ,i = 1 , . . . , nf( x1, . . . , xtôi, . . . , xn)
Sau đó, mẫu được gọi là "mẫu độc lập", nếu đẳng thức toán học sau giữ:S
f( x1, . . . , xtôi, . . . , xn) = ∏i = 1nftôi( xtôi) ,∀ ( x1, . . . , xtôi, . . . , xn) ∈ DS
Trong đó là miền chung được tạo bởi n vectơ / quan sát ngẫu nhiên.DSn
Điều này có nghĩa là "các quan sát" là "độc lập chung", (theo nghĩa thống kê hoặc "độc lập trong xác suất" như câu nói cũ vẫn còn được thấy ngày nay đôi khi). Thói quen đơn giản là gọi chúng là "những quan sát độc lập".
Lưu ý rằng thuộc tính độc lập thống kê ở đây là trên chỉ số , tức là giữa các quan sát. Nó không liên quan đến mối quan hệ xác suất / thống kê giữa các biến ngẫu nhiên trong mỗi quan sát là gì (trong trường hợp chung chúng tôi xử lý ở đây trong đó mỗi quan sát là đa chiều).tôi
Cũng lưu ý rằng trong trường hợp chúng ta có các biến ngẫu nhiên liên tục không có mật độ, thì ở trên có thể được biểu thị dưới dạng các hàm phân phối.
Đây là những gì "quan sát độc lập" có nghĩa là . Nó là một tài sản được xác định chính xác thể hiện bằng thuật ngữ toán học. Chúng ta hãy xem một số những gì nó ngụ ý .
MỘT SỐ HỘI NGHỊ CỦA VIỆC QUAN SÁT ĐỘC LẬP ĐỘC LẬP
A. Nếu hai quan sát là một phần của một nhóm các quan sát độc lập chung, thì chúng cũng là "độc lập theo cặp" (theo thống kê),
f( xtôi, xm) = ftôi( xtôi) fm( xm)∀ i ≠ m ,i , m = 1 , . . . , n
Đến lượt điều này ngụ ý rằng các PMF / PDF có điều kiện bằng với các "lề"
f( xtôi| xm) = ftôi( xtôi)∀ i ≠ m ,i , m = 1 , . . . , n
Điều này khái quát cho nhiều đối số, điều kiện hoặc điều kiện, nói
f( xtôi, xℓ| xm) = f( xtôi, xℓ) ,f( xtôi| xm, xℓ) = ftôi( xtôi)
vv, miễn là các chỉ mục ở bên trái khác với các chỉ mục ở bên phải của đường thẳng đứng.
Điều này ngụ ý rằng nếu chúng ta thực sự quan sát một quan sát, xác suất đặc trưng cho bất kỳ quan sát nào khác của mẫu không thay đổi. Vì vậy, liên quan đến dự đoán , một mẫu độc lập không phải là người bạn tốt nhất của chúng tôi. Chúng tôi muốn có sự phụ thuộc để mỗi quan sát có thể giúp chúng tôi nói điều gì đó nhiều hơn về bất kỳ quan sát nào khác.
B. Mặt khác, một mẫu độc lập có nội dung thông tin tối đa. Mọi quan sát, độc lập, mang thông tin không thể suy ra, toàn bộ hoặc một phần, bởi bất kỳ quan sát nào khác trong mẫu. Vì vậy, tổng cộng là tối đa, so với bất kỳ mẫu so sánh nào tồn tại một số phụ thuộc thống kê giữa một số quan sát. Nhưng thông tin này có ích gì nếu nó không thể giúp chúng ta cải thiện dự đoán của mình?
Chà, đây là thông tin gián tiếp về xác suất đặc trưng cho các biến ngẫu nhiên trong mẫu. Những quan sát này càng có nhiều đặc điểm chung (phân phối xác suất chung trong trường hợp của chúng tôi), chúng tôi càng ở vị trí tốt hơn để khám phá chúng, nếu mẫu của chúng tôi độc lập.
Nói cách khác, nếu mẫu độc lập và "phân phối giống hệt", nghĩa là
ftôi( xtôi) = fm( xm) = f( x ) ,i ≠ m
f( x )fj( xj i)
f( xtôi| xm) = ftôi( xtôi)xtôi ftôi
Do đó, liên quan đến ước tính (đôi khi được sử dụng như một thuật ngữ bắt tất cả, nhưng ở đây cần tách biệt với khái niệm dự đoán ), một mẫu độc lập là "người bạn tốt nhất" của chúng tôi, nếu nó được kết hợp với "phân phối giống hệt nhau" " bất động sản.
C. Nó cũng theo sau rằng một mẫu quan sát độc lập trong đó mỗi mẫu được đặc trưng bởi phân phối xác suất hoàn toàn khác nhau, không có đặc điểm chung nào, là một bộ sưu tập thông tin vô giá trị như mọi người có thể nhận được (tất nhiên là mỗi thông tin đều có xứng đáng, vấn đề ở đây là việc kết hợp những thứ này không thể kết hợp với nhau để cung cấp bất cứ điều gì hữu ích). Hãy tưởng tượng một mẫu chứa ba quan sát: một mẫu chứa (đặc điểm định lượng) của trái cây từ Nam Mỹ, một mẫu khác chứa núi ở châu Âu và thứ ba chứa quần áo từ châu Á. Thông tin khá thú vị cả ba người trong số họ - nhưng cùng nhau là một mẫu không thể làm bất cứ điều gì có ích về mặt thống kê cho chúng tôi.
Nói cách khác, một điều kiện cần và đủ để một mẫu độc lập trở nên hữu ích, là các quan sát có một số đặc điểm thống kê chung. Đây là lý do tại sao, trong Thống kê, từ "mẫu" không đồng nghĩa với "thu thập thông tin" nói chung, mà là "thu thập thông tin về các thực thể có một số đặc điểm chung".
ỨNG DỤNG VÀO VÍ DỤ DỮ LIỆU CỦA OP
Trả lời yêu cầu từ người dùng @gung, hãy xem xét ví dụ của OP về vấn đề trên. Chúng tôi hợp lý cho rằng chúng tôi đang ở trong một ngôi trường có nhiều hơn hai giáo viên và hơn sáu học sinh. Vì vậy, a) chúng tôi đang lấy mẫu cả học sinh và giáo viên và b) chúng tôi đưa vào dữ liệu của mình tập hợp điểm tương ứng với mỗi kết hợp giáo viên-học sinh.
GPTS= ( s1, . . . , s6)
S1= ( T1, P1, G1)S2= ( T1, P2, G2)S3= ( T1, P3, G3)S3= ( T2, P4, G4)S4= ( T2, P5, G5)S5= ( T2, P6, G6)
PtôiGtôi
T1, T2
S1, s2, s3T1S4, s5, s6T2
Lưu ý cẩn thận sự phân biệt giữa "cùng một biến ngẫu nhiên" và "hai biến ngẫu nhiên riêng biệt có phân phối giống hệt nhau".
S1, s2, s3T1S4, s5, s6T2
Giả sử bây giờ chúng tôi loại trừ biến "giáo viên" ngẫu nhiên khỏi mẫu của chúng tôi. Là mẫu (Học sinh, Lớp) của sáu quan sát, một mẫu độc lập?
Ở đây, các giả định chúng ta sẽ đưa ra liên quan đến mối quan hệ cấu trúc giữa giáo viên, học sinh và điểm số là gì.
T1T2G1, G2, G3T1
Nhưng nói rằng giáo viên là giống hệt nhau trong khía cạnh đó. Sau đó, với giả định đã nêu "giáo viên ảnh hưởng đến học sinh", chúng ta lại thấy rằng ba quan sát đầu tiên phụ thuộc vào nhau, bởi vì giáo viên ảnh hưởng đến học sinh ảnh hưởng đến điểm số và chúng ta đạt được kết quả tương tự, mặc dù trong trường hợp này (và tương tự như vậy đối với ba cái khác). Vì vậy, một lần nữa, mẫu không độc lập.
TRƯỜNG HỢP GIỚI
G eM, F
S1= ( G e1, P1, G1)S2= ( G e2, P2, G2)S3= ( G e3, P3, G3)S3= ( G e4, P4, G4)S4= ( G e5, P5, G5)S5= ( G e6, P6, G6)
Lưu ý cẩn thận rằng những gì chúng tôi đưa vào mô tả của mẫu liên quan đến Giới tính, không phải là giá trị thực tế cần có cho mỗi học sinh, mà là biến ngẫu nhiên "Giới tính" . Nhìn lại phần đầu của câu trả lời rất dài này: Mẫu không được định nghĩa là tập hợp các số (hoặc các giá trị số cố định hoặc không cố định nói chung), mà là một tập hợp các biến ngẫu nhiên (nghĩa là các hàm).
G etôi1G e1P2, P3, . . ., sau đó tắt nó đi một nguồn phụ thuộc có thể khác giữa các quan sát. Cuối cùng, giới tính của một học sinh có ảnh hưởng trực tiếp đến điểm của một học sinh khác không? nếu chúng tôi cho rằng không, chúng tôi sẽ lấy một mẫu độc lập (có điều kiện đối với tất cả các học sinh có cùng một giáo viên).