Quan sát độc lập của người Viking có nghĩa là gì?


28

Tôi đang cố gắng hiểu giả định của các quan sát độc lập nghĩa là gì. Một số định nghĩa là:

  1. "Hai sự kiện là độc lập khi và chỉ khi ." ( Từ điển thuật ngữ thống kê )P(mộtb)= =P(một)*P(b)
  2. "Sự xuất hiện của một sự kiện không làm thay đổi xác suất cho sự kiện khác" ( Wikipedia ).
  3. "Lấy mẫu một quan sát không ảnh hưởng đến việc lựa chọn quan sát thứ hai" ( David M. Lane ).

Một ví dụ về các quan sát phụ thuộc thường được đưa ra là học sinh được lồng trong giáo viên như dưới đây. Giả sử rằng giáo viên ảnh hưởng đến học sinh nhưng học sinh không ảnh hưởng lẫn nhau.

Vậy làm thế nào những định nghĩa này bị vi phạm cho những dữ liệu này? Lấy mẫu [lớp = 7] cho [học sinh = 1] không ảnh hưởng đến phân phối xác suất cho lớp sẽ được lấy mẫu tiếp theo. (Hay là vậy? Và nếu vậy, thì quan sát 1 dự đoán gì về lần quan sát tiếp theo?)

Tại sao các quan sát sẽ độc lập nếu tôi đo gender thay vì teacher_id? Không phải chúng ảnh hưởng đến các quan sát theo cùng một cách?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
Mọi người có thể gợi ý rằng việc phân phối điểm cho giáo viên 1 có giá trị "trung bình" thấp hơn so với giáo viên 2 và do đó, học sinh của giáo viên 1 sẽ có xu hướng có điểm trung bình thấp hơn so với học sinh của giáo viên 2. Nói cách khác , phân phối học sinh / lớp cho hai giáo viên cũng có thể là phân phối khác nhau. Điều đó sẽ đủ để đưa ra các quan sát phụ thuộc.
Phục hồi Monica - G. Simpson

1
@GavinSimpson: Tôi đã suy nghĩ về dòng lý luận chính xác này. Tuy nhiên, nếu tôi thay thế teacherbằng gendergì? Giới tính có mặt trong hầu hết các dữ liệu khoa học xã hội và tương quan với hầu hết mọi thứ ở một mức độ nào đó.
RubenGeert

1
Nó chắc chắn phải phụ thuộc vào phản ứng. Nếu chúng ta đang xem xét các lớp học sinh trong các ngành khoa học ở Anh, có lẽ sẽ có ảnh hưởng với các phân phối đạt được khác nhau cho hai giới tính, trung bình trên các quần thể bạn đang học. Dù sao, tất cả những điều này chỉ quan trọng (trong một mô hình thống kê) cho phần dư, hoặc đặt khác nhau cho các phản ứng có điều kiện trên mô hình được trang bị. Nói cách khác, nếu các quan sát không độc lập, thì cũng được miễn là mô hình tính đến điều này sao cho phần dư là độc lập.
Phục hồi Monica - G. Simpson

4
Bạn không thể lấy (1) hoặc (2) làm định nghĩa về tính độc lập (thống kê), bởi vì tính độc lập có thể được xác định mà không cần tham chiếu đến quan hệ nhân quả. Tất cả ba trích dẫn chỉ là những nỗ lực để cung cấp các ví dụ không chính thức, trực quan . ((3) có thể có thể được coi là một định nghĩa với điều kiện bạn có quyền truy cập vào một định nghĩa nghiêm ngặt về số lượng thông tin.) Do đó, nên tham khảo một định nghĩa thực tế như những định nghĩa xuất hiện dưới tiêu đề "Định nghĩa" trong bài viết Wikipedia bạn tham khảo.
whuber

1
Không, bạn có thể khiến phần độc lập (hoặc ít nhất là giảm sự phụ thuộc đến mức độ phần dư xuất hiện độc lập). Điều này nói lên từ các giả định của mô hình tuyến tính; nơi Λ là một ma trận tương quan. Giả định thông thường là Λ là một ma trận sắc, do đó off-đường chéo bằng không và do đó giả định độc lập là trên dư. Nói cách khác, đây là một tuyên bố về y có điều kiện trên mô hình được trang bị. ε~N(0,σ2Λ)ΛΛy
Phục hồi Monica - G. Simpson

Câu trả lời:


11

Trong lý thuyết xác suất, độc lập thống kê (mà không phải là giống như nguyên nhân độc lập) được định nghĩa là bất động sản (3) của bạn, nhưng (1) sau như một hệ quả . Các sự kiện AB được cho là độc lập thống kê khi và chỉ khi:AB

P(AB)=P(A)P(B).

Nếu thì nếu theo đó:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

Điều này có nghĩa là sự độc lập thống kê ngụ ý rằng sự xuất hiện của một sự kiện không ảnh hưởng đến xác suất của sự kiện khác. Một cách khác để nói điều này là sự xuất hiện của một sự kiện không nên thay đổi niềm tin của bạn về sự kiện kia. Khái niệm độc lập thống kê thường được mở rộng từ các sự kiện đến các biến ngẫu nhiên theo cách cho phép tạo ra các câu lệnh tương tự cho các biến ngẫu nhiên, bao gồm các biến ngẫu nhiên liên tục (không có xác suất nào về kết quả cụ thể). Điều trị độc lập cho các biến ngẫu nhiên về cơ bản bao gồm các định nghĩa tương tự được áp dụng cho các hàm phân phối.


Điều cốt yếu là phải hiểu rằng độc lập là một tài sản rất mạnh - nếu các sự kiện độc lập về mặt thống kê thì (theo định nghĩa) chúng ta không thể tìm hiểu về cái này từ việc quan sát cái kia. Vì lý do này, các mô hình thống kê thường liên quan đến các giả định về tính độc lập có điều kiện , được đưa ra một số phân phối hoặc tham số cơ bản. Khung khái niệm chính xác phụ thuộc vào việc người ta đang sử dụng phương pháp Bayes hay phương pháp cổ điển. Cái trước liên quan đến sự phụ thuộc rõ ràng giữa các giá trị có thể quan sát được, trong khi cái sau liên quan đến một hình thức phụ thuộc ngầm (phức tạp và tinh tế). Hiểu đúng vấn đề này đòi hỏi một chút hiểu biết về thống kê cổ điển so với Bayes.

Các mô hình thống kê thường sẽ nói rằng họ sử dụng một giả định rằng chuỗi các biến ngẫu nhiên là "độc lập và phân phối giống hệt nhau (IID)". Ví dụ: bạn có thể có một chuỗi có thể quan sát , có nghĩa là mỗi quan sát ngẫu nhiên biến X i thường được phân phối với trung bình μ và độ lệch chuẩn σX1,X2,X3,...IID N(μ,σ2)Xiμσ. Mỗi biến ngẫu nhiên trong chuỗi là "độc lập" với các biến khác theo nghĩa là kết quả của nó không thay đổi phân phối đã nêu của các giá trị khác. Trong loại mô hình này, chúng tôi sử dụng các giá trị quan sát của chuỗi để ước tính các tham số trong mô hình và sau đó chúng tôi có thể lần lượt dự đoán các giá trị không quan sát được của chuỗi. Điều này nhất thiết liên quan đến việc sử dụng một số giá trị quan sát để tìm hiểu về những người khác.

Thống kê Bayes: Mọi thứ đều đơn giản về mặt khái niệm. Giả sử rằng đang có điều kiện IID cho các thông số Lσ , và đối xử với những thông số không rõ là các biến ngẫu nhiên. Với bất kỳ phân phối trước không suy biến nào cho các tham số này, các giá trị trong chuỗi có thể quan sát được phụ thuộc (vô điều kiện), thường có tương quan dương. Do đó, điều hợp lý là chúng ta sử dụng các kết quả quan sát được để dự đoán các kết quả không quan sát được sau này - chúng độc lập có điều kiện, nhưng phụ thuộc vô điều kiện.X1,X2,X3,...μσ

Thống kê cổ điển: Điều này khá phức tạp và tinh tế. Giả sử rằng được cho IID các thông số LσX1,X2,X3,...μσ, nhưng coi các tham số đó là "hằng số chưa biết". Vì các tham số được coi là hằng số, không có sự khác biệt rõ ràng giữa độc lập có điều kiện và không điều kiện trong trường hợp này. Tuy nhiên, chúng tôi vẫn sử dụng các giá trị quan sát để ước tính các tham số và đưa ra dự đoán về các giá trị không quan sát được. Do đó, chúng tôi sử dụng các kết quả quan sát được để dự đoán các kết quả không quan sát được sau đó mặc dù chúng không "độc lập" với nhau. Sự không phù hợp rõ ràng này được thảo luận chi tiết trong O'Neill, B. (2009) Khả năng trao đổi, tương quan và hiệu ứng Bayes. Tạp chí thống kê quốc tế 77 (2) , trang 241 - 250 .


Áp dụng điều này để dữ liệu lớp sinh viên của bạn, bạn sẽ có thể mô hình một cái gì đó như thế này bằng cách giả sử rằng gradecó điều kiện độc lập GIVEN teacher_id. Bạn sẽ sử dụng dữ liệu để suy luận về phân phối chấm điểm cho từng giáo viên (sẽ không được coi là giống nhau) và điều này sẽ cho phép bạn đưa ra dự đoán về sự không biết gradecủa một học sinh khác. Bởi vì gradebiến được sử dụng trong suy luận, nó sẽ ảnh hưởng đến dự đoán của bạn về bất kỳ gradebiến không xác định nào cho một sinh viên khác. Thay thế teacher_idbằng genderkhông thay đổi điều này; trong cả hai trường hợp, bạn có một biến mà bạn có thể sử dụng làm công cụ dự đoán grade.

Nếu bạn sử dụng phương pháp Bayes, bạn sẽ có một giả định rõ ràng về sự độc lập có điều kiện và phân phối trước cho các phân phối của giáo viên và điều này dẫn đến sự phụ thuộc vô điều kiện (dự đoán) của các lớp, cho phép bạn sử dụng hợp lý một lớp trong dự đoán của bạn về một lớp khác. Nếu bạn đang sử dụng số liệu thống kê cổ điển, bạn sẽ có một giả định về tính độc lập (dựa trên các tham số là "hằng số chưa biết") và bạn sẽ sử dụng các phương pháp dự đoán thống kê cổ điển cho phép bạn sử dụng một lớp để dự đoán một lớp khác.


Có một số bài thuyết trình nền tảng của lý thuyết xác suất để xác định độc lập thông qua báo cáo kết quả xác xuất có điều kiện và sau đó đưa ra tuyên bố xác xuất chung như một hệ quả. Điều này ít phổ biến hơn.


6
Độc lập thống kê là rất nhiều những gì bạn mô tả trong phần đầu tiên của câu trả lời của bạn. Nhưng câu của bạn "... nếu các sự kiện độc lập thống kê thì (theo định nghĩa) chúng ta không thể tìm hiểu về cái này từ việc quan sát cái kia." là sai lầm trắng trợn . Thế giới đầy những sự kiện độc lập thống kê nhưng tương tự và các biến ngẫu nhiên.
Alecos Papadopoulos

1
Không "học" có nghĩa là thay đổi niềm tin của chúng ta về một thứ dựa trên sự quan sát của người khác? Nếu vậy, không độc lập (theo định nghĩa) có ngăn cản điều này?
Phục hồi Monica

6
Tôi sẽ đưa ra một nhận xét tương tự như của @Alecos. Ấn tượng chung mà người ta nhận được là bạn đang khẳng định rằng việc quan sát một nhận thức của một biến ngẫu nhiên không cho chúng ta biết gì về phân phối của nó , do đó bạn không thể dự đoán bất cứ điều gì về nhận thức độc lập thứ hai. Nếu đây là trường hợp, hầu hết các lý thuyết về lấy mẫu và ước tính sẽ không thể phát triển. Nhưng bạn đúng theo nghĩa là nếu chúng ta biết F và quan sát một nhận thức, điều đó cho chúng ta không có thêm thông tin nào về bất kỳ nhận thức độc lập nào khác . FF
whuber

4
Tôi nghĩ vấn đề ở đây là mô hình IID tiêu chuẩn với phân phối là mặc nhiên sử dụng một giả định về điều kiện độc lập cho kiến thức của F . Có điều kiện về kiến ​​thức về F , các quan sát là độc lập, nhưng vô điều kiện bạn có một tình huống trong đó mỗi quan sát cung cấp thông tin về F , sau đó ảnh hưởng đến niềm tin của bạn về các quan sát khác. FFFF
Phục hồi lại

2
Khó khăn trong vấn đề này là các số liệu thống kê cổ điển coi phân phối và tham số cơ bản là "hằng số chưa biết" và do đó không có sự phân biệt rõ ràng giữa độc lập có điều kiện hoặc không có điều kiện, trong trường hợp này. Trong thống kê Bayes, tất cả đều rất đơn giản.
Phục hồi lại

4

Hãy để bởi một k - vector ngẫu nhiên chiều, tức là một bộ sưu tập cố định vị trí của các biến ngẫu nhiên (chức năng thực thể đo lường được).x= =(X1,...,Xj,...,Xk)k-

Hãy xem xét nhiều vectơ như vậy, giả sử và lập chỉ mục các vectơ này theo i = 1 , . . . , n , vì vậy, nóintôi= =1,...,n

và coi chúng như một bộ sưu tập mang tên "mẫu",S=( x 1 ,..., x i ,..., x n ). Sau đó, chúng tôi gọi từngk-

xtôi= =(X1tôi,...,Xjtôi,...,Xktôi)
S= =(x1,...,xtôi,...,xn)k- vectơ một chiều "quan sát" (mặc dù nó thực sự chỉ trở thành một khi chúng ta đo lường và ghi lại các nhận thức của các biến ngẫu nhiên có liên quan).

Trước tiên, hãy xử lý trường hợp có hàm khối xác suất (PMF) hoặc hàm mật độ xác suất (PDF) tồn tại và khớp với các hàm đó. Suy ra bởi các PMF doanh hoặc PDF chung của mỗi vector ngẫu nhiên, và f ( x 1 , . . . , X i , . . . , X n ) các PMF doanh hoặc PDF chung của tất cả các vectơ với nhau. ftôi(xtôi),tôi= =1,...,nf(x1,...,xtôi,...,xn)

Sau đó, mẫu được gọi là "mẫu độc lập", nếu đẳng thức toán học sau giữ:S

f(x1,...,xtôi,...,xn)= =Πtôi= =1nftôi(xtôi),(x1,...,xtôi,...,xn)DS

Trong đó là miền chung được tạo bởi n vectơ / quan sát ngẫu nhiên.DSn

Điều này có nghĩa là "các quan sát" là "độc lập chung", (theo nghĩa thống kê hoặc "độc lập trong xác suất" như câu nói cũ vẫn còn được thấy ngày nay đôi khi). Thói quen đơn giản là gọi chúng là "những quan sát độc lập".

Lưu ý rằng thuộc tính độc lập thống kê ở đây là trên chỉ số , tức là giữa các quan sát. Nó không liên quan đến mối quan hệ xác suất / thống kê giữa các biến ngẫu nhiên trong mỗi quan sát là gì (trong trường hợp chung chúng tôi xử lý ở đây trong đó mỗi quan sát là đa chiều).tôi

Cũng lưu ý rằng trong trường hợp chúng ta có các biến ngẫu nhiên liên tục không có mật độ, thì ở trên có thể được biểu thị dưới dạng các hàm phân phối.

Đây là những gì "quan sát độc lập" có nghĩa là . Nó là một tài sản được xác định chính xác thể hiện bằng thuật ngữ toán học. Chúng ta hãy xem một số những gì nó ngụ ý .

MỘT SỐ HỘI NGHỊ CỦA VIỆC QUAN SÁT ĐỘC LẬP ĐỘC LẬP

A. Nếu hai quan sát là một phần của một nhóm các quan sát độc lập chung, thì chúng cũng là "độc lập theo cặp" (theo thống kê),

f(xtôi,xm)= =ftôi(xtôi)fm(xm)tôim,tôi,m= =1,...,n

Đến lượt điều này ngụ ý rằng các PMF / PDF có điều kiện bằng với các "lề"

f(xtôi|xm)= =ftôi(xtôi)tôim,tôi,m= =1,...,n

Điều này khái quát cho nhiều đối số, điều kiện hoặc điều kiện, nói

f(xtôi,x|xm)= =f(xtôi,x),f(xtôi|xm,x)= =ftôi(xtôi)

vv, miễn là các chỉ mục ở bên trái khác với các chỉ mục ở bên phải của đường thẳng đứng.

Điều này ngụ ý rằng nếu chúng ta thực sự quan sát một quan sát, xác suất đặc trưng cho bất kỳ quan sát nào khác của mẫu không thay đổi. Vì vậy, liên quan đến dự đoán , một mẫu độc lập không phải là người bạn tốt nhất của chúng tôi. Chúng tôi muốn có sự phụ thuộc để mỗi quan sát có thể giúp chúng tôi nói điều gì đó nhiều hơn về bất kỳ quan sát nào khác.

B. Mặt khác, một mẫu độc lập có nội dung thông tin tối đa. Mọi quan sát, độc lập, mang thông tin không thể suy ra, toàn bộ hoặc một phần, bởi bất kỳ quan sát nào khác trong mẫu. Vì vậy, tổng cộng là tối đa, so với bất kỳ mẫu so sánh nào tồn tại một số phụ thuộc thống kê giữa một số quan sát. Nhưng thông tin này có ích gì nếu nó không thể giúp chúng ta cải thiện dự đoán của mình?

Chà, đây là thông tin gián tiếp về xác suất đặc trưng cho các biến ngẫu nhiên trong mẫu. Những quan sát này càng có nhiều đặc điểm chung (phân phối xác suất chung trong trường hợp của chúng tôi), chúng tôi càng ở vị trí tốt hơn để khám phá chúng, nếu mẫu của chúng tôi độc lập.

Nói cách khác, nếu mẫu độc lập "phân phối giống hệt", nghĩa là

ftôi(xtôi)= =fm(xm)= =f(x),tôim

f(x)fj(xjtôi)

f(xtôi|xm)= =ftôi(xtôi)xtôi ftôi

Do đó, liên quan đến ước tính (đôi khi được sử dụng như một thuật ngữ bắt tất cả, nhưng ở đây cần tách biệt với khái niệm dự đoán ), một mẫu độc lập "người bạn tốt nhất" của chúng tôi, nếu nó được kết hợp với "phân phối giống hệt nhau" " bất động sản.

C. Nó cũng theo sau rằng một mẫu quan sát độc lập trong đó mỗi mẫu được đặc trưng bởi phân phối xác suất hoàn toàn khác nhau, không có đặc điểm chung nào, là một bộ sưu tập thông tin vô giá trị như mọi người có thể nhận được (tất nhiên là mỗi thông tin đều có xứng đáng, vấn đề ở đây là việc kết hợp những thứ này không thể kết hợp với nhau để cung cấp bất cứ điều gì hữu ích). Hãy tưởng tượng một mẫu chứa ba quan sát: một mẫu chứa (đặc điểm định lượng) của trái cây từ Nam Mỹ, một mẫu khác chứa núi ở châu Âu và thứ ba chứa quần áo từ châu Á. Thông tin khá thú vị cả ba người trong số họ - nhưng cùng nhau là một mẫu không thể làm bất cứ điều gì có ích về mặt thống kê cho chúng tôi.

Nói cách khác, một điều kiện cần và đủ để một mẫu độc lập trở nên hữu ích, là các quan sát có một số đặc điểm thống kê chung. Đây là lý do tại sao, trong Thống kê, từ "mẫu" không đồng nghĩa với "thu thập thông tin" nói chung, mà là "thu thập thông tin về các thực thể có một số đặc điểm chung".

ỨNG DỤNG VÀO VÍ DỤ DỮ LIỆU CỦA OP

Trả lời yêu cầu từ người dùng @gung, hãy xem xét ví dụ của OP về vấn đề trên. Chúng tôi hợp lý cho rằng chúng tôi đang ở trong một ngôi trường có nhiều hơn hai giáo viên và hơn sáu học sinh. Vì vậy, a) chúng tôi đang lấy mẫu cả học sinh và giáo viên và b) chúng tôi đưa vào dữ liệu của mình tập hợp điểm tương ứng với mỗi kết hợp giáo viên-học sinh.

GPTS= =(S1,...,S6)

S1= =(T1,P1,G1)S2= =(T1,P2,G2)S3= =(T1,P3,G3)S3= =(T2,P4,G4)S4= =(T2,P5,G5)S5= =(T2,P6,G6)

PtôiGtôi
T1,T2

S1,S2,S3T1S4,S5,S6T2

Lưu ý cẩn thận sự phân biệt giữa "cùng một biến ngẫu nhiên" và "hai biến ngẫu nhiên riêng biệt có phân phối giống hệt nhau".

S1,S2,S3T1S4,S5,S6T2

Giả sử bây giờ chúng tôi loại trừ biến "giáo viên" ngẫu nhiên khỏi mẫu của chúng tôi. Là mẫu (Học sinh, Lớp) của sáu quan sát, một mẫu độc lập? Ở đây, các giả định chúng ta sẽ đưa ra liên quan đến mối quan hệ cấu trúc giữa giáo viên, học sinh và điểm số là gì.

T1T2G1,G2,G3T1

Nhưng nói rằng giáo viên là giống hệt nhau trong khía cạnh đó. Sau đó, với giả định đã nêu "giáo viên ảnh hưởng đến học sinh", chúng ta lại thấy rằng ba quan sát đầu tiên phụ thuộc vào nhau, bởi vì giáo viên ảnh hưởng đến học sinh ảnh hưởng đến điểm số và chúng ta đạt được kết quả tương tự, mặc dù trong trường hợp này (và tương tự như vậy đối với ba cái khác). Vì vậy, một lần nữa, mẫu không độc lập.

TRƯỜNG HỢP GIỚI

GeM,F

S1= =(Ge1,P1,G1)S2= =(Ge2,P2,G2)S3= =(Ge3,P3,G3)S3= =(Ge4,P4,G4)S4= =(Ge5,P5,G5)S5= =(Ge6,P6,G6)

Lưu ý cẩn thận rằng những gì chúng tôi đưa vào mô tả của mẫu liên quan đến Giới tính, không phải là giá trị thực tế cần có cho mỗi học sinh, mà là biến ngẫu nhiên "Giới tính" . Nhìn lại phần đầu của câu trả lời rất dài này: Mẫu không được định nghĩa là tập hợp các số (hoặc các giá trị số cố định hoặc không cố định nói chung), mà là một tập hợp các biến ngẫu nhiên (nghĩa là các hàm).

Getôi1Ge1P2,P3,..., sau đó tắt nó đi một nguồn phụ thuộc có thể khác giữa các quan sát. Cuối cùng, giới tính của một học sinh có ảnh hưởng trực tiếp đến điểm của một học sinh khác không? nếu chúng tôi cho rằng không, chúng tôi sẽ lấy một mẫu độc lập (có điều kiện đối với tất cả các học sinh có cùng một giáo viên).


Tôi không đồng ý với quan điểm của bạn B. Đối với một số mục đích, như ước tính một giá trị trung bình, tương quan phủ định tốt hơn là độc lập.
kjetil b halvorsen

@kjetil Tốt hơn theo nghĩa nào?
Alecos Papadopoulos

Sẽ rất hữu ích nếu bạn có thể kết nối điều này một cách cụ thể với các câu hỏi của OP trong văn bản. Với điều này, làm thế nào để chúng ta hiểu rằng các quan sát được liệt kê là không độc lập? & làm thế nào để rời khỏi giáo viên khác với bỏ quan hệ tình dục?
gung - Phục hồi Monica

@gung Tôi bao gồm một số chi tiết dọc theo dòng bạn đề nghị.
Alecos Papadopoulos

Theo nghĩa tốt hơn là giảm phương sai
kjetil b halvorsen

2

Các định nghĩa về tính độc lập thống kê mà bạn đưa ra trong bài viết của mình về cơ bản là chính xác, nhưng chúng không đi vào cốt lõi của giả định độc lập trong một mô hình thống kê . Để hiểu những gì chúng tôi muốn nói với giả định về các quan sát độc lập trong một mô hình thống kê, sẽ rất hữu ích khi xem lại những gì một mô hình thống kê ở cấp độ khái niệm.

Các mô hình thống kê gần đúng với "súc sắc tự nhiên"

Chúng ta hãy sử dụng một ví dụ quen thuộc: chúng tôi thu thập một mẫu người trưởng thành ngẫu nhiên (từ một dân số được xác định rõ - giả sử, tất cả người trưởng thành trên trái đất) và chúng tôi đo chiều cao của họ. Chúng tôi muốn ước tính chiều cao trung bình dân số của người trưởng thành. Để làm điều này, chúng tôi xây dựng một mô hình thống kê đơn giản bằng cách giả sử rằng chiều cao của mọi người phát sinh từ một phân phối bình thường.

Mô hình của chúng tôi sẽ là một mô hình tốt nếu một phân phối bình thường cung cấp một xấp xỉ tốt cho cách tự nhiên "chọn" chiều cao cho mọi người. Đó là, nếu chúng ta mô phỏng dữ liệu theo mô hình bình thường của mình, liệu tập dữ liệu kết quả có giống với (theo nghĩa thống kê) những gì chúng ta quan sát được trong tự nhiên không? Trong bối cảnh mô hình của chúng tôi, trình tạo số ngẫu nhiên của chúng tôi có cung cấp mô phỏng tốt về quy trình ngẫu nhiên phức tạp mà tự nhiên sử dụng để xác định độ cao của người trưởng thành được chọn ngẫu nhiên ("xúc xắc tự nhiên") không?

Giả định độc lập trong bối cảnh mô hình đơn giản

Khi chúng tôi giả định rằng chúng tôi có thể ước chừng "xúc xắc tự nhiên" bằng cách vẽ các số ngẫu nhiên từ một phân phối bình thường, chúng tôi không có nghĩa là chúng tôi sẽ rút một số duy nhất từ ​​phân phối bình thường, sau đó gán chiều cao đó cho mọi người. Chúng tôi có nghĩa là chúng tôi sẽ độc lập rút số cho tất cả mọi người từ cùng một phân phối bình thường. Đây là giả định độc lập của chúng tôi.

Bây giờ hãy tưởng tượng rằng mẫu người lớn của chúng tôi không phải là một mẫu ngẫu nhiên, mà thay vào đó đến từ một số ít các gia đình. Chiều cao chạy trong một số gia đình, và chạy ngắn ở những người khác. Chúng tôi đã nói rằng chúng tôi sẵn sàng cho rằng chiều cao của tất cả người trưởng thành đến từ một phân phối bình thường. Nhưng lấy mẫu từ phân phối bình thường sẽ không cung cấp một tập dữ liệu trông giống mẫu của chúng tôi (mẫu của chúng tôi sẽ hiển thị "cụm" điểm, một số ngắn, cao khác - mỗi cụm là một gia đình). Độ cao của những người trong mẫu của chúng tôi không phải là những điểm độc lập so với phân phối bình thường.

Giả định độc lập trong bối cảnh mô hình phức tạp hơn

Nhưng không phải tất cả đều thua cuộc! Chúng tôi có thể viết ra một mô hình tốt hơn cho mẫu của chúng tôi - một mô hình duy trì sự độc lập của độ cao. Ví dụ, chúng ta có thể viết ra một mô hình tuyến tính trong đó độ cao phát sinh từ phân phối bình thường với giá trị trung bình phụ thuộc vào gia đình mà đối tượng thuộc về. Trong bối cảnh này, phân phối bình thường mô tả biến thể còn lại , SAU chúng ta tính đến ảnh hưởng của gia đình. Và các mẫu độc lập từ phân phối bình thường có thể là một mô hình tốt cho biến thể dư này.

Nhìn chung ở đây, những gì chúng tôi đã làm là viết ra một mô hình tinh vi hơn về cách chúng tôi mong đợi súc sắc của thiên nhiên hành xử trong bối cảnh nghiên cứu của chúng tôi. Bằng cách viết ra một mô hình tốt, chúng ta vẫn có thể có lý khi cho rằng phần ngẫu nhiên của mô hình (nghĩa là sự thay đổi ngẫu nhiên xung quanh ý nghĩa gia đình) được lấy mẫu độc lập cho mỗi thành viên trong dân số.

Giả định độc lập (có điều kiện) trong bối cảnh mô hình chung

Nói chung, các mô hình thống kê hoạt động bằng cách giả định rằng dữ liệu phát sinh từ một số phân phối xác suất. Các tham số của phân phối đó (như giá trị trung bình của phân phối bình thường trong ví dụ trên) có thể phụ thuộc vào hiệp phương sai (như gia đình trong ví dụ trên). Nhưng tất nhiên biến thể vô tận là có thể. Phân phối có thể không bình thường, tham số phụ thuộc vào hiệp phương sai có thể không phải là giá trị trung bình, dạng phụ thuộc có thể không tuyến tính, v.v. hành xử (một lần nữa, dữ liệu được mô phỏng theo mô hình sẽ trông giống thống kê với dữ liệu thực tế có được từ tự nhiên).

Khi chúng ta mô phỏng dữ liệu theo mô hình, bước cuối cùng sẽ luôn là vẽ một số ngẫu nhiên theo một số phân phối xác suất được mô hình hóa. Đây là những sức hút mà chúng ta cho là độc lập với nhau. Dữ liệu thực tế mà chúng tôi nhận được có thể trông không độc lập, bởi vì hiệp phương sai hoặc các tính năng khác của mô hình có thể cho chúng tôi sử dụng các phân phối xác suất khác nhau cho các lần rút khác nhau (hoặc tập hợp các lần rút). Nhưng tất cả các thông tin này phải được xây dựng trong chính mô hình. Chúng tôi không được phép để số cuối cùng ngẫu nhiên rút ra phụ thuộc vào giá trị nào chúng tôi đã vẽ cho các điểm dữ liệu khác. Do đó, các sự kiện cần phải độc lập là các cuộn "xúc xắc tự nhiên" trong bối cảnh mô hình của chúng tôi.

Rất hữu ích khi đề cập đến tình huống này là tính độc lập có điều kiện , có nghĩa là các điểm dữ liệu độc lập với nhau được đưa ra (nghĩa là có điều kiện) các hiệp phương sai. Trong ví dụ về chiều cao của chúng tôi, chúng tôi giả sử chiều cao của tôi và chiều cao của anh trai tôi đối với gia đình tôi là độc lập với nhau, và cũng độc lập với chiều cao của bạn và chiều cao của em gái bạn dựa trên gia đình bạn. Khi chúng tôi biết gia đình của ai đó, chúng tôi biết phân phối bình thường để rút ra để mô phỏng chiều cao của họ và mức độ rút ra cho các cá nhân khác nhau là độc lập bất kể gia đình của họ (mặc dù sự lựa chọn của chúng tôi về phân phối bình thường sẽ phụ thuộc vào gia đình). Cũng có thể là ngay cả sau khi xử lý cấu trúc gia đình của dữ liệu của chúng tôi, chúng tôi vẫn không đạt được sự độc lập có điều kiện tốt (ví dụ, có thể cũng rất quan trọng để mô hình hóa giới tính).

Cuối cùng, liệu có ý nghĩa gì khi cho rằng sự độc lập có điều kiện của các quan sát là một quyết định phải được thực hiện trong bối cảnh của một mô hình cụ thể. Đây là lý do tại sao, ví dụ, trong hồi quy tuyến tính, chúng tôi không kiểm tra dữ liệu đến từ phân phối bình thường, nhưng chúng tôi kiểm tra xem RESIDUALS đến từ phân phối bình thường (và từ phân phối bình thường CÙNG trên toàn bộ phạm vi của dữ liệu). Hồi quy tuyến tính giả định rằng, sau khi tính đến ảnh hưởng của hiệp phương sai (đường hồi quy), dữ liệu được lấy mẫu độc lập từ một phân phối bình thường, theo định nghĩa nghiêm ngặt về tính độc lập trong bài gốc.

Trong bối cảnh ví dụ của bạn

"Giáo viên" trong dữ liệu của bạn có thể giống như "gia đình" trong ví dụ về chiều cao.

Một vòng quay cuối cùng trên nó

Rất nhiều mô hình quen thuộc cho rằng phần dư phát sinh từ một phân phối bình thường. Hãy tưởng tượng tôi đã cung cấp cho bạn một số dữ liệu rất rõ ràng KHÔNG bình thường. Có lẽ họ đang bị sai lệch mạnh mẽ, hoặc có thể họ là người lưỡng tính. Và tôi nói với bạn "những dữ liệu này đến từ một bản phân phối bình thường."

"Không thể nào," bạn nói, "Rõ ràng là những người đó không bình thường!"

"Ai nói bất cứ điều gì về dữ liệu là bình thường?" Tôi nói. "Tôi chỉ nói rằng họ đến từ một phân phối bình thường."

"Một trong cùng một!" bạn nói. "Chúng tôi biết rằng một biểu đồ của mẫu lớn hợp lý từ phân phối bình thường sẽ có xu hướng trông xấp xỉ bình thường!"

"Nhưng," tôi nói, "Tôi chưa bao giờ nói dữ liệu được lấy mẫu độc lập từ phân phối bình thường. DO đến từ phân phối bình thường, nhưng chúng không rút ra độc lập."

Giả định về tính độc lập (có điều kiện) trong mô hình thống kê là có để ngăn chặn những kẻ thông minh như tôi bỏ qua việc phân phối phần dư và áp dụng sai mô hình.

Hai lưu ý cuối cùng

1) Thuật ngữ "xúc xắc tự nhiên" ban đầu không phải là của tôi, nhưng mặc dù đã tham khảo một vài tài liệu tham khảo, tôi không thể tìm ra nơi tôi có được nó trong bối cảnh này.

2) Một số mô hình thống kê (ví dụ: mô hình tự phát) không yêu cầu sự độc lập của các quan sát theo cách này. Cụ thể, chúng cho phép phân phối lấy mẫu cho một quan sát nhất định không chỉ phụ thuộc vào các hiệp phương thức cố định mà còn phụ thuộc vào dữ liệu xuất hiện trước nó.


Cảm ơn vì điều đó. Tôi thích nó được đặt theo một cách rất dễ tiếp cận. Bạn giải quyết vấn đề làm thế nào điều này diễn ra cho giáo viên, bạn có thể mở rộng cuộc thảo luận để giải quyết ý tưởng về tình dục như một đồng biến?
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.