Liệu việc xác định giá trị trung bình và SD có nghĩa là mất một hoặc hai bậc tự do?


7

Tôi đang đối mặt với một số nghi ngờ trong việc hiểu mức độ tự do được xem xét trong phân phối.

Cụ thể, hãy tham khảo Biến sinh viên, nghĩa làt

(1)t=xx¯s^=xx¯(xix¯)2N1

Trong đó là biến gaussian, là giá trị trung bình, là độ lệch chuẩn lấy từ dữ liệu.xx¯s^=(xix¯)2N1

Hàm mật độ xác suất sinh viên là

(2)f(t)=C(1+t2ν)ν+12

Và trên sách giáo khoa của tôi, tôi thấy "vì trong xuất hiện giá trị trung bình , được tính từ dữ liệu, hàm ý mất một mức độ tự do".ν=N1(1)x¯

Câu hỏi: Không phải là sao? Trong tôi có cả và nên có hai tham số được xác định từ dữ liệu.ν=N2(1)s^x¯

Mặt khác, ở dạng thứ hai tôi đã viết trong , không xuất hiện, vì vậy có lẽ chỉ nên coi là một ràng buộc đối với dữ liệu. Nhưng điều này không có nhiều ý nghĩa.(1)s^x¯

Vì vậy, trong những trường hợp mà cả giá trị trung bình và độ lệch chuẩn được xác định từ dữ liệu, mức độ tự do bị mất 2 hay chỉ 1?

Đây là một nghi ngờ chung hơn: khi có nhiều hơn một tham số được xác định từ dữ liệu, nhưng theo một số cách, các tham số này có liên quan (vì nó dành cho và ), có bao nhiêu bậc tự do bị mất nếu tất cả các tham số này được xem xét?x¯s^

Ví dụ: tôi xác định tham số từ cùng một bộ dữ liệu. Tất cả các tham số có thể được biểu thị dưới dạng các hàm của dữ liệu . Bây giờ tôi xem xét tất cả các tham số cùng nhau: tôi đã mất bao nhiêu bậc tự do? hay chỉ ?qp1,p2,...,pqp2,...,pqp1q1


Khi bạn ước tính s ^ bạn đã mất một df, vì vậy có lẽ nó được nhúng trong đó và khi bạn sử dụng s ^ bạn không cần phải đưa nó trở lại tài khoản?
EBH

Bạn đã đúng: điều này không có nhiều ý nghĩa. Đó là lý do tại sao một biểu thức như vậy cho không bao giờ được sử dụng! Trong thực tế, chúng tôi so sánh trung bình của dữ liệu với một số thống kê hoặc số khác, nhưng chúng tôi không sử dụng để so sánh riêng lẻ với giá trị trung bình của chúng. Tôi tự tin rằng cách diễn đạt trong sách giáo khoa của bạn khác với những gì bạn đang trích dẫn ở đây. tx¯x1,,xntxi
whuber

Câu trả lời:


1

Phân phối T được định nghĩa là phân phối tỷ lệ của một biến ngẫu nhiên tiêu chuẩn thông thường và một biến ngẫu nhiên quy mô độc lập. Thông số độ tự do của nó bằng với tham số độ tự do cho biến ngẫu nhiên chi trong mẫu số của nó . Vì vậy, tham số DF là vấn đề xác định mức độ tự do của công cụ ước tính phương sai mà bạn đang sử dụng.

Hãy nhớ rằng: Phân phối T chỉ phát sinh khi bạn lấy tỷ lệ của biến ngẫu nhiên bình thường và mẫu số là một loại công cụ ước tính độ lệch chuẩn (căn bậc hai của công cụ ước lượng phương sai). Điều này giả định rằng đã có một công cụ ước tính phương sai trong hình. Mất tự do độ sau đó xảy ra từ ước tính trung bình (hoặc trong bối cảnh hồi quy, từ ước tính nhiều hệ số).


Có thể hình thành số lượng tương tự như số lượng bạn đã hiển thị và tìm phân phối của chúng. Giả sử chúng ta có và chúng ta tạo thành một số giá trị được tiêu chuẩn hóa. Nếu chúng tôi giả sử rằng được biết nhưng không xác định, chúng tôi sẽ chuẩn hóa bằng cách xác định thống kê T:X1,...,XnIID N(μ,σ2)μσ

TμXiμSμ=Xiμσ/SμσT(n),

Trong đó là công cụ ước tính phương sai mẫu với . Đại lượng là biến ngẫu nhiên có tỷ lệ với bậc tự do, do đó, thống kê có phân phối T với bậc tự do. Đây là một trường hợp cơ bản khi mà không có bất kỳ sự mất tự do nào, mặc dù chúng tôi đã ước tính phương sai.Sμ21ni=1n(Xiμ)2μSμ/σnTμn

Bây giờ, trong trường hợp cũng không xác định, chúng ta sẽ thay thế trung bình đã biết trong công cụ ước tính phương sai bằng trung bình mẫu mà chúng ta có:μμx¯

TXiμS=Xiμσ/SσT(n1),

Trong đó là công cụ ước tính phương sai mẫu không xác định . Đại lượng là biến ngẫu nhiên có tỷ lệ chi tiết với độ tự do, do đó, thống kê có phân phối T với độ tự do. Chúng tôi đã mất một bậc tự do do ước tính giá trị trung bình bên trong công cụ ước tính phương sai .S21n1i=1n(Xix¯)2μS/σn1Tn1


Hy vọng điều này sẽ giúp bạn hiểu vấn đề này. Khái niệm mức độ tự do, trong bối cảnh nói về phân phối T, giả định rằng đã có một số ước lượng phương sai được sử dụng cho sinh viên. Ước tính tham số trung bình (hoặc tham số hệ số trong hồi quy) làm thay đổi công cụ ước tính phương sai này bằng cách làm cho nó ít biến hơn và điều này dẫn đến việc mất độ tự do.


0

Hãy xem xét một ví dụ để hiểu mức độ tự do:

Giả sử chúng ta có 5 quan sát, . Nếu tôi cho bạn biết giá trị trung bình của tập dữ liệu này ( ) nhưng không phải là giá trị của các quan sát, bạn có thể tạo thành bốn giá trị mà không thay đổi giá trị trung bình. Nếu bạn chọn làm bốn quan sát đầu tiên của bạn, thì số cuối cùng để chọn phải là nếu giá trị trung bình được cố định ở . Nếu chúng ta chỉ quan tâm đến giá trị trung bình, thì chúng ta có một phương trình và một ẩn số.(1,2,1,3,5)2.4(3,4,3,5)32.4

Nếu bạn có quan sát với một giá trị trung bình cố định, bạn có quyền tự do chọn bất kỳ số nào bạn muốn mà không thay đổi giá trị trung bình - nhưng quan sát được xác định. Tuy nhiên, lưu ý rằng tôi đã chọn giá trị trong đoạn văn trên một cách tùy ý, vì vậy tôi có thể đã chọn một giá trị khác. Do đó, tôi có độ tự do khỏi dữ liệu và độ tự do vì tôi đã chọn giá trị trung bình, vì vậy tôi có bậc tự do nếu tôi ước tính 1 tham số.nn1nth2.4n11n

Bây giờ, giả sử tôi nói cho bạn biết giá trị trung bình độ lệch chuẩn: cho cùng một mẫu của , giá trị trung bình là và độ lệch chuẩn là . Bây giờ tôi có thể chọn ba trong số năm số và hai số cuối sẽ được xác định (hai phương trình, hai ẩn số). Tuy nhiên, các tham số hơi khác nhau một chút, vì độ lệch chuẩn của mẫu là một hàm của giá trị trung bình mẫu - chúng không độc lập với nhau. Điều này có nghĩa là tôi có độ tự do khỏi dữ liệu, nhưng vẫn chỉ có độ tự do khỏi các tham số, với tổng số độ tự do.(1,2,1,3,5)2.41.673n21n1

Xem câu hỏi Stack Exchange này để biết thêm thông tin.


1
Bạn đã đi theo một hướng tốt, nhưng các ý kiến ​​ở cuối là không chính xác. SD mẫu không phải là chức năng của giá trị trung bình mẫu (ngoại trừ mẫu 1). Các nhận xét về các tham số dường như không xuất hiện, hoàn toàn nhầm lẫn hai khái niệm "độc lập" (thống kê và chức năng) và không có bất kỳ liên quan rõ ràng nào về câu hỏi về phân phối mẫu thống kê. Các câu trả lời cho câu hỏi trên trang web toán học bị hạn chế và không có ý nghĩa. Sự thật phức tạp và thú vị hơn nhiều: xem chủ đề của chúng tôi về chủ đề này tại stats.stackexchange.com/questions/16921 .
whuber

1
Tôi thường sử dụng ví dụ này để dạy cho sinh viên năm nhất của tôi, nhưng rõ ràng nó thất bại dưới bất kỳ kiểm tra nghiêm ngặt nào. Tôi nghĩ rằng nó sẽ phù hợp với mức độ của câu hỏi, nhưng có vẻ như tôi đã sai. Tôi không biết làm thế nào để thảo luận về mức độ tự do về mặt kỹ thuật mà không nói về thứ hạng của ma trận Hat. Cảm ơn bạn đã liên kết và thông tin phản hồi. Tôi sẽ kiểm tra.
Gabriel J. Odom

@whuber, cảm ơn bạn cho chủ đề đó. Tôi có bằng tiến sĩ về thống kê và tôi không biết một nửa những gì bạn đã đề cập. Tôi cảm thấy như một kẻ ngốc hoàn toàn bây giờ.
Gabriel J. Odom

Không cần phải cảm thấy như vậy! Lý do nhiều người trong chúng ta đi chơi ở đây là chúng ta thường đọc những bài đăng tiết lộ chúng ta biết ít như thế nào (hoặc thậm chí tốt hơn, những gì chúng ta nghĩ rằng chúng ta biết là không như vậy), bởi vì chúng ta học được rất nhiều từ họ. Những người táo bạo hơn (hoặc ngu ngốc hơn), như tôi, thậm chí còn học hỏi nhiều hơn bằng cách mạo hiểm thường xuyên để trả lời và nhận xét, nơi mà những sai lầm của chúng ta trở nên rõ ràng cho tất cả mọi người nhìn thấy. (Tôi đã đưa ra nhận xét thực sự ngu ngốc cuối cùng của mình chỉ năm phút trước ....)
whuber

Cảm ơn sự khích lệ của Giáo sư @whuber. Tôi thực sự đánh giá cao nó :)
Gabriel J. Odom
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.