Tại sao chúng tôi nói lỗi còn lại Tiêu chuẩn lỗi?


14

Một sai số chuẩn là ước tính độ lệch chuẩn σ ( θ ) của một ước lượng θ cho một tham số θ .σ^(θ^)θ^θ

Tại sao độ lệch chuẩn ước tính của phần dư được gọi là "sai số chuẩn dư" (ví dụ: trong đầu ra của summary.lmhàm R ) và không phải là "độ lệch chuẩn còn lại"? Ước tính tham số nào chúng ta trang bị với một lỗi tiêu chuẩn ở đây?

Chúng ta có coi mỗi phần dư là một công cụ ước tính cho thuật ngữ lỗi "của nó" và ước tính lỗi tiêu chuẩn "gộp" của tất cả các công cụ ước tính này không?


6
Tôi nghĩ đó là một điều R. Tôi không nghĩ rằng các phần mềm khác nhất thiết phải sử dụng cụm từ đó, & 'độ lệch chuẩn còn lại' là phổ biến trong sách giáo khoa, vd. Tôi không có câu trả lời, nhưng tôi luôn nghĩ thật lạ khi R sử dụng cụm từ đó.
gung - Tái lập Monica

@gung: đó có thể là lời giải thích! Khi googling "lỗi tiêu chuẩn còn lại" trong dấu ngoặc kép, tôi chỉ nhận được 0,1% số lần truy cập so với không có dấu ngoặc kép ...
Michael M

Tôi có thể đặt nó như một câu trả lời (không), nếu bạn thích.
gung - Tái lập Monica

1
@gung thật buồn cười khi sử dụng phần mềm cụ thể định hình suy nghĩ của bạn: Tôi sẽ không bao giờ gọi nó là "sd dư" - phần dư không phải là dữ liệu mà là lỗi, vì vậy lỗi còn lại có vẻ là tên riêng. Nhưng nếu bạn nghĩ về nó thì nó thực sự có vẻ như là một thứ R.
Tim

2
@Tim, nó có thể được coi là một ước tính chính xác về độ lệch chuẩn của các lỗi , nhưng phần dư không phải là lỗi về mặt kỹ thuật. Đây cũng không phải là lỗi tiêu chuẩn của SD lỗi, vì những gì đáng giá.
gung - Tái lập Monica

Câu trả lời:


12

Tôi nghĩ rằng phrasing là cụ thể cho summary.lm()đầu ra của R. Lưu ý rằng giá trị cơ bản thực sự được gọi là "sigma" ( summary.lm()$sigma). Tôi không nghĩ phần mềm khác nhất thiết phải sử dụng tên đó cho độ lệch chuẩn của phần dư. Ngoài ra, ví dụ, cụm từ 'độ lệch chuẩn' là phổ biến trong sách giáo khoa. Tôi không biết làm thế nào mà nó trở thành cụm từ được sử dụng trong summary.lm()đầu ra của R , nhưng tôi luôn nghĩ nó thật kỳ lạ.


Làm thế nào summary.lm(reg)$sigmakhác với sd(reg$residuals)?
không kích

3
@ AndréTerra, mức độ tự do chính xác là n - p, đó là những gì tóm tắt sử dụng. sd sử dụng var sử dụng n - 1 độ tự do. Nếu bạn tính toán độ lệch chuẩn của phần dư chia cho n - p thì bạn sẽ nhận được câu trả lời giống như những gì tóm tắt cung cấp.
Jdub

3
Để chứng thực gung, tôi trích dẫn từ tài liệu R về stats::sigma: Lỗi sai quy định Tiêu chuẩn dư thừa lỗi là một phần của quá nhiều đầu ra R (và S) có thể dễ dàng thay đổi ở đó.
NRH

2

Từ khóa đào tạo kinh tế lượng của tôi, nó được gọi là "sai số chuẩn dư" bởi vì nó là ước tính của "độ lệch chuẩn dư" thực tế. Xem câu hỏi liên quan này này chứng thực thuật ngữ này.

Một tìm kiếm của Google cho cụm từ lỗi tiêu chuẩn còn lại cũng cho thấy rất nhiều lượt truy cập, do đó, đây không phải là một số lẻ R. Tôi đã thử cả hai thuật ngữ với dấu ngoặc kép và cả hai đều hiển thị khoảng 60.000 lần.


Hấp dẫn. Nhưng tại sao bạn lại gọi một ước tính về độ lệch chuẩn của bất kỳ biến ngẫu nhiên nào (như một thuật ngữ lỗi; và không phải là một công cụ ước tính cụ thể) là "lỗi tiêu chuẩn"?
Michael M

Suy nghĩ của tôi là chúng ta cần phải có một tên cho ước tính (để phân biệt với giá trị thực tế), bất kỳ tên nào cũng tốt như tên khác. Nhưng chắc chắn ai đó hiểu biết hơn về từ nguyên có thể đưa ra một lý do tốt hơn. Lưu ý rằng chắc chắn có song song với sai số chuẩn hệ số, đó là ước tính độ lệch chuẩn của ước tính hệ số.
Heisenberg

0

Nói một cách đơn giản, sai số chuẩn của mẫu là ước tính khoảng cách trung bình của mẫu có thể cách trung bình dân số, trong khi độ lệch chuẩn của mẫu là mức độ mà các cá nhân trong mẫu khác với mức trung bình của mẫu.

Lỗi tiêu chuẩn - Wikipedia, bách khoa toàn thư miễn phí


6
Điều này đúng, nhưng không thực sự trả lời câu hỏi. Cái mà R gọi là "lỗi tiêu chuẩn còn lại" không phải là "ước tính khoảng cách trung bình của mẫu có thể đến từ dân số".
gung - Tái lập Monica

0

Mô hình hồi quy được trang bị sử dụng các tham số để tạo dự đoán ước tính điểm là phương tiện của các phản hồi được quan sát nếu bạn sao chép nghiên cứu với cùng giá trị XX với số lần vô hạn ( khi mô hình tuyến tính là đúng ).

Sự khác biệt giữa các giá trị dự đoán này và các giá trị được sử dụng để phù hợp với mô hình được gọi là " Residuals ", khi sao chép quy trình thu thập dữ liệu, có các thuộc tính của các biến ngẫu nhiên với 0 có nghĩa. Phần dư được quan sát sau đó được sử dụng để ước tính độ biến thiên của các giá trị này và để ước tính phân phối lấy mẫu của các tham số.

Ghi chú:

Khi sai số chuẩn còn lại chính xác bằng 0 thì mô hình phù hợp với dữ liệu một cách hoàn hảo (có thể là do quá mức).

Nếu lỗi tiêu chuẩn còn lại không thể được hiển thị là khác biệt đáng kể so với độ biến thiên trong đáp ứng vô điều kiện, thì có rất ít bằng chứng cho thấy mô hình tuyến tính có bất kỳ khả năng dự đoán nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.