Tôi cảm thấy hơi sốc khi lần đầu tiên tôi thực hiện mô phỏng Monte Carlo phân phối bình thường và phát hiện ra rằng giá trị trung bình của độ lệch chuẩn từ mẫu, tất cả đều có cỡ mẫu chỉ , được chứng minh là ít hơn nhiều hơn, tức là trung bình lần, được sử dụng để tạo dân số. Tuy nhiên, điều này được biết đến, nếu hiếm khi nhớ, và tôi đã biết, hoặc tôi sẽ không thực hiện một mô phỏng. Đây là một mô phỏng.
Dưới đây là một ví dụ để dự đoán khoảng tin cậy 95% của bằng 100, , ước tính của và .
RAND() RAND() Calc Calc
N(0,1) N(0,1) SD E(s)
-1.1171 -0.0627 0.7455 0.9344
1.7278 -0.8016 1.7886 2.2417
1.3705 -1.3710 1.9385 2.4295
1.5648 -0.7156 1.6125 2.0209
1.2379 0.4896 0.5291 0.6632
-1.8354 1.0531 2.0425 2.5599
1.0320 -0.3531 0.9794 1.2275
1.2021 -0.3631 1.1067 1.3871
1.3201 -1.1058 1.7154 2.1499
-0.4946 -1.1428 0.4583 0.5744
0.9504 -1.0300 1.4003 1.7551
-1.6001 0.5811 1.5423 1.9330
-0.5153 0.8008 0.9306 1.1663
-0.7106 -0.5577 0.1081 0.1354
0.1864 0.2581 0.0507 0.0635
-0.8702 -0.1520 0.5078 0.6365
-0.3862 0.4528 0.5933 0.7436
-0.8531 0.1371 0.7002 0.8775
-0.8786 0.2086 0.7687 0.9635
0.6431 0.7323 0.0631 0.0791
1.0368 0.3354 0.4959 0.6216
-1.0619 -1.2663 0.1445 0.1811
0.0600 -0.2569 0.2241 0.2808
-0.6840 -0.4787 0.1452 0.1820
0.2507 0.6593 0.2889 0.3620
0.1328 -0.1339 0.1886 0.2364
-0.2118 -0.0100 0.1427 0.1788
-0.7496 -1.1437 0.2786 0.3492
0.9017 0.0022 0.6361 0.7972
0.5560 0.8943 0.2393 0.2999
-0.1483 -1.1324 0.6959 0.8721
-1.3194 -0.3915 0.6562 0.8224
-0.8098 -2.0478 0.8754 1.0971
-0.3052 -1.1937 0.6282 0.7873
0.5170 -0.6323 0.8127 1.0186
0.6333 -1.3720 1.4180 1.7772
-1.5503 0.7194 1.6049 2.0115
1.8986 -0.7427 1.8677 2.3408
2.3656 -0.3820 1.9428 2.4350
-1.4987 0.4368 1.3686 1.7153
-0.5064 1.3950 1.3444 1.6850
1.2508 0.6081 0.4545 0.5696
-0.1696 -0.5459 0.2661 0.3335
-0.3834 -0.8872 0.3562 0.4465
0.0300 -0.8531 0.6244 0.7826
0.4210 0.3356 0.0604 0.0757
0.0165 2.0690 1.4514 1.8190
-0.2689 1.5595 1.2929 1.6204
1.3385 0.5087 0.5868 0.7354
1.1067 0.3987 0.5006 0.6275
2.0015 -0.6360 1.8650 2.3374
-0.4504 0.6166 0.7545 0.9456
0.3197 -0.6227 0.6664 0.8352
-1.2794 -0.9927 0.2027 0.2541
1.6603 -0.0543 1.2124 1.5195
0.9649 -1.2625 1.5750 1.9739
-0.3380 -0.2459 0.0652 0.0817
-0.8612 2.1456 2.1261 2.6647
0.4976 -1.0538 1.0970 1.3749
-0.2007 -1.3870 0.8388 1.0513
-0.9597 0.6327 1.1260 1.4112
-2.6118 -0.1505 1.7404 2.1813
0.7155 -0.1909 0.6409 0.8033
0.0548 -0.2159 0.1914 0.2399
-0.2775 0.4864 0.5402 0.6770
-1.2364 -0.0736 0.8222 1.0305
-0.8868 -0.6960 0.1349 0.1691
1.2804 -0.2276 1.0664 1.3365
0.5560 -0.9552 1.0686 1.3393
0.4643 -0.6173 0.7648 0.9585
0.4884 -0.6474 0.8031 1.0066
1.3860 0.5479 0.5926 0.7427
-0.9313 0.5375 1.0386 1.3018
-0.3466 -0.3809 0.0243 0.0304
0.7211 -0.1546 0.6192 0.7760
-1.4551 -0.1350 0.9334 1.1699
0.0673 0.4291 0.2559 0.3207
0.3190 -0.1510 0.3323 0.4165
-1.6514 -0.3824 0.8973 1.1246
-1.0128 -1.5745 0.3972 0.4978
-1.2337 -0.7164 0.3658 0.4585
-1.7677 -1.9776 0.1484 0.1860
-0.9519 -0.1155 0.5914 0.7412
1.1165 -0.6071 1.2188 1.5275
-1.7772 0.7592 1.7935 2.2478
0.1343 -0.0458 0.1273 0.1596
0.2270 0.9698 0.5253 0.6583
-0.1697 -0.5589 0.2752 0.3450
2.1011 0.2483 1.3101 1.6420
-0.0374 0.2988 0.2377 0.2980
-0.4209 0.5742 0.7037 0.8819
1.6728 -0.2046 1.3275 1.6638
1.4985 -1.6225 2.2069 2.7659
0.5342 -0.5074 0.7365 0.9231
0.7119 0.8128 0.0713 0.0894
1.0165 -1.2300 1.5885 1.9909
-0.2646 -0.5301 0.1878 0.2353
-1.1488 -0.2888 0.6081 0.7621
-0.4225 0.8703 0.9141 1.1457
0.7990 -1.1515 1.3792 1.7286
0.0344 -0.1892 0.8188 1.0263 mean E(.)
SD pred E(s) pred
-1.9600 -1.9600 -1.6049 -2.0114 2.5% theor, est
1.9600 1.9600 1.6049 2.0114 97.5% theor, est
0.3551 -0.0515 2.5% err
-0.3551 0.0515 97.5% err
Kéo thanh trượt xuống để xem tổng số lớn. Bây giờ, tôi đã sử dụng công cụ ước tính SD thông thường để tính khoảng tin cậy 95% xung quanh giá trị trung bình bằng 0 và chúng bị tắt bởi 0,371 đơn vị độ lệch chuẩn. Công cụ ước tính E (s) bị tắt chỉ 0,0515 đơn vị độ lệch chuẩn. Nếu người ta ước tính độ lệch chuẩn, sai số chuẩn của giá trị trung bình hoặc thống kê t, có thể có vấn đề.
Lý do của tôi là như sau, trung bình dân số, , của hai giá trị có thể ở bất kỳ đâu đối với và chắc chắn không nằm ở , sau này tạo ra tổng tối thiểu tuyệt đối có thể bình phương để chúng ta đánh giá thấp đáng kể, như saux 1 x 1 + x 2 σ
wlog hãy , sau đó là , kết quả ít nhất có thể.Σ n i = 1 ( x i - ˉ x ) 2 2 ( d
Điều đó có nghĩa là độ lệch chuẩn được tính là
,
là một công cụ ước tính sai lệch của độ lệch chuẩn dân số ( ). Lưu ý, trong công thức đó, chúng tôi giảm độ tự do của cho 1 và chia cho , nghĩa là chúng tôi thực hiện một số hiệu chỉnh, nhưng nó chỉ đúng về mặt không có triệu chứng, và sẽ là một quy tắc tốt hơn . Đối với ví dụ của chúng tôi, công thức sẽ cung cấp cho chúng tôi , một giá trị tối thiểu có thể thống kê là , trong đó ( ) giá trị mong đợi tốt hơn sẽ làn n - 1 n - 3 / 2 x 2 - x 1 = d SD S D = dL≠ˉxsE(s)=√n<10SDσn25n<25n=1000. Đối với phép tính thông thường, đối với , s bị đánh giá thấp rất đáng kể được gọi là sai lệch số nhỏ , chỉ đạt mức đánh giá thấp 1% của khi xấp xỉ . Vì nhiều thí nghiệm sinh học có , đây thực sự là một vấn đề. Với , sai số xấp xỉ 25 phần trong 100.000. Nói chung, hiệu chỉnh sai lệch số nhỏ ngụ ý rằng công cụ ước lượng không thiên vị về độ lệch chuẩn dân số của phân phối chuẩn là
Từ Wikipedia theo giấy phép commons sáng tạo, người ta có một âm mưu đánh giá thấp SD của
Vì SD là một công cụ ước tính sai lệch của độ lệch chuẩn dân số, nên nó không thể là công cụ ước lượng không thiên vị tối thiểu MVUE của độ lệch chuẩn dân số trừ khi chúng tôi hài lòng khi nói rằng đó là MVUE là , mà tôi, đối với một người, thì không.
Liên quan đến các bản phân phối không bình thường và không thiên vị đọc điều này .
Bây giờ đến câu hỏi Q1
Có thể chứng minh rằng ở trên là MVUE cho của phân phối chuẩn của cỡ mẫu , trong đó là số nguyên dương lớn hơn một?σ n n
Gợi ý: (Nhưng không phải là câu trả lời) xem Làm thế nào tôi có thể tìm thấy độ lệch chuẩn của độ lệch chuẩn mẫu so với phân phối chuẩn? .
Câu hỏi tiếp theo, quý 2
Ai đó vui lòng giải thích cho tôi tại sao chúng tôi vẫn sử dụng vì nó rõ ràng sai lệch và sai lệch? Đó là, tại sao không sử dụng cho hầu hết mọi thứ? E ( s )Bổ sung, nó đã trở nên rõ ràng trong các câu trả lời dưới đây rằng phương sai là không thiên vị, nhưng căn bậc hai của nó là sai lệch. Tôi sẽ yêu cầu câu trả lời giải quyết câu hỏi khi nào nên sử dụng độ lệch chuẩn không thiên vị.
Hóa ra, một câu trả lời một phần là để tránh sai lệch trong mô phỏng ở trên, phương sai có thể được tính trung bình thay vì giá trị SD. Để thấy tác động của điều này, nếu chúng ta bình phương cột SD ở trên và tính trung bình các giá trị đó, chúng ta nhận được 0,9994, căn bậc hai là ước tính độ lệch chuẩn 0,996915 và sai số chỉ là 0,0006 cho đuôi 2,5% và -0.0006 cho đuôi 95%. Lưu ý rằng điều này là do phương sai là phụ gia, vì vậy tính trung bình cho chúng là một thủ tục lỗi thấp. Tuy nhiên, độ lệch chuẩn là sai lệch và trong những trường hợp chúng ta không có sự xa xỉ trong việc sử dụng phương sai làm trung gian, chúng ta vẫn cần hiệu chỉnh số lượng nhỏ. Ngay cả khi chúng ta có thể sử dụng phương sai làm trung gian, trong trường hợp này là, hiệu chỉnh mẫu nhỏ cho thấy nhân căn bậc hai của phương sai không thiên vị 0,9996915 với 1,002528401 để đưa ra 1,002219148 như một ước tính không thiên vị về độ lệch chuẩn. Vì vậy, vâng, chúng ta có thể trì hoãn sử dụng hiệu chỉnh số nhỏ nhưng do đó chúng ta có nên bỏ qua hoàn toàn không?
Câu hỏi ở đây là khi nào chúng ta nên sử dụng hiệu chỉnh số nhỏ, trái với việc bỏ qua việc sử dụng nó, và chủ yếu, chúng ta đã tránh sử dụng nó.
Dưới đây là một ví dụ khác, số điểm tối thiểu trong không gian để thiết lập xu hướng tuyến tính có lỗi là ba. Nếu chúng ta khớp các điểm này với bình phương tối thiểu thông thường, kết quả cho nhiều điểm phù hợp như vậy là một mẫu dư bình thường được gấp lại nếu có phi tuyến tính và một nửa bình thường nếu có tuyến tính. Trong trường hợp nửa bình thường, phân phối của chúng tôi có nghĩa là yêu cầu hiệu chỉnh số lượng nhỏ. Nếu chúng tôi thử cùng một mẹo với 4 điểm trở lên, phân phối nói chung sẽ không liên quan bình thường hoặc dễ đặc trưng. Chúng ta có thể sử dụng phương sai để kết hợp các kết quả 3 điểm đó bằng cách nào đó không? Có lẽ, có lẽ không. Tuy nhiên, nó dễ dàng hơn để hình dung các vấn đề về khoảng cách và vectơ.