Ước tính phương sai của các mẫu Bình thường được kiểm duyệt ở trung tâm


11

Tôi có các quy trình phân phối bình thường từ đó tôi lấy các mẫu nhỏ ( n thường là 10-30) mà tôi muốn sử dụng để ước tính phương sai. Nhưng thường thì các mẫu rất gần nhau đến mức chúng ta không thể đo các điểm riêng lẻ gần trung tâm.

Tôi có một sự hiểu biết mơ hồ rằng chúng ta sẽ có thể xây dựng một công cụ ước tính hiệu quả bằng cách sử dụng các mẫu được đặt hàng: Ví dụ: nếu tôi biết mẫu chứa 20 điểm và 10 điểm được phân cụm gần trung tâm quá chặt để đo riêng lẻ, nhưng tôi có các phép đo riêng biệt 5 trên một trong hai đuôi, có cách tiếp cận tiêu chuẩn / công thức để ước tính phương sai quy trình sử dụng tối ưu các mẫu như vậy không?

(Lưu ý rằng tôi không nghĩ mình chỉ có thể cân trung bình trung bình. Ví dụ: có thể 7 mẫu được phân cụm chặt chẽ trong khi ba mẫu khác bị lệch không đối xứng sang một bên nhưng đủ gần để chúng ta không thể biết rằng nếu không lấy mẫu đơn lẻ tẻ nhạt hơn .)

Nếu câu trả lời phức tạp, bất kỳ lời khuyên nào về những gì tôi nên nghiên cứu sẽ được đánh giá cao. Ví dụ, đây có phải là một vấn đề thống kê trật tự? Có khả năng là một câu trả lời công thức, hoặc đây là một vấn đề tính toán?

Cập nhật chi tiết: Ứng dụng này là phân tích các mục tiêu bắn súng. Một mẫu cơ bản duy nhất là điểm tác động ( x, y ) của một phát bắn vào mục tiêu. Quá trình cơ bản có phân phối chuẩn bivariate đối xứng nhưng không có mối tương quan giữa các trục, vì vậy chúng tôi có thể coi các mẫu { x } và { y } là các bản vẽ độc lập từ cùng phân phối bình thường. (Chúng ta cũng có thể nói quy trình cơ bản là phân phối Rayleigh, nhưng chúng ta không thể đo các biến thiên Rayleigh mẫu vì chúng ta không thể chắc chắn về tọa độ của trung tâm "thực" của quy trình, mà đối với n nhỏ có thể là đáng kể cách xa trung tâm mẫu ( , ).)ˉ yx¯y¯

Chúng tôi được cung cấp một mục tiêu và số lượng phát bắn vào nó. Vấn đề là đối với n >> 3 khẩu súng chính xác thường sẽ bắn một "lỗ rách" được bao quanh bởi những phát bắn khác biệt. Chúng ta có thể quan sát độ rộng x - và y của lỗ, nhưng chúng ta không biết nơi nào trong các lỗ mà các bức ảnh không khác biệt bị ảnh hưởng.

Dưới đây là một số ví dụ về các mục tiêu có vấn đề hơn:

[Mục tiêu mẫu với n = 10]

Mục tiêu mẫu với n = 100

(Cấp, trong một thế giới lý tưởng, chúng tôi sẽ thay đổi / chuyển mục tiêu sau mỗi lần bắn và sau đó tổng hợp các mẫu để phân tích. Có một số lý do thường không thực tế, mặc dù nó được thực hiện khi có thể .)

Ghi chú thêm sau phần làm rõ của WHuber trong các bình luận: Ảnh chụp tạo ra các lỗ mục tiêu có đường kính đồng nhất và đã biết. Khi một phát bắn nằm ngoài bất kỳ "nhóm rách rưới" nào, chúng ta sẽ biết bán kính đạn và do đó chúng ta có thể đo chính xác tâm . Trong mỗi "nhóm rách rưới", chúng ta có thể nhận ra một số "quả bóng" ngoại vi và một lần nữa đánh dấu trung tâm chính xác của những phát bắn bên ngoài dựa trên bán kính đạn đã biết. Đó là những bức ảnh "bị kiểm duyệt trung tâm" còn lại mà chúng ta chỉ biết bị ảnh hưởng ở đâu đó trong phần bên trong của một "nhóm rách rưới" (thường là - và nếu cần chúng ta hãy giả sử - mỗi mục tiêu).xi

Để tạo điều kiện cho giải pháp, tôi tin rằng sẽ dễ dàng nhất để giảm điều này thành một tập hợp các mẫu một chiều so với bình thường, với khoảng cách trung tâm là chiều rộng w > d , trong đó d là đường kính đạn, chứa các mẫu c < n "bị kiểm duyệt".


(1) Phân phối bình thường là một giả định hay bạn có bằng chứng tốt để hỗ trợ nó không? (2) Có phải vấn đề là bạn không thể đếm chính xác dữ liệu gần trung tâm không? (Điều đó sẽ khác với ý nghĩa thông thường của "kiểm duyệt", đó là bạn có thể đếm những dữ liệu đó nhưng bạn chỉ biết rằng giá trị của chúng nằm trong những khoảng nhất định.)
whuber

@whuber: Vâng, chúng tôi có cả bằng chứng cơ bản và bằng chứng thực nghiệm, quá trình này thường được phân phối. Và vâng, chúng tôi biết số lượng điểm chính xác trong toàn bộ nhóm và chúng tôi có thể quan sát (các) khoảng thời gian có quá nhiều mẫu nằm để xác định các giá trị riêng lẻ.
fetwet

Cảm ơn, điều đó hữu ích. Tuy nhiên, bản chất của sự không chắc chắn vẫn chưa rõ ràng và một mô hình tốt cho nó có thể thúc đẩy một giải pháp tốt. Có lẽ bạn có thể cung cấp một minh họa hoặc ví dụ hoặc ít nhất là mô tả quá trình đo chi tiết hơn một chút?
whuber

@whuber: Đã cập nhật. Nếu nó sẽ giúp tôi cũng sẽ làm việc về việc đăng liên kết đến một số mẫu thực.
dạo

Vấn đề rất thú vị! Tôi nghĩ rằng sẽ cần một số suy nghĩ sáng tạo để đưa ra một giải pháp tốt. Sẽ công bằng khi nói rằng bạn đang xem xét các trung tâm của mỗi lần chụp, như một mẫu iid của phân phối Bivariate Bình thường ; bạn muốn ước tính ; nhưng tất cả những gì bạn có thể quan sát - với một số sự không chính xác - là (trong đó là bán kính chung đã biết của mỗi viên đạn và là quả cầu có bán kính quanh )? ( μ , σ 2 ) σ i B ( x i , r ) r B ( x , r ) r xxi,(μ,σ2)σiB(xi,r)rB(x,r)rx
whuber

Câu trả lời:


2

Đó là một vấn đề thú vị. Đầu tiên, tôi sẽ không đưa ra giả định về phân phối bình thường. Có vẻ như những gì bạn đang thực sự tìm kiếm là một số ước tính về sự phân tán mà bạn áp dụng một cách công bằng cho nhiều game bắn súng hoặc súng hoặc đạn khác nhau hoặc bất cứ điều gì.

Tôi sẽ cố gắng để làm điều này xung quanh. Bạn không biết chính xác tất cả các viên đạn đã đi đâu trừ khi bạn nhìn thấy 10 lỗ riêng biệt (giả sử 10 viên đạn). Nhưng bạn có biết họ đã không đi đâu. Điều này có thể được sử dụng để hạn chế phân phối giả sử số liệu thống kê Bayes nếu bạn muốn bắt đầu với phân phối.

Một ý tưởng có thể là tốt nhất ở đây là ngừng cố gắng thực hiện nó một cách toán học và chỉ làm điều gì đó hợp lý như thế này. Lấy mục tiêu và chạy một thói quen xử lý hình ảnh để đánh dấu khu vực bắn qua có thể không được kết nối. Đo trung bình và giây thứ hai của điều này và sử dụng chúng là một công cụ ước tính. Nếu bạn muốn đi xa hơn một chút và cố gắng Gaussianize nó, bạn có thể chạy thử nghiệm monte carlo đơn giản để có được hệ số hiệu chuẩn.


Hãy để tôi giải thích thêm một chút. Giả sử bạn có 10 phát đạn và có 6 lỗ rõ ràng nơi bạn biết đạn đã đi đâu. Đầu tiên lấy các điểm này và sử dụng chúng để hạn chế độ rộng Gaussian. Theo thói quen thông thường, điều này hạn chế sigma của sigma Gaussian (là một bản phân phối đã biết. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415

Bây giờ, một khi bạn đã làm điều đó, bạn muốn xem xét 4 viên đạn không tạo ra lỗ hổng mới. Vì các viên đạn là độc lập, nên khả năng mới này (trên sigma Gaussian) có thể được nhân lên. Vì vậy, về cơ bản cho mỗi trong số 4 viên đạn, bạn muốn nhân với xác suất chúng không tạo ra một lỗ mới.
Dave31415

Một cách đơn giản để làm điều này với monte carlo là vẽ một bộ sigma từ phân phối bị ràng buộc của bạn và sử dụng sigma này, tính toán cơ hội không tạo ra một lỗ hổng mới. Do đó, hãy vẽ nhiều bức ảnh mô phỏng từ đây và đếm phần nào không tạo ra lỗ hổng mới. Điều này sau đó có thể được sử dụng để cập nhật khả năng. Sau đó chuyển sang cái tiếp theo và làm tương tự. Bây giờ bạn có khả năng cuối cùng của bạn.
Dave31415

Nhận xét cuối cùng. Từ quan điểm thực tế, ước tính của sigma không thực sự bị ảnh hưởng nhiều bởi chính xác là những viên đạn không nhìn thấy được chừng nào bạn cho rằng chúng đã đi qua những lỗ hổng trước đó. Nó chủ yếu sẽ bị ràng buộc bởi những cái mà bạn có thể thấy mà xác định cạnh. Đó là bởi vì khả năng viên đạn xuyên qua lỗ hai lần cách xa trung tâm là rất thấp. Vì vậy, ngay cả một montlo carlo thô sẽ giúp bạn rất gần với công cụ ước tính tối ưu.
Dave31415

Nếu chúng tôi không khẳng định phân phối bình thường (hoặc khác) thì có vẻ như chúng tôi không thể nói gì hơn là đặt giới hạn trên hoặc dưới cho những gì đang diễn ra trong khu vực bị kiểm duyệt. Trong trường hợp 1 chiều trong đó chúng ta có n ảnh bị kiểm duyệt giới hạn dưới của phương sai là giả sử tất cả chúng đều đạt cùng một điểm bên trong gần nhất với giá trị trung bình và (giả sử giá trị trung bình ở giữa) giả sử các điểm kiểm duyệt được phân bổ đều trên ngoại vi của nội thất. Nhưng nếu chúng ta cho rằng quá trình cơ bản là bình thường thì có vẻ như chúng ta sẽ có thể làm điều gì đó tốt hơn.
fetwet

0

Từ một điểm thuận lợi khác, người ta có thể xem điều này dưới ánh sáng của lĩnh vực Thống kê không gian, đã tạo ra một loại số liệu, nhiều trong số đó đã được đặt trong các hộp công cụ (ví dụ: https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipedia (link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistic ) thực sự có một trang giới thiệu tốt thảo luận về các khái niệm như các biện pháp của xu hướng trung tâm không gian và phân tán không gian. Để trích dẫn Wikipedia về sau:

"Đối với hầu hết các ứng dụng, phân tán không gian nên được định lượng theo cách bất biến đối với phép quay và phản xạ. Một số biện pháp đơn giản về phân tán không gian cho một tập hợp điểm có thể được xác định bằng cách sử dụng ma trận hiệp phương sai của tọa độ các điểm. Dấu vết, định thức. và giá trị riêng lớn nhất của ma trận hiệp phương sai có thể được sử dụng như các biện pháp phân tán không gian. Một biện pháp phân tán không gian không dựa trên ma trận hiệp phương sai là khoảng cách trung bình giữa các lân cận gần nhất. [1] "

Các khái niệm liên quan bao gồm các biện pháp về tính đồng nhất không gian, các hàm K và L của Ripley và có lẽ phù hợp nhất để phân tích các cụm đạn, thử nghiệm Cuzick giật Edwards để phân cụm các quần thể phụ trong quần thể cụm. Thử nghiệm thứ hai dựa trên so sánh (sử dụng các phân tích "lân cận gần nhất" để lập bảng thống kê) cho dân số kiểm soát, trong bối cảnh hiện tại có thể dựa trên các mục tiêu quan sát thực tế được phân loại là không hiển thị phân cụm hoặc theo mô phỏng lý thuyết, từ phân phối Rayleigh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.