Lấy mẫu quan trọng là gì?


Câu trả lời:


15

Lấy mẫu quan trọng là một hình thức lấy mẫu từ một phân phối khác với phân phối lợi ích để dễ dàng có được các ước tính tốt hơn về một tham số từ phân phối lợi ích. Thông thường, điều này sẽ cung cấp các ước tính của tham số có phương sai thấp hơn mức có thể thu được bằng cách lấy mẫu trực tiếp từ phân phối ban đầu với cùng cỡ mẫu.

Nó được áp dụng trong các bối cảnh khác nhau. Trong lấy mẫu chung từ phân phối khác nhau cho phép lấy nhiều mẫu hơn trong một phần phân phối lợi ích được quyết định bởi ứng dụng (khu vực quan trọng).

Một ví dụ có thể là bạn muốn có một mẫu bao gồm nhiều mẫu từ đuôi phân phối hơn là lấy mẫu ngẫu nhiên thuần túy từ phân phối quan tâm sẽ cung cấp.

Các bài viết wikipedia mà tôi đã thấy về chủ đề này là quá trừu tượng. Nó là tốt hơn để xem xét các ví dụ cụ thể khác nhau. Tuy nhiên, nó bao gồm các liên kết đến các ứng dụng thú vị như Bayesian Networks.

Một ví dụ về lấy mẫu quan trọng trong những năm 1940 và 1950 là kỹ thuật giảm phương sai (một dạng của Phương pháp Monte Carlo). Xem ví dụ cuốn sách Phương pháp Monte Carlo của Hammersley và Handscomb được xuất bản dưới dạng Sách chuyên khảo Methuen / Chapman và Hội trường năm 1964 và được tái bản vào năm 1966 và sau đó bởi các nhà xuất bản khác. Mục 5.4 của cuốn sách bao gồm Lấy mẫu Tầm quan trọng.


2
Để thêm vào điều này: Trong RL, bạn thường áp dụng lấy mẫu quan trọng cho chính sách: ví dụ: các hành động lấy mẫu từ chính sách thăm dò thay vì chính sách thực tế mà bạn thực sự muốn lấy mẫu
DaVinci

3
Câu trả lời này bắt đầu tốt bằng cách giải thích việc lấy mẫu quan trọng là gì , nhưng tôi đã thất vọng khi thấy nó không bao giờ thực sự trả lời câu hỏi lấy mẫu quan trọng là gì : nó hoạt động như thế nào?
whuber

@whuber Mục tiêu của tôi ở đây là giải thích khái niệm cho một OP bối rối và chỉ cho anh ta một số tài liệu. Đây là một chủ đề lớn và được sử dụng trong các ứng dụng dường như khác nhau. Những người khác có thể giải thích các chi tiết bằng các thuật ngữ đơn giản tốt hơn tôi có thể. Tôi biết rằng khi bạn quyết định trả lời một câu hỏi, bạn đi cả con lợn và cung cấp các biểu đồ đẹp, đi qua các chi tiết kỹ thuật bằng ngôn ngữ đơn giản. Những bài đăng đó hầu như luôn làm hài lòng cộng đồng với sự rõ ràng và đầy đủ của nó và tôi dám nói cũng làm hài lòng OP ít nhất một phần. Có lẽ một vài câu với phương trình sẽ đủ như bạn đề xuất.
Michael R. Chernick

Có lẽ điều đó tốt hơn cho cộng đồng khi được đưa vào câu trả lời cho câu hỏi thay vì chỉ trỏ đến các nguồn khác hoặc thậm chí cung cấp liên kết. Tôi chỉ cảm thấy rằng những gì tôi đã làm là đầy đủ và OP thừa nhận là người mới làm thống kê nên tự mình thực hiện một số nỗ lực.
Michael R. Chernick

5
Bạn có một điểm. Tuy nhiên, tôi tự hỏi liệu có thể chỉ trong một hoặc hai câu nữa - không có toán, không có đồ thị, hầu như không có việc làm thêm - để đưa ra câu trả lời cho câu hỏi khi được hỏi. Trong trường hợp này, mô tả sẽ phải nhấn mạnh rằng người ta đang ước tính kỳ vọng (không chỉ là bất kỳ "tham số" nào), sau đó có lẽ chỉ ra rằng vì kỳ vọng tổng hợp một sản phẩm của các giá trị và xác suất, nên người ta nhận được kết quả tương tự bằng cách thay đổi xác suất ( đến những phân phối dễ lấy mẫu từ đó) và điều chỉnh các giá trị để bù cho điều đó.
whuber

33

Lấy mẫu quan trọng là một phương pháp mô phỏng hoặc Monte Carlo nhằm mục đích xấp xỉ các tích phân. Thuật ngữ "lấy mẫu" hơi khó hiểu ở chỗ nó không có ý định cung cấp các mẫu từ một phân phối nhất định.

Trực giác đằng sau việc lấy mẫu quan trọng là một tích phân được xác định rõ, như có thể được biểu thị như một kỳ vọng cho một phạm vi rộng phân phối xác suất: trong đó biểu thị mật độ của một phân phối xác suất và được xác định bởi và . (Lưu ý rằng thường khác với .) Thật vậy, lựa chọn dẫn đến các đẳng thức vàI = E f [ H ( X ) ] = X H ( x ) f ( x )

I=Xh(x)dx
f H h f H ( ) h ( ) H ( x ) = h ( x )
I=Ef[H(X)]=XH(x)f(x)dx
fHhfH()h() H(x)f(x)=h(x)I=Ef[H(X)]-ff(x)>0h(x)0-f
H(x)=h(x)f(x)
H(x)f(x)= =h(x)tôi= =Ef[H(X)]- theo một số hạn chế về sự hỗ trợ của , nghĩa là khi . Do đó, như W. Huber đã chỉ ra trong nhận xét của mình, không có sự thống nhất nào trong việc thể hiện một tích phân như một kỳ vọng, mà ngược lại là một mảng vô hạn của các biểu diễn như vậy, một số trong đó tốt hơn so với các tiêu chí khác để so sánh chúng được thông qua. Chẳng hạn, Michael Chernick đề cập đến việc chọn theo hướng giảm phương sai của công cụ ước tính.ff(x)>0h(x)0-f

Khi đã hiểu được tính chất cơ bản này, việc thực hiện ý tưởng là dựa vào Định luật số lớn như trong các phương pháp khác của Monte Carlo, tức là mô phỏng [thông qua một trình tạo giả ngẫu nhiên] một mẫu iid phân phối từ và sử dụng xấp xỉ màf Tôi = 1(x1,Giáo dục,xn)f

tôi^= =1nΣtôi= =1nH(xtôi)
  1. là một công cụ ước tính không thiên vị củatôi
  2. hội tụ gần như chắc chắn tớitôi

Tùy thuộc vào lựa chọn phân phối , công cụ ước tính ở trên có thể có hoặc không có phương sai hữu hạn. Tuy nhiên, luôn tồn tại các lựa chọn cho phép phương sai hữu hạn và thậm chí cho phương sai nhỏ tùy ý (mặc dù các lựa chọn đó có thể không có sẵn trong thực tế). Và cũng tồn tại các lựa chọn của làm cho công cụ ước tính lấy mẫu quan trọng một xấp xỉ rất kém của . Điều này bao gồm tất cả các lựa chọn trong đó phương sai là vô hạn, mặc dù một bài báo gần đây của Chatterjee và Diaconis nghiên cứu cách so sánh các bộ lấy mẫu quan trọng với phương sai vô hạn. Hình dưới đây được lấy từTôi f f Tôi Tôiftôi^fftôi^tôiblog của tôi thảo luận về bài báo và minh họa sự hội tụ kém của các công cụ ước tính phương sai vô hạn.

Lấy mẫu quan trọng với phân phối quan trọng phân phối mục tiêu phân phối Exp (1) phân phối Exp (1/10) và chức năng quan tâm $ h (x) = x $.  Giá trị thực của tích phân là $ 10 $.

Lấy mẫu quan trọng với phân phối quan trọng phân phối mục tiêu phân phối Exp (1) phân phối Exp (1/10) và chức năng quan tâm . Giá trị thực của tích phân là .10h(x)= =x10

[Sau đây được sao chép từ cuốn sách Phương pháp thống kê Monte Carlo của chúng tôi .]

Ví dụ sau từ Ripley (1987) cho thấy lý do tại sao nó thực sự có thể trả tiền để tạo từ một phân phối khác với phân phối (bản gốc) xuất hiện trong tích phân quan tâm hoặc, nói cách khác, để sửa đổi biểu diễn của tích phân dưới dạng kỳ vọng đối với mật độ đã cho.X h ( x ) f ( x )f

Xh(x)f(x)dx

Ví dụ (xác suất đuôi Cauchy) Giả sử rằng số tiền lãi là xác suất, , rằng biến Cauchy lớn hơn , nghĩa là, Khi được đánh giá thông qua trung bình theo kinh nghiệm của mẫu iid , phương sai của công cụ ước tính này là (bằng kể từ ).C ( 0 , 1 ) 2 p = + 2pC(0,1)2p p 1 = 1

p= =2+1π(1+x2)dx.
p
p^1= =1mΣj= =1mtôiXj>2
X1,Giáo dục,Xm ~ C(0,1)p(1-p)/m0.127/mp= =0,15

Phương sai này có thể được giảm bằng cách tính đến tính chất đối xứng của , vì trung bình có phương sai bằng .C(0,1)

p^2= =12mΣj= =1mtôi|Xj|>2
p(1-2p)/2m0,052/m

Sự không hiệu quả (tương đối) của các phương pháp này là do việc tạo ra các giá trị bên ngoài miền quan tâm, , theo một cách nào đó, không liên quan đến việc xấp xỉ . [Điều này liên quan đến ước tính khu vực đuôi của Michael Chernick.] Nếu được viết là tích phân ở trên có thể được coi là kỳ vọng của , trong đó . Do đó, một phương pháp đánh giá khác cho là cho[2,+)pp

p= =12-021π(1+x2)dx,
h(X)= =2/π(1+X2)X~Bạn[0,2]p
p^3= =12-1mΣj= =1mh(Bạnj)
Bạnj~Bạn[0,2]. Phương sai của là và tích hợp bởi các phần cho thấy rằng nó bằng . Hơn nữa, vì có thể được viết là tích phân này cũng có thể được xem là kỳ vọng của so với phân bố đồng đều trên và một đánh giá khác của là khi . Việc tích hợp tương tự bởi các bộ phận cho thấy phương sai củap^3(E[h2]-E[h]2)/m0,0285/mp
p= =01/2y-2π(1+y-2)dy,
14h(Y)= =1/2π(1+Y2)[0,1/2]p
p^4= =14mΣj= =1mh(Yj)
Yj~Bạn[0,1/2]p^4là .0,9510-4/m

So với , việc giảm phương sai do mang lại theo thứ tự , đặc biệt, ngụ ý rằng việc đánh giá này yêu cầu Mô phỏng ít hơn lần so với để đạt được độ chính xác tương tự. p^1p^410-3100032p^1


5
Cảm ơn bạn @Xi vì đã gặp rắc rối trong việc minh họa việc lấy mẫu quan trọng theo cách mà mọi người có thể đánh giá cao và tôi nghĩ nhiều hơn là đáp ứng yêu cầu của Bill Hub. +1
Michael R. Chernick

2
Tôi muốn lưu ý rằng ban đầu bài đăng này đã được giữ và nhờ vào sự đóng góp của một số người. Chúng tôi đã đưa ra một chủ đề thông tin.
Michael R. Chernick

5
Christian, tôi muốn gửi lời cảm ơn và bày tỏ cảm giác đặc quyền rằng bạn đang tích cực chia sẻ tài liệu tuyệt vời như vậy với chúng tôi.
whuber

4
Tôi chỉ muốn gửi lời cảm ơn đến Xi'an, người đã tốt bụng thực hiện một vài chỉnh sửa để cải thiện câu trả lời của tôi mặc dù anh ấy đã đưa ra một trong những điều của riêng mình.
Michael R. Chernick

3
Đây phải là một trong những bài viết tốt nhất trên stats.stackexchange. Cám ơn vì đã chia sẻ!
dohmatob
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.