Bootstrap vs Monte Carlo, ước tính lỗi


12

Tôi đang đọc bài viết Lỗi lan truyền theo phương pháp Monte Carlo trong tính toán địa hóa, Anderson (1976) và có điều gì đó tôi không hiểu lắm.

Xem xét một số dữ liệu đo và một chương trình rằng các quá trình và quay trở lại một giá trị nhất định. Trong bài viết, chương trình này được sử dụng trước tiên để có được giá trị tốt nhất bằng cách sử dụng phương tiện của dữ liệu (ví dụ: { A , B , C } ).{A±σA,B±σB,C±σC}{A,B,C}

Các tác giả sau đó sử dụng một phương pháp Monte Carlo để gán một sự không chắc chắn về giá trị tốt nhất này, bằng cách thay đổi các thông số đầu vào trong giới hạn sự không chắc chắn của họ (đưa ra bởi một phân phối Gaussian với phương tiện và độ lệch chuẩn { σ Một , σ B , σ C } ) trước khi cho chúng ăn chương trình. Điều này được minh họa trong hình dưới đây:{A,B,C}{σA,σB,σC}

nhập mô tả hình ảnh ở đây

( Bản quyền: ScienceDirect )

trong đó độ không đảm bảo có thể thu được từ phân phối cuối cùng .Z

Điều gì sẽ xảy ra nếu, thay vì phương pháp Monte Carlo này, tôi đã áp dụng phương pháp bootstrap? Một cái gì đó như thế này:

nhập mô tả hình ảnh ở đây

Đây là: thay vì thay đổi dữ liệu trong phạm vi không chắc chắn của chúng trước khi cung cấp cho chương trình, tôi lấy mẫu thay thế từ chúng.

Sự khác biệt giữa hai phương pháp này trong trường hợp này là gì? Những lưu ý nào tôi cần lưu ý trước khi áp dụng bất kỳ trong số chúng?


Tôi biết câu hỏi này Bootstrap, Monte Carlo , nhưng nó không giải quyết được nghi ngờ của tôi vì trong trường hợp này, dữ liệu chứa những sự không chắc chắn được chỉ định.


Chỉ cần làm rõ: "sự thay đổi ngẫu nhiên" trong phương pháp MC được tạo ra ngẫu nhiên bởi nhà nghiên cứu? Đó là, tiếng ồn / lỗi đang được thêm một cách giả tạo vào dữ liệu đầu vào?
Shadowtalker

σ

Tôi không nghĩ tôi hiểu. Đó là tiếng ồn nhân tạo, nhưng với độ lệch chuẩn được ước tính từ dữ liệu
Shadowtalker

Sau đó, tôi có thể không hiểu "tiếng ồn nhân tạo" là gì (và cái gì sẽ tạo thành "tiếng ồn phi nhân tạo"). Bạn đã xem bài viết? Nó chắc chắn giải thích mọi thứ tốt hơn tôi rất nhiều.
Gabriel

Tiếng ồn tự nhiên: sự thay đổi ngẫu nhiên trong dữ liệu của tôi. Tiếng ồn nhân tạo: sử dụng trình tạo số ngẫu nhiên để rút số từ phân phối xác suất và thêm các số đó vào dữ liệu của tôi
Shadowtalker

Câu trả lời:


7

Theo như tôi hiểu câu hỏi của bạn, sự khác biệt giữa phương pháp "Monte Carlo" và phương pháp bootstrap về cơ bản là sự khác biệt giữa thống kê tham số và không tham số.

x1,,xNAσAZ

FF^1/nF^FZ

Do đó, sự khác biệt chính giữa cả hai phương pháp là liệu người ta có đưa ra giả định tham số này về việc phân phối dữ liệu hay không.


2
Gần hai năm sau, tôi biết rằng đây là câu trả lời tốt nhất vì nó đề cập rõ ràng sự khác biệt giữa các phương pháp tham số và không tham số (lúc đó tôi không biết). Vì vậy, tôi đang thay đổi câu trả lời được chấp nhận cho câu trả lời này .
Gabriel

Nhưng đối với cách tiếp cận paramrtric người ta cũng có thể sử dụng bootstrap tham số phải không?
Tom Wenseleers

12

Thay đổi ngẫu nhiên trong Mô hình Monte Carlo của bạn được biểu thị bằng đường cong hình chuông và tính toán có thể giả sử "lỗi" hoặc "Thay đổi" được phân phối thông thường. Ít nhất, máy tính của bạn cần một số giả định về phân phối để rút ra "thay đổi". Bootstrapping không nhất thiết phải đưa ra các giả định như vậy. Nó quan sát như các quan sát và nếu lỗi của chúng được phân phối không đối xứng, thì nó sẽ đi vào modell theo cách đó.

Bootstrapping rút ra từ quan sát và do đó cần một số quan sát thực sự. Nếu bạn đọc trong một cuốn sách, C trung bình ở mức 5 với độ lệch chuẩn là 1, hơn bạn có thể thiết lập Monte Carlo Modell ngay cả khi bạn không có quan sát để rút ra. Nếu quan sát của bạn khan hiếm (nghĩ: thiên văn học), bạn có thể thiết lập Monte Carlo Modell với 6 quan sát và một số giả định về phân phối của chúng nhưng bạn sẽ không khởi động từ 6 quan sát.

Các modell hỗn hợp với một số đầu vào được rút ra từ dữ liệu quan sát và một số từ dữ liệu mô phỏng (giả sử) là có thể.

Chỉnh sửa: Trong các cuộc thảo luận sau trong các bình luận, người đăng ban đầu đã tìm thấy sự hữu ích sau:

"Chương trình gốc" không quan tâm, liệu nó có nhận được giá trị hay không, mà bạn đã tính từ giá trị trung bình và độ lệch hoặc đó là nhận thức đúng về giá trị trung bình và độ lệch trong quy trình tự nhiên.


1
N

1
Tôi tự học theo thống kê / học máy, vì vậy tôi sẽ không cho rằng bất kỳ sự khác biệt nào tôi đề cập là duy nhất. Tôi thậm chí không chắc chắn, liệu Bootstrapping có được coi là một phương pháp Monte Carlo hay không. Cả hai thuật toán đều mô phỏng một số lượng lớn các kịch bản thực tế. Bạn có thể rút ra đầu vào từ các giả định hoặc từ các quan sát. Lĩnh vực của tôi là y học và các giả định nổi tiếng là sai trong lĩnh vực đó. Vì vậy, tôi sẽ cố gắng đi cùng với các quan sát bất cứ khi nào chúng có sẵn với số lượng đủ lớn. Cũng có thể, trong lĩnh vực gần hơn với vật lý hoặc hóa học, ...
Bernhard

1
... rằng trong các lĩnh vực gần với vật lý hoặc hóa học, các giả định đáng tin cậy hơn. Đến điểm 2: Nếu bạn đi theo các mẫu và số lần lặp đủ lớn mà tôi giả sử, bạn sẽ thấy rằng dữ liệu thực không bao giờ được phân phối một cách bình thường và các giả định của bạn luôn sai một chút, nhưng tôi không thể đòi hỏi bất kỳ kiến ​​thức nào. Đến điểm 3: Tôi không chắc chắn đã hiểu ý của bạn bằng cách loại bỏ dữ liệu có giá trị trong phương thức bootstrap. "Chỉ định sự không chắc chắn" là do con người tạo ra, Dữ liệu xuất phát từ thực tế. Một lần nữa, đây là niềm tin của tôi dựa trên lĩnh vực của tôi. Trong thực tế, bạn sẽ hiếm khi có lý thuyết tốt và dữ liệu lớn
Bernhard

1
σA,σB,σC

1
Mỗi quan sát là một giá trị đo và do đó đã có lỗi đo lường và độ không đảm bảo của chính nó. "Chương trình gốc" không quan tâm, liệu nó có nhận được giá trị hay không, mà bạn đã tính từ giá trị trung bình và độ lệch hoặc đó là nhận thức đúng về giá trị trung bình và độ lệch trong quy trình tự nhiên. Nhưng tất nhiên, tất cả các kỹ thuật lấy mẫu lại dựa trên cơ sở dữ liệu lớn và bạn có thể tính các số tùy ý hoặc số ngẫu nhiên nhưng thường không tạo ra các số quan sát tùy ý. Vì vậy, trong trường hợp bạn có số lượng lớn các quan sát, tôi không thấy, nơi dữ liệu bị loại bỏ.
Bernhard

1

Nếu hàm liên quan đến đầu ra Z với đầu vào là tuyến tính hợp lý (nghĩa là trong phạm vi biến đổi của đầu vào), phương sai của Z là sự kết hợp giữa phương sai và hiệp phương sai của đầu vào. Các chi tiết của phân phối không quá quan trọng ... Vì vậy, cả hai phương pháp sẽ trả về kết quả tương tự.

Xem phần bổ sung 1 cho GUM


Điều gì xảy ra khi hàm không tuyến tính hợp lý? Hai phương pháp này sẽ khác nhau như thế nào?
Gabriel

Trong trường hợp đó, bạn nên tham khảo câu trả lời ở trên, bởi Bernhard. Đó là, để chúng trùng khớp, bạn nên có một mô tả trung thực về dữ liệu pdf cho Monte Carlo.
Pascal

0

Bootstrap có nghĩa là để dữ liệu tự nói lên. Với phương pháp Monte Carlo, bạn lấy mẫu nhiều lần rút ngẫu nhiên từ CDF được áp đặt (bình thường; gamma; beta ...) thông qua phân phối đồng đều và tạo một tệp PDF theo kinh nghiệm (với điều kiện CDF là liên tục và có thể tạo được). Một lời giải thích thú vị về toàn bộ quá trình Monte Carlo được báo cáo trong: Briggs A, Schulper M, Claxton K. Mô hình quyết định để đánh giá kinh tế y tế. Oxford: Nhà xuất bản Đại học Oxford, 2006: 93-95.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.