Một số sử dụng quan trọng của việc tạo số ngẫu nhiên trong thống kê tính toán là gì?


15

Làm thế nào và tại sao các trình tạo số ngẫu nhiên (RNG) quan trọng trong thống kê tính toán?

Tôi hiểu rằng tính ngẫu nhiên rất quan trọng khi chọn mẫu cho nhiều thử nghiệm thống kê để tránh sai lệch đối với giả thuyết, nhưng có các lĩnh vực thống kê tính toán khác trong đó các bộ tạo số ngẫu nhiên là quan trọng không?


4
Liên quan chặt chẽ: stats.stackexchange.com/q/135665/35989
Tim

1
Bạn hỏi gì? Câu hỏi của bạn không thực sự có ý nghĩa nhiều.
Carl Witthoft

2
Có thể tốt hơn để yêu cầu các lĩnh vực mà chúng không quan trọng. Nó có thể sẽ là một danh sách ngắn hơn.
John Coleman

2
Câu hỏi rất rộng nhưng tiêu đề thì hấp dẫn và câu trả lời của Matthew là một tổng quan đẹp. Tôi đã bỏ phiếu để mở lại!
Benoit Sanchez

3
Điều này rõ ràng là quá rộng theo các tiêu chuẩn SE thông thường, và có nghĩa là một câu hỏi 'danh sách lớn' có khả năng tích lũy rất nhiều câu trả lời nhỏ, hầu như không được xây dựng thường trả lời các câu trả lời. Tuy nhiên, dường như có một số giá trị thực sự ở đây. Một sự thỏa hiệp là điều này sẽ được CW & bảo vệ. Trong tương lai, các câu trả lời đề cập đến một cái gì đó mà không cần giải thích & / hoặc sử dụng trùng lặp đã được đề cập sẽ bị xóa ngay lập tức & không có nhận xét.
gung - Tái lập Monica

Câu trả lời:


17

Có rất nhiều, rất nhiều ví dụ. Có quá nhiều thứ để liệt kê, và có lẽ là quá nhiều cho bất cứ ai biết hoàn toàn (ngoài khả năng là @whuber, người không bao giờ nên bị đánh giá thấp).

Như bạn đã đề cập, trong các thí nghiệm được kiểm soát chúng tôi tránh lấy mẫu sai lệch bằng cách phân vùng ngẫu nhiên các đối tượng vào các nhóm điều trị và kiểm soát.

Trong bootstrapping chúng tôi ước tính việc lấy mẫu lặp lại từ dân số bằng cách lấy mẫu ngẫu nhiên với sự thay thế từ một mẫu cố định. Điều này cho phép chúng tôi ước tính phương sai của các ước tính của chúng tôi, trong số những thứ khác.

Trong kiểm chứng chéo chúng tôi ước tính lỗi ngoài mẫu của ước tính bằng cách phân vùng ngẫu nhiên dữ liệu của chúng tôi thành các lát và lắp ráp các bộ kiểm tra và huấn luyện ngẫu nhiên.

Trong thử nghiệm hoán vị chúng tôi sử dụng các hoán vị ngẫu nhiên để lấy mẫu theo giả thuyết null, cho phép thực hiện các thử nghiệm giả thuyết không đối xứng trong nhiều tình huống.

Trong việc đóng gói, chúng tôi kiểm soát phương sai của ước tính bằng cách liên tục thực hiện ước tính trên các mẫu dữ liệu huấn luyện bootstrap và sau đó lấy kết quả trung bình.

Trong các khu rừng ngẫu nhiên, chúng tôi tiếp tục kiểm soát phương sai của ước tính bằng cách lấy mẫu ngẫu nhiên từ các yếu tố dự đoán có sẵn tại mọi điểm quyết định.

Trong mô phỏng, chúng tôi yêu cầu một mô hình phù hợp để tạo ngẫu nhiên các bộ dữ liệu mới mà chúng tôi có thể so sánh với dữ liệu huấn luyện hoặc thử nghiệm, giúp xác thực tính phù hợp và các giả định trong một mô hình.

Trong chuỗi Markov Monte Carlo chúng tôi lấy mẫu từ một bản phân phối bằng cách khám phá không gian của các kết quả có thể xảy ra bằng cách sử dụng chuỗi Markov (cảm ơn @Ben Bolker cho ví dụ này).

Đó chỉ là những ứng dụng phổ biến, hàng ngày xuất hiện trong tâm trí ngay lập tức. Nếu tôi đào sâu, có lẽ tôi có thể tăng gấp đôi chiều dài của danh sách đó. Tính ngẫu nhiên vừa là một đối tượng quan trọng của nghiên cứu, vừa là một công cụ quan trọng để sử dụng.


Điều này hoàn toàn đúng nhưng không giải quyết được vấn đề chính: PRNG với bất kỳ loại cấu trúc kết quả hoặc dự đoán nào trong chuỗi sẽ khiến các mô phỏng thất bại.
Carl Witthoft

3
Một trong những điều đáng được đề cập là chi phí tính toánbộ nhớ để tạo ra số lượng lớn các số ngẫu nhiên hoặc giả ngẫu nhiên. Một số ứng dụng của RNG trong các số liệu thống kê yêu cầu hàng trăm đến hàng triệu số ngẫu nhiên, nhưng một số ứng dụng đòi hỏi nhiều đơn đặt hàng lớn hơn với cả hai chi phí này.
Alexis

5

Điều này hoàn toàn đúng nhưng không giải quyết được vấn đề chính: PRNG với bất kỳ loại cấu trúc kết quả hoặc dự đoán nào trong chuỗi sẽ khiến các mô phỏng thất bại. Carl Witthoft ngày 31 tháng 1 lúc 15:51

Nếu đây là mối quan tâm của bạn thì có lẽ nên đổi tiêu đề của câu hỏi thành "Tác động của lựa chọn RNG đến kết quả Monte Carlo" hoặc đại loại như thế. Trong trường hợp này, đã được xem xét về xác thực chéo SE , đây là một số hướng

  • Nếu bạn đang xem xét các RNG được thiết kế kém như RANDU khét tiếng , rõ ràng chúng sẽ tác động tiêu cực đến xấp xỉ Monte Carlo. Để phát hiện sự thiếu hụt trong RNG, tồn tại các ngân hàng điểm chuẩn như các bài kiểm tra Diehard của Marsaglia . (Ví dụ, Park & ​​Miller (1988) sử dụng bộ tạo cộng hưởng Lehmer với hệ số 16807 đã bị thiếu , được thay thế bằng 47271 hoặc 69621. Tất nhiên điều này đã được thay thế bởi các máy phát thời kỳ lớn như Mersenne Twister PRNG .)
  • Một câu hỏi SE về toán học cung cấp một liên kết về tác động (hoặc thiếu nó) về ước tính và độ chính xác, nếu không phải là một câu trả lời rất hữu ích.
  • Jeff Rosenthal (U Toronto) có một bài báo nghiên cứu về tác động của RNG đối với sự hội tụ của chuỗi (Monte Carlo) Markov nhưng tôi không thể tìm thấy nó. Gần đây tôi đã chạy một thử nghiệm nhỏ trên blog của mình mà không có tác động rõ ràng của loại RNG.
    • Bên cạnh đó, một kế hoạch xổ số ở Ontario đã sử dụng thế hệ ngẫu nhiên được thiết kế kém, được phát hiện bởi một nhà thống kê, Mohan Srivastava ở Toronto, Canada, người đã thông báo cho Tập đoàn Xổ số và Trò chơi Ontario về vấn đề này, thay vì kiếm lợi nhuận khổng lồ từ việc này kẽ hở.
  • Dưới đây là một minh họa về trường hợp một trình giả lập mạng cổ điển bị ảnh hưởng bởi một lựa chọn mặc định kém (liên kết với Park và Miller ở trên).
  • các vấn đề cụ thể với cấu trúc của RNG được sử dụng trong điện toán song song . Sử dụng một số hạt giống thường không đủ tốt, đặc biệt là cho các máy phát đồng quy tuyến tính. Nhiều cách tiếp cận có thể được tìm thấy trong tài liệu máy tính, bao gồm các gói tạo số ngẫu nhiên song song (XUÂN) của Michael Mascagni (bao gồm cả phiên bản R) và trình tạo động của Matsumoto , một chương trình C cung cấp các giá trị bắt đầu cho các luồng độc lập khi sử dụng twister Mersenne . Điều này cũng đã được giải quyết trên tràn ngăn xếp SE .
  • Năm ngoái, tôi đã thấy một bài nói chuyện của Paula Whitlock về tác động của Thư viện Khoa học GNU về sự hội tụ của các bước đi ngẫu nhiên chiều cao, nhưng không thể.
  • Để kết thúc bằng một ghi chú nhẹ, cũng có một số tài liệu về sự khác biệt giữa RNG phần mềm và phần cứng, với tuyên bố rằng tâm lý học có thể tác động đến sau này !
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.