Tôi sẽ trả lời quan điểm của bạn về mô phỏng với R vì đây là người duy nhất tôi quen thuộc. R có rất nhiều bản phân phối dựng sẵn mà bạn có thể mô phỏng. Logic của việc đặt tên là để mô phỏng một phân phối được gọi là dis
tên rdis
.
Dưới đây là những cái tôi sử dụng thường xuyên nhất
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Bạn có thể tìm thấy một số bổ sung trong Lắp phân phối với R .
Ngoài ra, cảm ơn @jthetzel đã cung cấp một liên kết với một danh sách toàn diện các bản phân phối và các gói mà chúng thuộc về.
Nhưng chờ đã, còn nữa: OK, theo dõi bình luận của @ whuber Tôi sẽ cố gắng giải quyết các điểm khác. Về điểm 1, tôi không bao giờ đi theo cách tiếp cận phù hợp. Thay vào đó tôi luôn nghĩ về nguồn gốc của tín hiệu, giống như nguyên nhân gây ra hiện tượng, có một số đối xứng tự nhiên trong việc tạo ra nó, v.v. Bạn cần một vài chương sách để trình bày về nó nên tôi sẽ chỉ đưa ra hai ví dụ.
Nếu dữ liệu được tính và không có giới hạn trên, tôi thử dùng Poisson. Các biến Poisson có thể được hiểu là các số độc lập liên tiếp trong một cửa sổ thời gian, đây là một khung rất chung. Tôi phù hợp với phân phối và xem (thường trực quan) xem phương sai có được mô tả tốt không. Rất thường xuyên, phương sai của mẫu cao hơn nhiều, trong trường hợp đó tôi sử dụng Binomial âm. Binomial âm có thể được hiểu là sự pha trộn của Poisson với các biến khác nhau, thậm chí còn tổng quát hơn, vì vậy điều này thường rất phù hợp với mẫu.
Nếu tôi nghĩ rằng dữ liệu đối xứng quanh giá trị trung bình, nghĩa là độ lệch có khả năng dương hoặc âm như nhau, tôi cố gắng khớp với Gaussian. Sau đó tôi kiểm tra (một lần nữa bằng mắt) xem có nhiều ngoại lệ hay không, tức là các điểm dữ liệu rất xa so với giá trị trung bình. Nếu có, tôi sử dụng t của Sinh viên thay thế. Phân phối t của Học sinh có thể được hiểu là một hỗn hợp của Gaussian với các phương sai khác nhau, một lần nữa rất chung chung.
Trong những ví dụ đó, khi tôi nói một cách trực quan, ý tôi là tôi sử dụng cốt truyện QQ
Điểm 3, cũng xứng đáng với một số chương của cuốn sách. Hiệu quả của việc sử dụng phân phối thay vì phân phối khác là vô hạn. Vì vậy, thay vì đi qua tất cả, tôi sẽ tiếp tục hai ví dụ trên.
Trong những ngày đầu của tôi, tôi không biết rằng Binomial âm có thể có một cách giải thích có ý nghĩa nên tôi đã sử dụng Poisson mọi lúc (vì tôi muốn có thể diễn giải các tham số theo thuật ngữ của con người). Rất thường xuyên, khi bạn sử dụng Poisson, bạn phù hợp với ý nghĩa độc đáo, nhưng bạn đánh giá thấp phương sai. Điều này có nghĩa là bạn không thể tái tạo các giá trị cực đoan của mẫu của mình và bạn sẽ xem xét các giá trị đó như các ngoại lệ (các điểm dữ liệu không có cùng phân phối như các điểm khác) trong khi thực tế chúng không như vậy.
Một lần nữa trong những ngày đầu tiên của tôi, tôi không biết rằng Sinh viên cũng có một cách giải thích có ý nghĩa và tôi sẽ sử dụng Gaussian mọi lúc. Một điều tương tự đã xảy ra. Tôi sẽ phù hợp với giá trị trung bình và phương sai, nhưng tôi vẫn không nắm bắt được các ngoại lệ vì hầu như tất cả các điểm dữ liệu được cho là nằm trong 3 độ lệch chuẩn của giá trị trung bình. Điều tương tự cũng xảy ra, tôi kết luận rằng một số điểm là "phi thường", trong khi thực tế thì không.