Giả sử rằng một bệnh nào đó ( ) có tỷ lệ lưu hành là . Cũng giả sử rằng một triệu chứng nhất định ( ) có tỷ lệ lưu hành (trong dân số chung = người mắc bệnh D và những người không mắc bệnh này [có thể mắc bệnh khác, nhưng nó không quan trọng]) của . Trong một nghiên cứu trước đây, người ta đã phát hiện ra rằng xác suất có điều kiện (xác suất có triệu chứng , với bệnh là ).
Câu hỏi đầu tiên : có thể được hiểu là tương đương với tỷ lệ mắc triệu chứng trong nhóm người mắc bệnh không?
Câu hỏi thứ hai : Tôi muốn tạo trong R một tập dữ liệu, cho thấy:
làm như thế nào? Nếu tôi chỉ sử dụng sample
hàm, tập dữ liệu của tôi thiếu thông tin rằng :
symptom <- sample(c("yes","no"), 1000, prob=c(0.005, 0.995), rep=T)
disease <- sample(c("yes","no"), 1000, prob=c(0.002, 0.998), rep=T)
Vì vậy, câu hỏi của tôi là: làm thế nào để tạo ra một bộ dữ liệu tốt, bao gồm xác suất có điều kiện mà tôi mong muốn?
EDIT : Tôi cũng đã đăng câu hỏi tương tự trên stackoverflow.com ( /programming/7291935/how-to-create-a-dataset-with-conditable-probability ), bởi vì, theo tôi, câu hỏi của tôi được kế thừa chương trình ngôn ngữ R, nhưng cũng theo lý thuyết thống kê.