Tôi muốn kết hợp dữ liệu từ các nguồn khác nhau.
Giả sử tôi muốn ước tính một thuộc tính hóa học (ví dụ: hệ số phân vùng ):
Tôi có một số dữ liệu thực nghiệm, thay đổi do lỗi đo lường xung quanh giá trị trung bình.
Và, thứ hai, tôi có một mô hình dự đoán một ước tính từ các thông tin khác (mô hình cũng có một số điểm không chắc chắn).
Làm thế nào tôi có thể kết hợp hai bộ dữ liệu đó? [Ước tính kết hợp sẽ được sử dụng trong một mô hình khác như dự đoán].
Phương pháp phân tích tổng hợp và bayes dường như là phù hợp. Tuy nhiên, không tìm thấy nhiều tài liệu tham khảo và ý tưởng về cách triển khai nó (Tôi đang sử dụng R, nhưng cũng quen thuộc với python và C ++).
Cảm ơn.
Cập nhật
Ok, đây là một ví dụ thực tế hơn:
Để ước tính độc tính của một hóa chất (thường được biểu thị bằng = nồng độ trong đó 50% động vật chết) các thí nghiệm trong phòng thí nghiệm được tiến hành. Hạnh phúc là kết quả của các thí nghiệm được thu thập trong cơ sở dữ liệu (EPA) .
Dưới đây là một số giá trị cho thuốc trừ sâu Lindane :
### Toxicity of Lindane in ug/L
epa <- c(850 ,6300 ,6500 ,8000, 1990 ,516, 6442 ,1870, 1870, 2000 ,250 ,62000,
2600,1000,485,1190,1790,390,1790,750000,1000,800
)
hist(log10(epa))
# or in mol / L
# molecular weight of Lindane
mw = 290.83 # [g/mol]
hist(log10(epa/ (mw * 1000000)))
Tuy nhiên, cũng có một số mô hình có sẵn để dự đoán độc tính từ các tính chất hóa học ( QSAR ). Một trong những mô hình này dự đoán độc tính từ hệ số phân chia octanol / nước ( ):
Hệ số phân chia của Lindane là và độc tính dự đoán là .l o g L C 50 [ m o l / L ] = - 4.902
lkow = 3.8
mod1 <- -0.94 * lkow - 1.33
mod1
Có cách nào hay để kết hợp hai thông tin khác nhau này (thí nghiệm trong phòng thí nghiệm và dự đoán mô hình) không?
hist(log10(epa/ (mw * 1000000)))
abline(v = mod1, col = 'steelblue')
kết hợp sẽ được sử dụng sau này trong mô hình làm công cụ dự đoán. Do đó, một giá trị (kết hợp) sẽ là một giải pháp đơn giản.
Tuy nhiên, một bản phân phối cũng có thể có ích - nếu điều này là có thể trong mô hình hóa (làm thế nào?).