Hãy bắt đầu bằng cách vẽ dữ liệu và xem nó. Đây là một số lượng rất hạn chế của dữ liệu, vì vậy đây sẽ là hơi ad-hoc với nhiều giả định.
rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08,
91.48,
74.23,
129.8,
169.22,
123.43,
104.93,
103.27,
169.01,
83.29,
157.57,
117.72,
128.63)
diam <- c(17.28,
6.57,
7.12,
16.52,
14.58,
6.99,
6.63,
6.75,
15.38,
7.45,
13.06,
6.61,
7.19)
plot(mass,diam,col=rotten,lwd=2)
title("Fruits")
Vì vậy, đây là dữ liệu, các chấm đỏ đại diện cho trái cây thối:
Bạn đúng khi cho rằng dường như có hai loại trái cây. Các giả định tôi đưa ra là như sau:
- Đường kính chia trái cây thành hai nhóm
- Trái cây có đường kính lớn hơn 10 nằm trong một nhóm, những trái khác trong nhóm nhỏ hơn.
- Chỉ có một quả thối trong nhóm trái cây lớn. Chúng ta hãy giả sử rằng nếu một quả nằm trong nhóm lớn, thì việc bị thối không ảnh hưởng đến trọng lượng. Điều này rất cần thiết, vì chúng ta chỉ có một điểm dữ liệu trong nhóm đó.
- Nếu quả là một quả nhỏ, thì bị thối ảnh hưởng đến đại chúng.
- Giả sử rằng các biến diam và khối lượng thường được phân phối.
Bởi vì người ta cho rằng tổng đường kính là 64,2 cm, nên nhiều khả năng hai quả to và bốn quả nhỏ. Bây giờ có 3 trường hợp cho trọng lượng. Có 2, 3 hoặc 4 quả nhỏ thối, ( một quả lớn bị thối không ảnh hưởng đến khối lượng theo giả định ). Vì vậy, bây giờ bạn có thể nhận được giới hạn về khối lượng của mình bằng cách tính các giá trị này.
Chúng ta có thể ước tính bằng thực nghiệm xác suất số lượng quả nhỏ bị thối. Chúng tôi sử dụng xác suất để cân nhắc ước tính khối lượng của chúng tôi, tùy thuộc vào số lượng trái cây thối:
samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
numF <- 0 # Number of small rotten
numR <- 0 # Total number of rotten
# Pick 4 small fruits
for(j in 1:4){
if(runif(1) < (5/8)){ # Empirical proportion of small rotten
numF <- numF + 1
numR <- numR + 1
}
}
# Pick 2 large fruits
for(j in 1:2){
if(runif(1) < 1/5){# Empirical proportion of large rotten
numR <- numR + 1
}
}
stored_vals[i,] <- c(numF,numR)
}
# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)
table(fourRotten)
# Proportions
props <- table(fourRotten)/length(fourRotten)
massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])
weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)
Est_Mass <- sum(props*weights)
Cung cấp cho chúng tôi một ước tính cuối cùng là 691.5183g . Tôi nghĩ rằng bạn phải đưa ra hầu hết các giả định mà tôi đã đưa ra để đi đến kết luận, nhưng tôi nghĩ có thể làm điều này theo cách thông minh hơn. Ngoài ra tôi lấy mẫu theo kinh nghiệm để có xác suất số lượng quả nhỏ thối, đó chỉ là sự lười biếng và có thể được thực hiện "phân tích".