Ước tính khối lượng trái cây trong một túi chỉ từ tổng số liên quan?


9

Một người hướng dẫn tại trường đại học của tôi đã đặt ra một câu hỏi như thế này (không phải cho bài tập về nhà vì lớp học đã kết thúc và tôi đã không ở trong đó). Tôi không thể tìm ra cách tiếp cận nó.

Câu hỏi liên quan đến 2 túi mỗi loại chứa một loại trái cây khác nhau:

Túi đầu tiên chứa trái cây được chọn ngẫu nhiên sau đây:

+ ------------- + -------- + --------- +
| đường kính cm | khối lượng g | thối? |
+ ------------- + -------- + --------- +
| 17,28 | 139,08 | 0 |
| 6,57 | 91,48 | 1 |
| 7.12 | 74,23 | 1 |
| 16,52 | 129.8 | 0 |
| 14,58 | 169,22 | 0 |
| 6,99 | 123,43 | 0 |
| 6,63 | 104,93 | 1 |
| 6,75 | 103,27 | 1 |
| 15,38 | 169,01 | 1 |
| 7,45 | 83,29 | 1 |
| 13,06 | 157,57 | 0 |
| 6,61 | 117,72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

Túi thứ hai chứa 6 quả được chọn ngẫu nhiên từ cùng một cửa hàng với túi thứ nhất. Tổng đường kính của chúng là 64,2 cm và 4 là thối.

Đưa ra ước tính cho khối lượng của túi thứ hai.

Tôi có thể thấy rằng dường như có hai loại trái cây khác nhau với đường kính và khối lượng phân bố bình thường nhưng tôi không biết làm thế nào để tiến hành.


6
Câu hỏi thú vị - nhưng dữ liệu lạ: trọng lượng cụ thể nằm trong khoảng từ 0,78 đến 0,05. Có lẽ ai đó nhầm tưởng các đồ trang trí xốp cho trái cây thật? :-)
whuber

Câu hỏi không nói những gì trái cây được làm từ. Tôi đoán rằng bạn có thể cho rằng bản thân các túi thực tế cũng không trọng lượng. Làm thế nào để tôi giải quyết vấn đề?
rutilusk

3
Sự thúc đẩy của nhận xét của tôi là khi phân tích một lượng nhỏ dữ liệu lộn xộn như vậy, chúng tôi dựa vào kiến ​​thức về ý nghĩa của dữ liệu. Vì những con số này rõ ràng không mô tả bất kỳ loại "trái cây" nào được biết đến, chúng tôi không thể thu hút kiến ​​thức tên miền như vậy. (Ví dụ, chúng tôi không có cơ sở nào để cho rằng bất kỳ phần nào của những dữ liệu này phải được "phân phối bình thường".) Điều đó gây khó khăn hoặc không thể phát triển các câu trả lời hợp lý và có thể dẫn đến tranh cãi, bởi vì nó giới hạn các cách thức trong đó hiệu suất của bất kỳ phương pháp tiếp cận có thể được đánh giá.
whuber

Nhưng quả xốp không thể thối. Có lẽ trái cây là những nhân vật anh hùng sinh sôi nảy nở, với "đường kính" được đo dọc theo trục dài. Dường như có ít nhất hai loại trái cây: vì vậy, giả sử trọng lượng riêng gần với một loại, loại nhỏ hơn sẽ có kích thước và hình dạng của một quả chanh; lớn hơn khoảng nửa feet dài & dưới 2 inch. Khó khăn với ý tưởng này là có vẻ tự nhiên hơn khi mô tả trục ngắn hơn là "đường kính".
Scortchi - Phục hồi Monica

Câu trả lời:


1

Hãy bắt đầu bằng cách vẽ dữ liệu và xem nó. Đây là một số lượng rất hạn chế của dữ liệu, vì vậy đây sẽ là hơi ad-hoc với nhiều giả định.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Vì vậy, đây là dữ liệu, các chấm đỏ đại diện cho trái cây thối:

trái cây âm mưu

Bạn đúng khi cho rằng dường như có hai loại trái cây. Các giả định tôi đưa ra là như sau:

  • Đường kính chia trái cây thành hai nhóm
  • Trái cây có đường kính lớn hơn 10 nằm trong một nhóm, những trái khác trong nhóm nhỏ hơn.
  • Chỉ có một quả thối trong nhóm trái cây lớn. Chúng ta hãy giả sử rằng nếu một quả nằm trong nhóm lớn, thì việc bị thối không ảnh hưởng đến trọng lượng. Điều này rất cần thiết, vì chúng ta chỉ có một điểm dữ liệu trong nhóm đó.
  • Nếu quả là một quả nhỏ, thì bị thối ảnh hưởng đến đại chúng.
  • Giả sử rằng các biến diam và khối lượng thường được phân phối.

Bởi vì người ta cho rằng tổng đường kính là 64,2 cm, nên nhiều khả năng hai quả to và bốn quả nhỏ. Bây giờ có 3 trường hợp cho trọng lượng. Có 2, 3 hoặc 4 quả nhỏ thối, ( một quả lớn bị thối không ảnh hưởng đến khối lượng theo giả định ). Vì vậy, bây giờ bạn có thể nhận được giới hạn về khối lượng của mình bằng cách tính các giá trị này.

Chúng ta có thể ước tính bằng thực nghiệm xác suất số lượng quả nhỏ bị thối. Chúng tôi sử dụng xác suất để cân nhắc ước tính khối lượng của chúng tôi, tùy thuộc vào số lượng trái cây thối:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Cung cấp cho chúng tôi một ước tính cuối cùng là 691.5183g . Tôi nghĩ rằng bạn phải đưa ra hầu hết các giả định mà tôi đã đưa ra để đi đến kết luận, nhưng tôi nghĩ có thể làm điều này theo cách thông minh hơn. Ngoài ra tôi lấy mẫu theo kinh nghiệm để có xác suất số lượng quả nhỏ thối, đó chỉ là sự lười biếng và có thể được thực hiện "phân tích".


Cảm ơn sự đóng góp của bạn. Dường như với tôi, hầu hết các khẳng định mà bạn gọi là "giả định" thực sự là kết luận dựa trên phân tích khám phá của bạn. Sẽ rất có giá trị khi phân tích kết quả của bạn phụ thuộc vào độ chính xác của những kết luận đó như thế nào. Bất kể, rõ ràng là một bộ dữ liệu nhỏ như vậy có thể có thể hỗ trợ một kết quả với bảy con số quan trọng! Nó sẽ đặc biệt hữu ích để cung cấp một số đánh giá về lỗi có thể xảy ra. Nó sẽ tương đối lớn, đó là điều quan trọng cần biết.
whuber

@whuber cảm ơn vì nhận xét, tôi có thể thêm một số thứ nữa để ước tính sự thay đổi sau đó vào buổi tối. Điều đơn giản nhất cần làm là lấy các ước tính lỗi cho khối lượng của ba nhóm tôi sử dụng để tính toán cuối cùng và tính các khoảng dự đoán dựa trên đó. Nhưng tôi thấy rằng OP đã không hoạt động trong một năm, vì vậy tôi không mong đợi câu trả lời này được chấp nhận. Tôi vẫn nghĩ rằng ví dụ này là một vấn đề "đồ chơi" tuyệt vời để xem làm thế nào bạn có thể nhận được với rất ít dữ liệu.
Gumeo

Tôi đang cố gắng đề xuất rằng bạn thực sự nhận được ít thông tin hơn so với đề xuất của câu trả lời của bạn, bởi vì nó phụ thuộc vào nhiều kết luận có nguồn gốc dữ liệu mà bản thân chúng không chắc chắn.
whuber

@whuber Vâng, điều đó hoàn toàn chính xác. Nhưng cố gắng ước tính lỗi được lan truyền bởi tất cả các giả định / kết luận tôi đưa ra không đơn giản lắm. Tôi cũng bị ảnh hưởng nặng nề bởi thực tế là tổng đường kính của các loại trái cây trong túi thứ hai là 64,2cm và OP đề cập rằng có thể có hai nhóm trái cây.
Gumeo

1
@whuber Tôi sẽ nghĩ về điều này và coi đây là một thử thách. Tôi sẽ xem lại câu hỏi này sau!
Gumeo

0

Tôi sẽ đề xuất cách tiếp cận sau:

  1. Tạo tất cả 6 tuple thỏa mãn các điều kiện trên 4 mục. Chúng là .(64)(72)
  2. Chọn từ các bộ dữ liệu được tạo chỉ những bộ thỏa mãn điều kiện trên đường kính.
  3. Tính trọng lượng trung bình của các bộ dữ liệu đã chọn (trung bình số học thông thường).

Tất cả điều này có thể quản lý bằng một tập lệnh đơn giản.


5
Tại sao phương pháp này nên làm việc? Nó giả định gì? Bạn đã thử nó để xem liệu nó thậm chí có thể tạo ra một câu trả lời không?
whuber

0

Nhiều cách tiếp cận bao gồm, từ đơn giản nhất đến phức tạp,

  1. 6 (khối lượng trung bình)
  2. 6 (khối lượng trung bình) (mật độ trung bình)
  3. 4 (khối lượng thối trung bình) + 2 (khối lượng trung bình không thối)
  4. 4 ((khối lượng thối trung bình) + 2 (khối lượng trung bình không thối)) (mật độ trung bình)
  5. 4 (khối lượng thối trung bình) (mật độ thối trung bình) + 2 (khối lượng trung bình không thối) (mật độ trung bình không thối)

. . .

phương pháp tổ hợp

Các cách tiếp cận được sắp xếp theo thứ tự đơn giản để tính toán, không theo thứ tự bất kỳ cách tiếp cận nào tốt hơn, hay bất kỳ điều tốt nào cả. Lựa chọn phương pháp nào để sử dụng phụ thuộc vào đặc điểm nào của dân số được biết hoặc giả định. Ví dụ, nếu khối lượng trái cây trong quần thể cửa hàng thường được phân phối và độc lập với đường kính và trạng thái thối, người ta có thể sử dụng phương pháp đầu tiên, đơn giản nhất mà không có bất kỳ lợi thế nào (hoặc thậm chí bất lợi của lỗi lấy mẫu của nhiều biến) khi sử dụng các phương pháp phức tạp hơn . Nếu không phải là các biến ngẫu nhiên phân phối độc lập, thì một lựa chọn phức tạp hơn tùy thuộc vào thông tin đã biết hoặc giả định về dân số có thể tốt hơn.


3
Tại sao bất kỳ trong số này là tốt? Họ đưa ra giả định gì? Làm thế nào người ta sẽ chọn cái này hơn cái kia? (Có phải họ cũng theo thứ tự tăng dần theo một nghĩa nào đó?)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.