EDIT: Bi kịch! Giả định ban đầu của tôi là không chính xác! (Hoặc nghi ngờ, ít nhất - làm bạn tin tưởng những gì người bán nói cho bạn Tuy nhiên, chiếc mũ chóp để Morten, cũng?.) Mà tôi đoán là một giới thiệu tốt để thống kê, nhưng Các phần Tấm Cách tiếp cận hiện đang bổ sung dưới đây ( vì mọi người dường như thích Toàn bộ tờ một, và có lẽ ai đó vẫn sẽ thấy nó hữu ích).
Trước hết, vấn đề lớn. Nhưng tôi muốn làm cho nó phức tạp hơn một chút.
Do đó, trước khi thực hiện, hãy để tôi làm cho nó đơn giản hơn một chút và nói - phương pháp bạn đang sử dụng ngay bây giờ là hoàn toàn hợp lý . Nó rẻ thật dễ dàng. Vì vậy, nếu bạn phải gắn bó với nó, bạn không nên cảm thấy tồi tệ. Chỉ cần chắc chắn rằng bạn chọn gói của bạn ngẫu nhiên. VÀ, nếu bạn chỉ có thể cân nhắc mọi thứ một cách đáng tin cậy (mẹo đội mũ cho whuber và user777), thì bạn nên làm điều đó.
Lý do tôi muốn làm cho nó phức tạp hơn một chút là vì bạn đã có - bạn chưa nói với chúng tôi về toàn bộ sự phức tạp, đó là - đếm mất thời gian và thời gian cũng là tiền . Nhưng giá bao nhiêu ? Có lẽ nó thực sự rẻ hơn để đếm tất cả mọi thứ!
Vì vậy, những gì bạn thực sự đang làm là cân bằng thời gian cần thiết, với số tiền bạn đang tiết kiệm. (Tất nhiên, nếu bạn chỉ chơi trò chơi này một lần. Lần tiếp theo bạn có điều này xảy ra với người bán, họ có thể đã bắt kịp và thử một mẹo mới. Về lý thuyết trò chơi, đây là điểm khác biệt giữa Trò chơi bắn súng đơn và Iterated Trò chơi. Nhưng bây giờ, hãy giả vờ rằng người bán sẽ luôn làm điều tương tự.)
Một điều nữa trước khi tôi có được ước tính mặc dù. (Và, xin lỗi vì đã viết quá nhiều mà vẫn không nhận được câu trả lời, nhưng sau đó, đó là một câu trả lời khá hay cho một nhà thống kê sẽ làm gì? Họ sẽ dành một lượng lớn thời gian để đảm bảo rằng họ hiểu được từng phần nhỏ của vấn đề trước khi họ cảm thấy thoải mái khi nói bất cứ điều gì về nó.) Và đó là một cái nhìn sâu sắc dựa trên những điều sau đây:
(CHỈNH SỬA: NẾU BẠN THỰC SỰ THỰC HIỆN ...) Người bán của bạn không tiết kiệm tiền bằng cách xóa nhãn - họ tiết kiệm tiền bằng cách không in tờ. Họ không thể bán nhãn của bạn cho người khác (tôi giả sử). Và có lẽ, tôi không biết và tôi không biết nếu bạn làm thế, họ không thể in một nửa tờ của bạn và nửa tờ của người khác. Nói cách khác, trước khi bạn bắt đầu đếm, bạn có thể giả sử rằng tổng số nhãn là một trong hai 9000, 9100, ... 9900, or 10,000
. Đó là cách tôi sẽ tiếp cận nó, bây giờ.
Phương pháp toàn bộ tờ
Khi một vấn đề hơi rắc rối như vấn đề này (rời rạc và bị ràng buộc), rất nhiều nhà thống kê sẽ mô phỏng những gì có thể xảy ra. Đây là những gì tôi mô phỏng:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Điều này mang lại cho bạn, giả sử họ đang sử dụng toàn bộ trang tính và các giả định của bạn là chính xác, có thể là một bản phân phối nhãn của bạn (theo ngôn ngữ lập trình R).
Sau đó, tôi đã làm điều này:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Điều này tìm thấy, bằng cách sử dụng phương pháp "bootstrap", khoảng tin cậy sử dụng 4, 5, ... 20 mẫu. Nói cách khác, Trung bình, nếu bạn sử dụng N mẫu, khoảng tin cậy của bạn sẽ lớn đến mức nào? Tôi sử dụng điều này để tìm một khoảng đủ nhỏ để quyết định số lượng tờ và đó là câu trả lời của tôi.
Bởi "đủ nhỏ", ý tôi là khoảng tin cậy 95% của tôi chỉ có một số nguyên trong đó - ví dụ: nếu khoảng tin cậy của tôi là từ [93.1, 94.7], thì tôi sẽ chọn 94 là số tờ chính xác, vì chúng tôi biết nó là một con số
Mặc dù khó khăn khác - sự tự tin của bạn phụ thuộc vào sự thật . Nếu bạn có 90 tờ, và mỗi cọc có 90 nhãn, thì bạn hội tụ rất nhanh. Tương tự với 100 tờ. Vì vậy, tôi đã xem xét 95 tờ, trong đó có sự không chắc chắn lớn nhất và thấy rằng để có độ chắc chắn 95%, trung bình bạn cần khoảng 15 mẫu. Vì vậy, nói chung, bạn muốn lấy 15 mẫu, bởi vì bạn không bao giờ biết những gì thực sự ở đó.
SAU bạn biết bạn cần bao nhiêu mẫu, bạn biết rằng khoản tiết kiệm dự kiến của bạn là:
100Nmissing−15c
Trong đó là chi phí đếm một ngăn xếp. Nếu bạn cho rằng có một cơ hội bằng nhau của mọi số từ 0 đến 10 bị thiếu, thì khoản tiết kiệm dự kiến của bạn là c $. Nhưng, và đây là điểm tạo ra phương trình - bạn cũng có thể tối ưu hóa nó, để đánh đổi sự tự tin của bạn, cho số lượng mẫu bạn cần. Nếu bạn ổn với sự tự tin mà 5 mẫu mang lại cho bạn, thì bạn cũng có thể tính toán số tiền bạn sẽ thực hiện ở đó. (Và bạn có thể chơi với mã này, để tìm ra điều đó.)c500−15∗
Nhưng bạn cũng nên tính tiền cho anh chàng đã khiến bạn làm tất cả công việc này!
(EDIT: THÊM!) Cách tiếp cận một phần
Được rồi, vì vậy hãy giả sử những gì nhà sản xuất nói là đúng và không cố ý - một vài nhãn bị mất trong mỗi tờ. Bạn vẫn muốn biết, Về bao nhiêu nhãn, tổng thể?
Vấn đề này là khác nhau bởi vì bạn không còn có một quyết định trong sạch mà bạn có thể đưa ra - đó là một lợi thế cho giả định Toàn bộ. Trước đây, chỉ có 11 câu trả lời có thể - bây giờ, có 1100 và nhận được khoảng tin cậy 95% cho chính xác có bao nhiêu nhãn có thể sẽ lấy nhiều mẫu hơn bạn muốn. Vì vậy, hãy xem liệu chúng ta có thể nghĩ về điều này khác đi.
Bởi vì đây thực sự là việc bạn đưa ra quyết định, chúng tôi vẫn còn thiếu một vài thông số - bạn sẵn sàng mất bao nhiêu tiền, trong một giao dịch và chi phí bao nhiêu để tính một ngăn xếp. Nhưng hãy để tôi thiết lập những gì bạn có thể làm, với những con số đó.
Mô phỏng lại (mặc dù đạo cụ cho người dùng777 nếu bạn có thể làm điều đó mà không cần!), Đó là thông tin để xem xét kích thước của các khoảng khi sử dụng số lượng mẫu khác nhau. Điều đó có thể được thực hiện như thế này:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Giả định (lần này) rằng mỗi ngăn xếp có số lượng nhãn ngẫu nhiên đồng đều trong khoảng từ 90 đến 100 và cung cấp cho bạn:
Tất nhiên, nếu mọi thứ thực sự giống như chúng được mô phỏng, thì ý nghĩa thực sự sẽ là khoảng 95 mẫu trên mỗi ngăn xếp, thấp hơn so với thực tế có vẻ như - đây là một lập luận trong thực tế đối với phương pháp Bayes. Tuy nhiên, nó mang lại cho bạn cảm giác hữu ích về mức độ chắc chắn hơn về câu trả lời của bạn, khi bạn tiếp tục lấy mẫu - và giờ đây bạn có thể đánh đổi một cách rõ ràng chi phí lấy mẫu với bất kỳ thỏa thuận nào bạn định về giá cả.
Mà tôi biết bây giờ, tất cả chúng ta thực sự tò mò muốn nghe về.