Tôi sẽ cố gắng khắc phục lỗi trước đó bằng cách hiển thị một cái gì đó ngược lại - rằng các mẫu là đủ (giới hạn dưới của gần như chặt chẽ)! Xem những gì bạn nghĩ ....1/ε2Θ~(1ϵ2)1/ϵ2
Trực giác quan trọng bắt đầu từ hai quan sát. Đầu tiên, để các bản phân phối có khoảng cách là , phải có các điểm có xác suất cao ( ). Ví dụ: nếu chúng tôi có điểm xác suất , chúng tôi sẽ có . ε Ohm ( ε 2 ) 1 / ε 3 ε 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Thứ hai, xem xét phân phối đồng đều với khoảng cách là . Nếu chúng ta có điểm xác suất , thì mỗi điểm sẽ khác nhau bởi các mẫu và sẽ đủ. Mặt khác, nếu chúng ta có các điểm , thì mỗi điểm sẽ cần khác nhau bởi các mẫu và một lần nữa các mẫu (một số không đổi trên mỗi điểm) đủ. Vì vậy, chúng tôi có thể hy vọng rằng, trong số các điểm có xác suất cao được đề cập trước đó, luôn có một số điểm khác nhau "đủ" để phân biệt nó. ε O ( 1 ) O ( 1 ) O ( ε ) 1 / ε 2 O ( 1 / ε 2 ) O ( ε 2 ) O ( 1 / ε 2 ) O ( 1 / ε 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Thuật toán. Cho và tham số độ tin cậy , đặt . Vẽ các mẫu từ mỗi bản phân phối. Đặt là số mẫu tương ứng cao hơn, thấp hơn cho điểm . Nếu có bất kỳ điểm nào mà và , hãy khai báo phân phối khác nhau. Nếu không, tuyên bố chúng như nhau.M X = M log ( 1 / ε 2 ) XϵMX=Mlog(1/ϵ2) ai,biii∈[n]ai≥XXϵ2ai,biii∈[n] mộti-bi≥√ai≥X8ai−bi≥ai−−√X√4
Giới hạn chính xác và độ tin cậy ( ) phụ thuộc vào bổ đề sau đây nói rằng tất cả độ lệch trong khoảng cách đến từ các điểm có xác suất khác nhau bởi . L 2 Ω ( ε 2 )1−e−Ω(M)L2Ω(ϵ2)
Yêu cầu. Giả sử . Đặt. Đặt . Sau đó
delta i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ε 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|Σi∈ S k δ 2 i ≥ε2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Bằng chứng . Chúng tôi có
Chúng ta hãy ràng buộc tổng thứ hai; chúng tôi muốn tối đa hóa theo chủ đề . Vì hàm hoàn toàn lồi và tăng, chúng ta có thể tăng mục tiêu bằng cách lấy bất kỳ và tăng bằng trong khi giảm bằng . Do đó, mục tiêu sẽ được tối đa hóa với càng nhiều điều khoản càng tốt ở các giá trị tối đa của chúng và phần còn lại ởΣ i ∉ S k δ 2 i Σ i ∉ S k δi≤2x↦x2δi≥δjδiγδjγ0 ε 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0. Giá trị tối đa của mỗi thuật ngữ là và có nhiều nhất các điều khoản của giá trị này (vì chúng có tổng số nhiều nhất là ). Vì vậy,
2kϵ2k 2Σi∉Skδ 2 i ≤2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Yêu cầu . Đặt . Nếu , tồn tại ít nhất một điểm với và .‖ D 1 - D 2 ‖ 2 ≥ ε i ∈ [ n ] p i > ε 2pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n] δi≥ε √pi>ϵ24δi≥ϵpi√2
Bằng chứng . Đầu tiên, tất cả các điểm trong đều có theo định nghĩa (và không thể để trống cho theo yêu cầu trước đó).p i ≥ delta i > ε 2Sk Skk>2pi≥δi>ϵ2kSkk>2
Thứ hai, vì , chúng tôi có
hoặc, sắp xếp lại,
do đó, bất đẳng thức
giữ ít nhất một điểm trong . Bây giờ chọn . Σ i ∈ S k δ 2 i ≥ ε 2 ( 1∑ipi≤2Σi∈Sk(δ 2 i -piε2(1
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
δ2i≥piε2(1∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
Skk=4◻δ2i≥piϵ2(12−1k)
Skk=4□
Yêu cầu (dương tính giả) . Nếu , thuật toán của chúng tôi khai báo chúng khác với xác suất nhiều nhất là .e - Ω ( M )D1=D2e−Ω(M)
Phác thảo . Hãy xem xét hai trường hợp: và . Trong trường hợp đầu tiên, số lượng mẫu của sẽ không vượt quá từ một trong hai phân phối: Số lượng mẫu trung bình là và giới hạn đuôi nói rằng với xác suất , mẫu 's không vượt quá trung bình của họ bằng một chất phụ gia ; nếu chúng ta cẩn thận giữ giá trị ở đuôi bị ràng buộc, chúng ta có thể liên kết với chúng cho dù có bao nhiêu điểm như vậy (theo trực giác, ràng buộc giảm theo cấp số mũ theo số điểm có thể).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
Trong trường hợp , chúng ta có thể sử dụng ràng buộc Chernoff: Nó nói rằng, khi chúng ta lấy mẫu và một điểm được rút ra với xác suất , xác suất khác với trung bình của nó bởi nhiều nhất là . Ở đây, hãy để , do đó xác suất được giới hạn bởi .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Vì vậy, với xác suất , (cho cả hai bản phân phối) số lượng mẫu của nằm trong có nghĩa là . Do đó, bài kiểm tra của chúng tôi sẽ không bắt được những điểm này (chúng rất gần nhau) và chúng tôi có thể liên kết với tất cả trong số chúng. 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
Yêu cầu (phủ định sai) . Nếu , thuật toán của chúng tôi khai báo chúng giống hệt với xác suất nhiều nhất là .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Phác thảo . Có một số điểm với và . Cùng một giá trị ràng buộc như trong tuyên bố trước đó nói rằng với xác suất , số lượng mẫu của khác với trung bình của nó nhiều nhất là . Đó là cho phân phối (WLOG) có ; nhưng có xác suất thậm chí thấp hơn về số lượng mẫu của từ phân phốiipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 khác với giá trị trung bình của nó bởi lượng phụ gia này (vì giá trị trung bình và phương sai thấp hơn).
Vì vậy, với xác suất cao, số lượng mẫu của từ mỗi phân phối nằm trong phạm vi về ý nghĩa của nó; nhưng xác suất của chúng khác nhau bởi , vì vậy phương tiện của chúng khác nhau bởi
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Vì vậy, với xác suất cao, đối với điểm , số lượng mẫu khác nhau ít nhất là . i#samples(1)−−−−−−−−−−−√X√4□
Để hoàn thành các bản phác thảo, chúng ta cần chỉ ra một cách chặt chẽ hơn rằng, với đủ lớn, số lượng mẫu của đủ gần với ý nghĩa của nó, khi thuật toán sử dụng thay vì , nó không thay đổi bất cứ điều gì (điều này nên đơn giản bằng cách để một số phòng ngọ nguậy trong các hằng số).Mi#samples−−−−−−−−√mean−−−−−√