Tổng quát hóa trò lừa đảo trung bình của người Viking lên kích thước cao hơn?


21

Đối với các thuật toán ngẫu nhiên A lấy các giá trị thực, "mẹo trung vị" là một cách đơn giản để giảm xác suất thất bại xuống bất kỳ ngưỡng nào δ>0 , với chi phí chỉ là một phép nhân t=O(log1δ)trên đầu. Cụ thể, nếu đầu ra củarơi vào "phạm vi tốt"với xác suất (ít nhất), sau đó chạy các bản sao độc lậpvà lấy giá trị trung bình của các kết quả đầu ra của chúngsẽ dẫn đến một giá trị rơi vàovới xác suất ít nhấttheo giới hạn của Chernoff / Hoeffding. tôi = [ một , b ] 2 / 3 Một 1 , ... , Một t một 1 , ... , một t tôi 1 - δAI=[a,b]2/3A1,,Ata1,,atI1δ

Có bất kỳ khái quát nào về "mánh" này cho các kích thước cao hơn không, giả sử , trong đó phạm vi tốt bây giờ là một tập lồi (hoặc một quả bóng, hoặc bất kỳ tập hợp đủ đẹp và có cấu trúc nào)? Đó là, được đưa ra một thuật toán ngẫu nhiên xuất ra các giá trị trong và một "tập hợp tốt" sao cho cho tất cả , làm thế nào người ta có thể tăng xác suất thành công lên chỉ với chi phí logarit trong ?Một R d S R d P r { Một (x,r)S}2 / 3x1-δ1 / δRdARdSRdPr{A(x,r)S}2/3x1δ1/δ

(Phrased khác nhau: được cố định, tùy ý với sự đảm bảo rằng ít nhất của thuộc về , có một quy trình xuất ra một giá trị từ ? Nếu vậy, có một giá trị hiệu quả không?)2 ta1,,atRd aiSS2t3aiSS

Và các giả định tối thiểu mà một người cần trên để có thể đạt được là gì?S

Xin lỗi nếu điều này trở nên tầm thường - tôi không thể tìm thấy tài liệu tham khảo về câu hỏi này ...


3
Trong trường hợp đặc biệt rằng là một hình khối, nó có hoạt động không nếu bạn sử dụng thủ thuật trung bình trong từng chiều riêng lẻ? Vì vậy, lấy mẫu một loạt các điểm, sau đó lấy trung vị tọa độ của chúng theo thứ nguyên 1, 2, ..., d, và sau đó bạn có được một điểm trong . Có lẽ bạn sẽ cần các mẫu với chiến lược này? R d O ( log ( d / ε ) )SRdO(log(d/ϵ))
Robin Kothari

1
Trong trường hợp một chiều, thông thường bạn biết nhưng không phải là khoảng chính xác (mặc dù ngay cả khi bạn không biết mẹo trung bình vẫn hoạt động). Chúng ta có nên cho rằng chúng ta biết nhưng chỉ lên đến bản dịch? Lên bản dịch và nhân rộng? b - a SbabaS
Sasho Nikolov

@SashoNikolov Tôi nghĩ đây sẽ là "khái quát hóa" nhất (ví dụ, chúng ta chỉ biết là một "quả bóng tốt có đường kính "). εSε
Clement C.

1
Chà, những gì Thomas viết trong câu trả lời của anh ấy thậm chí còn chung chung hơn: anh ấy cho rằng ( trong câu trả lời của anh ấy) là một tập lồi không xác định. GSG
Sasho Nikolov

Câu trả lời:


17

Những gì bạn đang tìm kiếm gần như giống với một xu hướng trung tâm mạnh mẽ : một cách giảm một đám mây dữ liệu chỉ đến một điểm, sao cho nếu nhiều điểm dữ liệu gần với "sự thật mặt đất" nhưng phần còn lại của chúng là tùy ý xa, sau đó đầu ra của bạn cũng sẽ gần với sự thật mặt đất. "Điểm phá vỡ" của một phương pháp như vậy là một phần của các ngoại lệ xấu tùy ý mà nó có thể chịu đựng được. Sự khác biệt là trong trường hợp của bạn, bạn muốn thay thế "gần với" bằng "trong thân lồi của".

Một cách để nắm bắt điều này là với khái niệm về độ sâu Tukey. Một điểm có độ sâu Tukey (tương ứng với một tập hợp điểm dữ liệu nhất định) nếu mỗi nửa không gian chứa điểm đã cho cũng chứa ít nhất các điểm dữ liệu . Nếu có một không gian con lồi tốt mà bạn muốn ở bên trong, thì một điểm có độ sâu Tukey sẽ ở bên trong nó miễn là có ít nhất điểm dữ liệu bên trong nó. Vì vậy, điểm phân tích của phương pháp này là giá trị lớn nhất mà bạn có thể đạt được.n p n p ( 1 - p ) n ppnpnp(1p)np

Thật không may, điểm phân tích này là , không gần bằng 1/2, cả về độ sâu Tukey và cho vấn đề của bạn. Đây là lý do: nếu dữ liệu của bạn được nhóm gần các đỉnh của một đơn giản, thì miễn là phần nhỏ hơn của chúng là các ngoại lệ (nhưng bạn không biết điểm nào) đơn giản là an toàn để chọn vì nó sẽ luôn ở trong thân lồi của những người không ngoại lệ. Nhưng nếu nhiều hơn điểm có thể là ngoại lệ, thì không có nơi nào an toàn để chọn: bất kỳ điểm nào trong đơn giản bạn chọn, các ngoại lệ có thể là tất cả các điểm từ đỉnh đơn giản gần nhất và bạn sẽ ở bên ngoài thân tàu của những người không phải là ngoại lệ.d + 1 1 / ( d + 1 ) 1 / ( d + 1 )1/(d+1)d+11/(d+1)1/(d+1)

Nếu bạn sẵn sàng chịu đựng một điểm phân tích tồi tệ hơn, giống như , có một phương pháp ngẫu nhiên để tìm một điểm sâu đó là đa thức trong cả và : xem bài viết của tôin dO(1/d2)nd

Xấp xỉ các điểm trung tâm với các điểm Radon lặp, K. Clarkson, D. Eppstein, GL Miller, C. Sturtivant và S.-H. Teng, Symp ACM thứ 9. Comp. Địa chất. , San Diego, 1993, tr 91 919898, Int. J. Comp. Địa chất. & Appl. 6 (3): 357 Từ vụ377, 1996, http://kenclarkson.org/center/p.pdf


Vâng. Ngoài ra, tôi sẽ đề cập rằng người ta có thể sử dụng xấp xỉ eps-lưới và những người bạn khác nhau của họ như một cách để có được một mẫu nhỏ gần đúng với các biện pháp độ sâu như vậy. Bạn không nhận được một điểm nào, nhưng bạn có thêm thông tin.
Sariel Har-Peled

Với thuật ngữ của bài báo của bạn, có cách nào hiệu quả được biết để xác minh đã yêu cầu -center cho các số hữu tỷ không? βββ

Nếu theo "hiệu quả" bạn có nghĩa là đa thức trong chiều, thì tôi không biết kết quả như vậy. Bài viết của tôi chỉ tìm thấy một điểm, nó không cung cấp cho bạn thêm thông tin về sự phân bố chiều sâu không gian (chẳng hạn như ám chỉ Sariel ở trên).
David Eppstein

Cảm ơn bạn! Bỏ qua các cân nhắc về hiệu quả (bây giờ), điều này có vẻ như nói rằng đối với trường hợp chung của các bộ lồi tùy ý, không có cách nào để tăng xác suất không đổi thành xác suất tùy ý? (vì tỷ lệ điểm tốt cần phải lớn hơn ? (hoặc tôi đã bỏ lỡ điều gì đó - nhìn lại nó, có cảm giác như công thức thứ hai tôi đã không nắm bắt được ý tưởng về "sự lặp lại độc lập", trong đó chúng ta sẽ có trong tay một vài bộ điểm, mỗi điểm có ít nhất điểm tốt.) 2/311d+12/3
Clement C.

1
Một điểm, một vài điểm, hoặc không, nếu tất cả những gì bạn biết là tồn tại một tập lồi nhưng không phải ở đâu và bạn muốn có thể tăng xác suất ở trong tập hợp chính xác để tốt hơn sau đó d / (d + 1), sau đó tỷ lệ điểm tốt cần ít nhất là d / (d + 1) để lấy xung quanh ví dụ đơn giản. Mặt khác, một kẻ thù có thể cung cấp cho bạn dữ liệu ở dạng đơn giản và chọn ngẫu nhiên một vùng lân cận epsilon của một mặt của đơn giản làm tập hợp lồi; ngay cả khi bạn đoán một điểm gần một đỉnh của đơn giản một cách ngẫu nhiên, bạn sẽ có ít nhất 1 / (d + 1) xác suất chọn sai.
David Eppstein

14

Đây là một câu hỏi gọn gàng và tôi đã nghĩ về nó trước đây. Đây là những gì chúng tôi đã đưa ra:

Bạn chạy thuật toán của mình lần để nhận kết quả và bạn biết điều gì với xác suất cao một phần lớn s rơi vào một tập hợp tốt . Bạn không biết là gì , chỉ là nó lồi. Tin tốt là có một cách để đạt điểm mà không có thêm thông tin nào về nó. Gọi điểm này là .x 1 , , x nR d x i G G G f ( x 1 , , x n )nx1,,xnRdxiGGGf(x1,,xn)

Định lý. Đối với tất cả các số tự nhiên và , tồn tại hàm sao cho các giá trị sau giữ. Đặt và để là tập lồi thỏa mãnSau đó, . Hơn nữa, là tính toán trong đa thức thời gian trong . d f : ( R d ) nR d x 1 . . . x nR d G R d 1ndf:(Rd)nRdx1...xnRdGRdf(x1,...,xn)Gfnd
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

Lưu ý rằng, với , chúng ta có thể đặt là trung vị. Vì vậy, điều này cho thấy làm thế nào để khái quát hóa trung vị cho .f d > 1d=1fd>1

Trước khi chứng minh kết quả này, hãy lưu ý rằng nó chặt chẽ: Đặt và đặt là các phần tử cơ sở tiêu chuẩn và . Bất kỳ tập hợp con nào của của các điểm đều được chứa trong một không gian affine có kích thước (được xác định duy nhất bởi các điểm đó). Nhưng không có điểm nào được chứa trong tất cả các không gian affine đó. Do đó, có một số lồi chứa điểm nhưng không chứa , bất kỳ giá trị nào cần có.x 1 , , x d x d + 1 = 0 d G d - 1 G n d / ( d + 1 ) = d f ( x 1 , , x n )n=d+1x1,,xdxd+1=0dGd1Gnd/(d+1)=df(x1,,xn)

Bằng chứng. Chúng tôi sử dụng kết quả sau đây.

Định lý Helly. Đặt là tập con lồi của . Giả sử giao điểm của bất kỳ là không trống. Khi đó giao điểm của tất cả các là không trống.R d d + 1 K i K iK1...KmRdd+1 KiKi

Bấm vào đây để chứng minh Định lý Helly.

Bây giờ để chứng minh định lý của chúng tôi:

Hãy là một giới hạn trên cho số điểm không ở . Hãy xem xét tất cả các chứa ít nhất điểm với ranh giới của chúng chứa một tập hợp các điểm có thứ hạng tối đa (đây là số lượng hữu hạn vì mỗi được xác định bởi điểm trên ranh giới của nó).G K 1 . . . K mR d n - k K i d + 1k<n/(d+1)GK1...KmRdnkKid+1

Phần bù của mỗi chứa tối đa điểm. Bằng một liên kết bị ràng buộc, giao điểm bất kỳ s chứa ít nhất > 0 điểm. Theo định lý của Helly (vì các nửa không gian lồi), có một điểm trong giao điểm của tất cả các . Chúng ta đặt là hàm tính điểm tùy ý trong giao điểm của s. k d + 1 K i n - k ( d + 1 ) K i s f K iKikd+1 Kink(d+1)KisfKi

Tất cả những gì còn lại là để chứng minh rằng giao điểm của s được chứa trong . GKiG

Không mất tính tổng quát, là thân lồi của một tập hợp con các điểm có thứ hạng đầy đủ. Đó là, chúng ta có thể thay thế bằng vỏ lồi của các điểm mà nó chứa. Nếu điều này không có thứ hạng đầy đủ, chúng ta có thể chỉ cần áp dụng định lý của chúng ta ở chiều thấp hơn.GGG

Mỗi mặt của xác định một nửa khoảng trống, trong đó là giao điểm của các nửa không gian này. Mỗi nửa không gian này chứa và do đó chứa ít nhất điểm. Ranh giới của một trong hai không gian này chứa một mặt của và do đó chứa một tập hợp các điểm có thứ hạng tối đa. Do đó, mỗi này là một . Do đó, giao điểm của tất cả các được chứa trong , theo yêu cầu.G G n - k G K i K i GGGGnkGKiKiG

Để tính , hãy thiết lập một chương trình tuyến tính trong đó các ràng buộc tuyến tính tương ứng với s và một giải pháp khả thi tương ứng với một điểm trong giao điểm của tất cả các . QEDK i K ifKiKi

Thật không may, kết quả này không thực tế lắm trong cài đặt chiều cao. Một câu hỏi hay là liệu chúng ta có thể tính toán hiệu quả hơn:f

Vấn đề mở. Chứng minh định lý trên với kết luận bổ sung rằng có thể được tính theo đa thức thời gian theo và . n dfnd

Ngoài ra: Chúng tôi cũng có thể thay đổi vấn đề để có được giải pháp hiệu quả: Nếu có thuộc tính hơn một nửa trong số chúng nằm trong một quả bóng , thì chúng tôi có thể tìm thấy một điểm nằm trong trong đa thức thời gian trong và . Cụ thể, chúng ta có thể đặt cho một tùy ý sao cho đúng hơn một nửa số điểm nằm trong . B ( y , ε ) z B ( y , 3 ε ) n d z = x i i B ( z , 2 ε )x1,,xnB(y,ε)zB(y,3ε)ndz=xiiB(z,2ε)


Tôi nghĩ rằng về cơ bản bạn đã phát minh lại độ sâu Tukey khi David Eppstein phác thảo bên dưới :)
Suresh Venkat

7

Có một khái niệm về trung vị của một tập hợp các điểm theo các tiêu chuẩn cao và quy tắc chung được biết đến dưới nhiều tên khác nhau. Nó chỉ là điểm tối thiểu hóa tổng khoảng cách đến tất cả các điểm trong tập hợp. Nó được biết là có một thuộc tính khuếch đại độ tin cậy tương tự như trung bình thông thường với một sự gia tăng nhân nhỏ trong khoảng cách. Bạn có thể tìm thấy các chi tiết trong Định lý 3.1 của bài viết này: http://arxiv.org/pdf/1308.1334.pdf

Một điều tốt đẹp mà bài báo này cho thấy là yếu tố tăng khoảng cách có thể được thực hiện bất kỳ hằng số> 1 nếu bạn có thể khuếch đại từ độ tin cậy cao (nhưng không đổi <1) tùy ý.

Chỉnh sửa: có một bài báo gần đây về chủ đề của Hsu và Sabato http://arxiv.org/pdf/1307.1827v6.pdf Nó chủ yếu phân tích và áp dụng quy trình trong đó điểm trong tập hợp có khoảng cách trung bình nhỏ nhất với phần còn lại của các điểm được sử dụng. Quy trình này có thể được sử dụng với bất kỳ số liệu nào nhưng chỉ đưa ra hệ số xấp xỉ là 3.


Cảm ơn, điều này có vẻ tốt đẹp! Tôi chỉ lướt qua nó cho đến nay, nhưng (trừ khi tôi nhầm hoặc bỏ qua quá nhanh), nó liên quan đến trường hợp cụ thể của là một quả bóng ; đúng không? pSp
Clement C.

1
Không hẳn vậy. Kết quả được nêu cho tất cả các không gian Banach. Đối với bất kỳ cơ thể nào là trung tâm gốc và đối xứng xung quanh trung tâm của nó, có một quy tắc tương ứng trong đó cơ thể này là bóng đơn vị. Vì mục đích của câu hỏi của bạn, chúng tôi có thể giả định mà không mất tính tổng quát rằng cơ thể lồi là trung tâm gốc, chúng tôi nhận được kết quả cho mọi cơ thể lồi đối xứng tập trung. Có lẽ với một số nỗ lực nhẹ, kết quả có thể được mở rộng cho các cơ thể lồi nói chung.
Vitaly

1
Mặc dù vậy, bạn cần biết định mức để tính toán bộ giảm thiểu cho định mức đó - nếu bạn chỉ biết rằng có một định mức chứ không phải nó là gì, bạn đã hết may mắn.
David Eppstein

1
Bạn nói đúng, David. Bạn cần biết định mức. (Điều này có nghĩa là biết cơ thể lồi lên đến trung tâm và nhân rộng).
Vitaly

X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)( 0 , 0,0001 )(1,0). Nhưng nếu chúng ta lấy nhiều mẫu, thì trung vị tổng quát sẽ là một trong những điểm được lấy mẫu nằm ở . Tổng quát hóa điều này dễ dàng đến các kích thước cao hơn bằng cách sử dụng một siêu phẳng và một điểm hơi lệch. (0,0.0001)
usul
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.