Có một định nghĩa được chấp nhận cho trung vị của một mẫu trên mặt phẳng, hoặc không gian có thứ tự cao hơn không?


33

Nếu vậy thì sao? Nếu không, tai sao không?

Đối với một mẫu trên đường thẳng, trung vị giảm thiểu tổng độ lệch tuyệt đối. Có vẻ tự nhiên khi mở rộng định nghĩa sang R2, v.v., nhưng tôi chưa bao giờ thấy nó. Nhưng sau đó, tôi đã rời khỏi cánh đồng trong một thời gian dài.


Câu trả lời:


19

Tôi không chắc chắn có một định nghĩa được chấp nhận cho một trung vị đa biến. Điểm tôi quen thuộc là điểm trung vị của Oja, điểm tối thiểu hóa tổng khối lượng đơn giản được hình thành trên tập hợp các điểm. (Xem liên kết để có định nghĩa kỹ thuật.)

Cập nhật: Trang web được tham chiếu cho định nghĩa Oja ở trên cũng có một bài viết hay bao gồm một số định nghĩa về trung vị đa biến:


1
Tham khảo tốt đẹp: cảm ơn. Nó bao quát toàn diện mọi thứ được đề cập ở đây.
whuber

Trang web tương tự cũng chứa một tổng quan về nive
Aditya

15

Rd

  • Pn(A)AARdλ

    Un(t)=inf(λ(A):Pn(A)tAA)

    Giả sử bạn có thể tìm thấy một cung cấp cho bạn mức tối thiểu. Sau đó, tập hợp (hoặc một phần tử của tập hợp) cung cấp cho bạn trung vị khi được làm đủ nhỏ. Định nghĩa về trung vị được phục hồi khi sử dụng và . Câu trả lời của Ars rơi vào khung đó Tôi đoán ... vị trí một nửa không gian của tukey có thể thu được bằng cách sử dụng và (với , ).AtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xA(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • Định nghĩa biến thiên và ước lượng M Ý tưởng ở đây là -quantilecủa một biến ngẫu nhiêntrongcó thể được định nghĩa thông qua phương trình biến thiên.αQαYR

    • Định nghĩa phổ biến nhất là sử dụng hàm hồi quy lượng tử (còn được gọi là mất pinball, đoán tại sao?) . Trường hợp chovà bạn có thể khái quát hóa điều đó đến kích thước cao hơn bằng cách sử dụng khoảng cách như được thực hiện trong Câu trả lời @Srikant . Đây là trung bình lý thuyết nhưng cung cấp cho bạn trung vị thực nghiệm nếu bạn thay thế kỳ vọng bằng kỳ vọng thực nghiệm (trung bình).ραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1

    • Nhưng Kolshinskii đề xuất sử dụng biến đổi Legendre-Fenchel: vì trong đó cho . Ông đưa ra rất nhiều lý do sâu sắc cho điều đó (xem bài báo;)). Tổng quát hóa điều này đến các kích thước cao hơn yêu cầu làm việc với một vectơ và thay thế bằng nhưng bạn có thể lấy .Qα=Argsups(sαf(s))f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • Thứ tự từng phần Bạn có thể khái quát định nghĩa của các lượng tử trongngay khi bạn có thể tạo một thứ tự từng phần (với các lớp tương đương).Rd

Rõ ràng có những cầu nối giữa các công thức khác nhau. Chúng không phải là tất cả rõ ràng ...


Câu trả lời hay đấy, Robin!
ars

12

Có nhiều cách khác nhau để khái quát khái niệm trung vị đến các chiều cao hơn. Một điều chưa được đề cập, nhưng đã được đề xuất từ ​​lâu, là xây dựng một thân tàu lồi, bóc nó ra và lặp đi lặp lại miễn là bạn có thể: những gì còn lại trong thân tàu cuối cùng là một tập hợp các điểm mà tất cả các ứng cử viên phải là " trung vị. "

"Đập đầu" là một nỗ lực gần đây khác (c. 1980) để xây dựng một trung tâm mạnh mẽ cho đám mây điểm 2D. (Liên kết là tài liệu và phần mềm có sẵn tại Viện Ung thư Quốc gia Hoa Kỳ.)

Lý do chính tại sao có nhiều khái quát hóa riêng biệt và không có một giải pháp rõ ràng nào là R1 có thể được đặt hàng nhưng R2, R3, ... không thể.


Bất kỳ biện pháp nào trùng khớp với trung vị thông thường khi bị giới hạn ở R1 là tổng quát hóa ứng cử viên. Phải có rất nhiều trong số họ.
phv3773

phv:> người ta có thể yêu cầu 'khái quát' để bảo tồn (ở các chiều cao hơn) một số tính chất thú vị của trung vị. Điều này giới hạn nghiêm ngặt số lượng ứng cử viên (xem phần bình luận sau câu trả lời của Srikant bên dưới)
user603

@Whuber:> sau đó khái niệm đặt hàng có thể được khái quát thành R ^ n cho các bản phân phối không chính thống (xem câu trả lời của tôi dưới đây).
user603

@kwak: bạn có thể giải thích một chút không? Định nghĩa toán học thông thường về thứ tự của một không gian là độc lập với bất kỳ loại phân phối xác suất nào, do đó bạn phải hoàn toàn có một số giả định bổ sung trong đầu.
whuber

1
@Whuber:> Bạn nêu rõ: "Có thể đặt hàng R1 nhưng R2, R3, ... không thể". R2, .., R3 có thể được đặt hàng theo nhiều cách bằng cách ánh xạ từ Rn đến R. Một cách như vậy là độ sâu tukey. Nó có nhiều tính chất quan trọng (mạnh mẽ đối với một số mở rộng, không tham số, bất biến, ...) nhưng chúng chỉ giữ cho trường hợp phân phối không chính thống. Hãy cho tôi biết nếu bạn muốn biết thêm chi tiết.
user603


6

Trung bình nửa không gian Tukey có thể được mở rộng đến> 2 chiều bằng DEEPLOC, một thuật toán do Struyf và Rousseeuw; xem tại đây để biết chi tiết.

Thuật toán được sử dụng để tính gần đúng điểm có độ sâu lớn nhất một cách hiệu quả; Các phương pháp ngây thơ cố gắng xác định chính xác điều này thường chạy afoul (phiên bản tính toán) "lời nguyền của chiều", trong đó thời gian chạy cần thiết để tính toán thống kê tăng theo cấp số nhân với số lượng không gian.



0

Tôi không biết có tồn tại định nghĩa nào như vậy không nhưng tôi sẽ thử và mở rộng định nghĩa chuẩn của trung vị lên . Tôi sẽ sử dụng ký hiệu sau:R2

X , : các biến ngẫu nhiên liên quan đến hai chiều.Y

mx , : các trung vị tương ứng.my

f(x,y) : pdf chung cho các biến ngẫu nhiên của chúng tôi

Để mở rộng định nghĩa về trung vị đến , chúng tôi chọn và để giảm thiểu các điều sau:R2mxmy

E(|(x,y)(mx,my)|

Vấn đề bây giờ là chúng ta cần một định nghĩa cho những gì chúng ta muốn nói:

|(x,y)(mx,my)|

Trên đây là một số liệu khoảng cách và một số định nghĩa ứng cử viên có thể có.

Số liệu Eucliedan

|(x,y)(mx,my)|=(xmx)2+(ymy)2

Việc tính toán trung vị theo số liệu euclide sẽ yêu cầu tính toán kỳ vọng ở trên đối với mật độ khớp .f(x,y)

Số liệu taxi

|(x,y)(mx,my)|=|xmx|+|ymy|

Việc tính toán trung vị trong trường hợp chỉ số taxicab liên quan đến việc tính toán trung vị của và một cách riêng biệt vì số liệu này có thể tách rời theo và .XYxy


Srikant:> Không. Định nghĩa phải có hai đặc điểm quan trọng của trung vị đơn biến. a) Bất biến đối với việc chuyển đổi dữ liệu đơn điệu, b) mạnh mẽ đến sự ô nhiễm bởi các ngoại lệ. Không có phạm vi nào bạn đề xuất có những điều này. Độ sâu Tukey có những phẩm chất này.
user603

@kwak Những gì bạn nói có ý nghĩa.

@Srikant:> Kiểm tra giấy R & S được trích dẫn bởi Gary Campbell ở trên;). Tốt nhất,
user603

@kwak Khi suy nghĩ thêm, số liệu taxi có các tính năng mà bạn đã đề cập vì về cơ bản nó giảm xuống mức trung bình đơn biến. Không?

2
@Srikant:> không có câu trả lời không chính xác cho câu hỏi của phv vì cũng không có 'câu trả lời hay'; lĩnh vực nghiên cứu này vẫn đang được phát triển. Tôi chỉ đơn giản muốn chỉ ra lý do tại sao nó vẫn là một vấn đề mở.
user603
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.