Tôi đang tự hỏi về các cách tính toán dữ liệu và độ tin cậy elip xung quanh một trung vị bivariate. Ví dụ: tôi có thể dễ dàng tính toán hình elip dữ liệu hoặc hình elip độ tin cậy cho giá trị trung bình hai biến của dữ liệu sau (ở đây chỉ hiển thị hình elip dữ liệu)
library("car")
set.seed(1)
df <- data.frame(x = rnorm(200, mean = 4, sd = 1.5),
y = rnorm(200, mean = 1.4, sd = 2.5))
plot(df)
with(df, dataEllipse(x, y, level = 0.68, add = TRUE))
Nhưng tôi đang vật lộn với cách tôi làm điều này cho một trung vị bivariate? Trong trường hợp đơn biến, tôi chỉ có thể khởi động lại mẫu để tạo khoảng thời gian cần thiết, nhưng tôi không chắc làm thế nào để dịch phần này sang trường hợp bivariate?
Như được chỉ ra bởi @Andy W, trung vị không được xác định duy nhất. Trong trường hợp này, chúng tôi đã sử dụng trung vị không gian , bằng cách tìm một điểm giảm thiểu định mức L1 về khoảng cách giữa các quan sát tại điểm đó. Một tối ưu hóa đã được sử dụng để tính toán trung vị không gian từ các điểm dữ liệu được quan sát.
Ngoài ra, các cặp dữ liệu x, y trong trường hợp sử dụng thực tế là hai hàm riêng của phân tích tọa độ chính của ma trận không giống nhau, do đó x và y phải trực giao, nếu điều đó cung cấp một con đường tấn công cụ thể.
Trong trường hợp sử dụng thực tế, chúng tôi muốn tính toán hình elip dữ liệu / độ tin cậy cho các nhóm điểm trong không gian Euclide. Ví dụ:
Phân tích này là một dạng tương tự đa biến của phép thử Levene về tính đồng nhất của phương sai giữa các nhóm. Chúng tôi sử dụng trung bình không gian hoặc trung tâm nhóm tiêu chuẩn làm thước đo của xu hướng trung tâm đa biến và muốn thêm tương đương với hình elip dữ liệu trong hình trên cho trường hợp trung bình không gian.