Tôi có một tập hợp các tệp bao gồm các điểm được chọn ngẫu nhiên từ một tập dữ liệu, mỗi tệp thuộc về một lớp cụ thể. Mỗi hàng trong các tệp này chứa tọa độ trong không gian n của điểm. Tôi muốn so sánh các bản phân phối trong không gian n của mỗi tệp này - và được truyền cảm hứng từ thử nghiệm KS để so sánh biểu đồ. Từ những gì tôi đã đọc phương pháp này không mở rộng tốt cho dữ liệu đa biến. Trước đây tôi đã sử dụng PCA - nhưng tất cả phương sai của tôi đã sụp đổ vào một chiều ồn ào duy nhất và các phương pháp phân cụm là vô ích.
Câu hỏi của tôi - có một lý do nào đó tôi không nên sử dụng trung bình các giá trị KS trên biểu đồ cho mỗi kích thước n làm số liệu cho mức độ phù hợp? Có một phương pháp tốt hơn để so sánh các phân phối này?