Ước tính kích thước của tập dữ liệu


9

Một đồng nghiệp trong số liệu thống kê ứng dụng đã gửi cho tôi điều này:

"Tôi đã tự hỏi nếu bạn biết bất kỳ cách nào để tìm ra kích thước thực của miền của hàm. Ví dụ: hình tròn là hàm một chiều trong không gian hai chiều. Nếu tôi không biết vẽ, thì có Thống kê mà tôi có thể tính toán cho tôi biết đó là vật thể một chiều trong không gian hai chiều? Tôi phải làm điều này trong các tình huống chiều cao để không thể vẽ tranh. Bất kỳ trợ giúp nào cũng sẽ được đánh giá cao. "

Khái niệm kích thước ở đây rõ ràng là không xác định. Ý tôi là, tôi có thể chạy một đường cong thông qua bất kỳ tập hợp điểm hữu hạn nào trong không gian chiều cao và nói rằng dữ liệu của tôi là một chiều. Nhưng, tùy thuộc vào cấu hình, có thể có một cách dễ dàng hơn hoặc hiệu quả hơn để mô tả dữ liệu dưới dạng tập chiều cao hơn.

Những vấn đề như vậy phải được xem xét trong tài liệu thống kê, nhưng tôi không quen với nó. Bất kỳ con trỏ hoặc đề nghị? Cảm ơn!

Câu trả lời:


7

Xem

Levina, E. và Bickel, P. (2004) Ước tính khả năng tối đa của kích thước nội tại. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 17

http://books.nips.cc/ con / files / nips17 / NIPS2004_0094.pdf

RmRpm<pt


1
+1 Tìm thấy tốt đẹp! Bài viết cũng có một cuộc thảo luận ngắn gọn về phương pháp PCA (cũng như một số phương pháp khác).
whuber

Cảm ơn rất nhiều, tôi nghĩ rằng đây là gần nhất với những gì đồng nghiệp của tôi đang tìm kiếm.

7

Phân tích thành phần chính của dữ liệu địa phương là một điểm tốt để khởi hành. Tuy nhiên, chúng ta phải cẩn thận để phân biệt cục bộ (nội tại) với kích thước toàn cầu (bên ngoài). Trong ví dụ về các điểm trên một vòng tròn, kích thước cục bộ là 1, nhưng tổng thể các điểm trong vòng tròn nằm trong một không gian 2D. Để áp dụng PCA cho việc này, mẹo là bản địa hóa : chọn một điểm dữ liệu và chỉ trích xuất những điểm gần với nó. Áp dụng PCA cho tập hợp con này. Số lượng giá trị riêng lớn sẽ gợi ý kích thước nội tại. Lặp lại điều này tại các điểm dữ liệu khác sẽ cho biết liệu dữ liệu có biểu hiện kích thước nội tại không đổi trong suốt hay không. Nếu vậy, mỗi kết quả PCA cung cấp một tập bản đồ một phần của đa tạp.


Cảm ơn rất nhiều cho câu trả lời của bạn. Tôi sẽ chuyển nó cho đồng nghiệp của tôi.

3

Tôi không chắc chắn về phần 'miền của hàm', nhưng dường như Kích thước của Hausdorff trả lời câu hỏi này. Nó có đặc tính kỳ lạ là đồng ý với các ví dụ đơn giản ( ví dụ: vòng tròn có Kích thước 1 của Hausdorff), nhưng cho kết quả không tách rời đối với một số bộ ('fractals').


1
Tôi thậm chí sẽ nói kích thước đếm hộp cho một thống kê thực tế hơn.
Raskolnikov

2

Tôi đặc biệt khuyên bạn nên đọc khảo sát này: Camastra, F. (2003). Phương pháp ước lượng kích thước dữ liệu: một cuộc khảo sát. Nhận dạng mẫu , 36 (12), 2945-2954 .

Để thực hiện ước tính này, tôi đã tìm thấy hộp công cụ rất tốt trong Matlab Hộp công cụ Matlab để giảm kích thước . Ngoài các kỹ thuật để giảm kích thước, hộp công cụ còn chứa các triển khai 6 kỹ thuật để ước tính kích thước nội tại

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.