Tôi chưa quen với khoa học dữ liệu và gặp vấn đề khi tìm cụm trong bộ dữ liệu với 200.000 hàng và 50 cột trong R.
Vì dữ liệu có cả biến số và biến danh nghĩa, nên các phương thức như K-mean sử dụng thước đo khoảng cách Euclide dường như không phải là một lựa chọn thích hợp. Vì vậy, tôi chuyển sang PAM, agnes và hclust chấp nhận ma trận khoảng cách làm đầu vào.
Phương pháp daisy có thể hoạt động trên dữ liệu kiểu hỗn hợp nhưng ma trận khoảng cách quá lớn: 200.000 lần 200.000 lớn hơn nhiều so với 2 ^ 31-1 (giới hạn độ dài vectơ trước R 3.0.0.)
R 3.0.0 mới được phát hành ngày hôm qua hỗ trợ các vectơ dài với chiều dài dài hơn 2 ^ 31-1. Nhưng một ma trận kép 200.000 đến 200.000 yêu cầu RAM liên tục lớn hơn 16Gb, điều này không thể có trên máy của tôi.
Tôi đã đọc về tính toán song song và gói bigmemory và không chắc chúng có giúp được không: nếu tôi đang sử dụng daisy, nó sẽ tạo ra một ma trận lớn không thể phù hợp với bộ nhớ.
Tôi cũng đã đọc về bài đăng về lấy mẫu: Lấy mẫu có liên quan trong thời điểm 'dữ liệu lớn' không?
Vì vậy, trong trường hợp của tôi, có liên quan đến việc sử dụng lấy mẫu trên tập dữ liệu, cụm trên mẫu và sau đó suy ra cấu trúc của toàn bộ tập dữ liệu không?
Bạn có thể vui lòng cho tôi một số gợi ý? Cảm ơn bạn!
Về máy của tôi:
Phiên bản R 3.0.0 (2013-04-03)
Nền tảng: x86_64-w64-mingw32 / x64 (64-bit)
HĐH: Windows 7 64 bit
RAM: 16,0GB