Một cuộc khảo sát các công cụ phần mềm khai thác dữ liệu


15

Mặc dù tôi được đào tạo như một kỹ sư, tôi thấy rằng tôi đang trở nên quan tâm hơn đến việc khai thác dữ liệu. Ngay bây giờ tôi đang cố gắng điều tra lĩnh vực này hơn nữa. Cụ thể, tôi muốn hiểu các loại công cụ phần mềm khác nhau tồn tại và công cụ nào đáng chú ý trong mỗi danh mục và tại sao. . Tôi chỉ quan tâm đến nguồn mở và miễn phí.


1
Tôi khuyên đây là một wiki cộng đồng.
Tal Galili

Nghe có vẻ như một câu hỏi bài tập về nhà
Neil McGuigan

@Tal Chắc chắn, bây giờ đã chuyển đổi.

@el trưởng - Đó là một câu hỏi rất rộng và chung chung ... nhưng tôi sợ đó không phải là một câu hỏi bài tập về nhà.
John Berryman

Câu trả lời:


7

Đây có lẽ là danh sách toàn diện nhất mà bạn sẽ tìm thấy: mloss.org


Mặc dù vậy, nó tập trung vào Machine-Learning, có thể được xem là một lĩnh vực khai thác dữ liệu liên quan, giống như AI. Mặc dù thông thường nó được sử dụng đồng nghĩa, vì "dự đoán" là một trong những thách thức chính trong khai thác dữ liệu. Nhưng có nhiều hơn "học" để khai thác dữ liệu.
Anony-Mousse -Reinstate Monica

7

Có một cái nhìn

  • Weka (java, mạnh về phân loại)
  • Orange (kịch bản python, chủ yếu là phân loại)
  • GNU R (Ngôn ngữ R, được định hướng theo bảng vectơ, xem Machine LearningRattle UI)
  • ELKI (java, mạnh về phân cụm và phát hiện ngoại lệ, hỗ trợ cấu trúc chỉ mục để tăng tốc, danh sách thuật toán )
  • Quản tượng (Java, thuộc về Hadoop, nếu bạn có một cụm và tập dữ liệu khổng lồ)

Kho lưu trữ máy học UCI cho các bộ dữ liệu.


1
bạn có thể thêm Red-R vào danh sách (loại bản sao màu cam trong R): red-r.org
Amro

Tôi đã tải xuống R và tôi đang chơi với nó bây giờ.
John Berryman

@Amro Cảm ơn! Tuy nhiên, nó không khả dụng trên nền tảng Mac, trừ khi tôi nhầm?
chl

Tôi không phải là người dùng Mac, nhưng tôi nghĩ rằng bản dựng Linux có thể phù hợp với bạn (bạn cần cài đặt thủ công tất cả các phụ thuộc python): red-r.org/forum/topic.php?id=22#post-76
Amro

@Amro Tôi sẽ dùng thử; trong quá khứ tôi đã từng thử nghiệm RAnalyticFlow ( j.mp/bYF8xs ) nhưng không bị thuyết phục: Về cơ bản tôi là người dùng CLI :-)
chl


3

Có một cái nhìn KNIME .

Rất dễ học. Với rất nhiều phạm vi cho sự tiến bộ hơn nữa. Tích hợp độc đáo với Weka và R.




2

ELKI , một dự án đại học nguồn mở có thể so sánh với WEKA, nhưng mạnh hơn nhiều khi phân cụm và phát hiện ngoại lệ. WEKA thực sự không thực sự khai thác dữ liệu, mà là phần mềm học máy.


1

Red-R này có giao diện lập trình và giao diện trực quan đẹp. Nó sử dụng R để xử lý các phân tích dữ liệu khác nhau.



0

Khai thác dữ liệu SQL Server (SSDM) đã không được cập nhật trong một thời gian dài, nhưng nó vẫn khá cạnh tranh nếu bạn khai thác các cơ sở dữ liệu và khối quan hệ lớn. Tôi chậm chạp nhưng có hệ thống theo cách của tôi thông qua các thử nghiệm của nhiều công cụ khai thác nhất có thể và giao diện Windows của SQL Server là hiệu quả và ổn định nhất mà tôi tìm thấy cho đến nay (đặc biệt là khi nói đến cơ sở dữ liệu doanh nghiệp, một số trong số đó đáng ngạc nhiên giao diện cẩu thả) mặc dù tuổi của nó. Tôi thích giao diện Windows Presentation Foundation (WPF) hiện đại nhưng đây là thứ tốt nhất tiếp theo.

Tôi đã viết một loạt các hướng dẫn nghiệp dư chi tiết về nó có tiêu đề A Rickety Stairway to SQL Server Data Mining , trở lại khi tôi đang cố gắng để có được một số kỹ năng khai thác cơ bản. Mặc dù thiếu kinh nghiệm của tôi, chúng vẫn hữu ích trong việc giúp xác định trước một số "vấn đề".

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.