Đây có thể là một câu hỏi quá rộng với những ý kiến nặng nề, nhưng tôi thực sự thấy khó tìm kiếm thông tin về việc chạy các thuật toán khác nhau bằng cách sử dụng các dự án Khai thác dữ liệu dịch vụ phân tích SQL Server so với sử dụng R. Điều này chủ yếu là vì tất cả những người làm việc khoa học dữ liệu tôi làm việc cùng không có ý tưởng nào về SSAS vì dường như không ai sử dụng nó. :)
Cơ sở dữ liệu Guy
Trước khi tôi bắt đầu, hãy để tôi làm rõ. Tôi là một anh chàng cơ sở dữ liệu và không phải là nhà khoa học dữ liệu. Tôi làm việc với những người là nhà khoa học dữ liệu chủ yếu sử dụng R. Tôi hỗ trợ những người này tạo ra các tập dữ liệu lớn nơi họ có thể phân tích và bẻ khóa dữ liệu.
Mục tiêu của tôi ở đây là tận dụng một công cụ đi kèm với SQL Server mà không ai thực sự sử dụng vì dường như không ai biết được cách thức hoạt động của nó so với các phương thức và công cụ khác như R, SAS, SSPS, v.v. trại.
SSAS
Tôi chưa bao giờ thực sự sử dụng Dịch vụ phân tích máy chủ SQL (SSAS) ngoài việc tạo các khối OLAP. Những người biết SSAS, bạn cũng có thể thực hiện các tác vụ khai thác dữ liệu trên các hình khối hoặc trực tiếp trên dữ liệu trong SQL Server.
SSAS Data Mining đi kèm với một loạt các loại thuật toán:
- Các thuật toán phân loại dự đoán một hoặc nhiều biến rời rạc, dựa trên các thuộc tính khác trong tập dữ liệu.
- Các thuật toán hồi quy dự đoán một hoặc nhiều biến liên tục, chẳng hạn như lãi hoặc lỗ, dựa trên các thuộc tính khác trong bộ dữ liệu.
- Các thuật toán phân đoạn chia dữ liệu thành các nhóm hoặc cụm, của các mục có thuộc tính tương tự.
- Các thuật toán kết hợp tìm mối tương quan giữa các thuộc tính khác nhau trong một tập dữ liệu. Ứng dụng phổ biến nhất của loại thuật toán này là để tạo quy tắc kết hợp, có thể được sử dụng trong phân tích giỏ thị trường.
- Các thuật toán phân tích trình tự tóm tắt các chuỗi hoặc tập thường xuyên trong dữ liệu, chẳng hạn như luồng đường dẫn Web.
Dự đoán các cột rời rạc
Với các tùy chọn thuật toán khác nhau này, tôi có thể bắt đầu đưa ra dự đoán chung từ dữ liệu, chẳng hạn như tìm ra ai sẽ mua một chiếc xe đạp dựa trên cột dự đoán, Người mua xe đạp, dựa vào cột đầu vào, Tuổi. Biểu đồ cho thấy tuổi của một người giúp phân biệt xem người đó sẽ mua xe đạp.
Dự đoán các cột liên tục
Khi thuật toán Cây quyết định của Microsoft xây dựng cây dựa trên cột có thể dự đoán liên tục, mỗi nút chứa công thức hồi quy. Một sự phân tách xảy ra tại một điểm không tuyến tính trong công thức hồi quy. Ví dụ, hãy xem xét sơ đồ sau.
So sánh
Với một số điều đã nói, có vẻ như tôi có thể chạy một loạt các thuật toán trên dữ liệu và cũng có sẵn các chức năng khác nhau trong SSAS để chạy với dữ liệu. Dường như tôi cũng có thể phát triển các thuật toán của riêng mình trong Visual Studio và triển khai chúng lên SSAS (nếu tôi không nhầm).
Vậy, tôi còn thiếu gì ở đây liên quan đến ngôn ngữ và công cụ từ R? Có phải chỉ là họ có sự linh hoạt hơn để triển khai và chỉnh sửa các thuật toán phức tạp so với SSAS, v.v.?