Khai thác dữ liệu quan hệ mà không có ILP


9

Tôi có một bộ dữ liệu khổng lồ từ cơ sở dữ liệu quan hệ mà tôi cần để tạo mô hình phân loại. Thông thường trong tình huống này, tôi sẽ sử dụng Lập trình logic cảm ứng (ILP), nhưng do hoàn cảnh đặc biệt nên tôi không thể làm điều đó.

Một cách khác để giải quyết vấn đề này sẽ chỉ là cố gắng tổng hợp các giá trị khi tôi có quan hệ nước ngoài. Tuy nhiên, tôi có hàng ngàn hàng quan trọng và riêng biệt cho một số thuộc tính danh nghĩa (ví dụ: Một bệnh nhân có liên quan đến một số đơn thuốc riêng biệt). Vì vậy, tôi không thể làm điều đó mà không tạo thuộc tính mới cho mỗi hàng riêng biệt của thuộc tính danh nghĩa đó và hơn nữa hầu hết các cột mới sẽ có giá trị NULL nếu tôi làm điều đó.

Có thuật toán không ILP nào cho phép tôi khai thác dữ liệu quan hệ của cơ sở dữ liệu mà không cần dùng đến các kỹ thuật như xoay vòng, điều này sẽ tạo ra hàng ngàn cột mới không?


2
Quy tắc khai thác thì sao? Nó không rõ ràng với tôi mục tiêu của bạn là gì.
adesantos

Trong khi một câu hỏi hay tôi nhận thấy rằng nó xuất hiện trên nhiều diễn đàn Stack Exchange ... stackoverflow.com/questions/24260299/ Lời ; Không phải tôi là người gắn bó với những thứ như vậy, nhưng tôi nghĩ rằng chúng ta không nên làm điều đó
Hack-R

Ngoài ra, sẽ rất hữu ích nếu bạn có thể cụ thể hơn một chút về những gì bạn đang phân loại, rào cản bạn gặp phải và trong một thế giới lý tưởng cung cấp cho chúng tôi một số dữ liệu mẫu để xem xét
Hack-R

Câu trả lời:


1

Đầu tiên, một số hãy cẩn thận

Tôi không chắc tại sao bạn không thể sử dụng mô hình lập trình (phụ) ưa thích *, Lập trình logic quy nạp (ILP) hoặc những gì bạn đang cố gắng phân loại. Cung cấp thêm chi tiết có thể sẽ dẫn đến một câu trả lời tốt hơn nhiều; đặc biệt là hơi bất thường khi tiếp cận lựa chọn các thuật toán phân loại trên cơ sở mô hình lập trình mà chúng liên quan. Nếu ví dụ trong thế giới thực của bạn là bí mật, thì chỉ cần tạo một ví dụ hư cấu nhưng tương tự.

Phân loại dữ liệu lớn mà không có ILP

Phải nói rằng, sau khi loại trừ ILP, chúng ta có 4 mô hình lập trình logic khác trong bộ cân nhắc của chúng ta:

  1. Bắt cóc
  2. Bộ trả lời
  3. Hạn chế
  4. Chức năng

ngoài hàng tá mô hình và mô hình phụ bên ngoài lập trình logic.

Trong Lập trình logic chức năng ví dụ, có tồn tại phần mở rộng của ILP gọi Inductive lập trình chức năng logic , mà là dựa trên đảo hẹp (tức là đảo ngược của cơ chế thu hẹp). Cách tiếp cận này khắc phục một số hạn chế của ILP và ( theo một số học giả, ít nhất ) là phù hợp để áp dụng về mặt đại diện và có lợi ích cho phép các vấn đề được thể hiện theo cách tự nhiên hơn.

Không biết thêm về các chi tiết cụ thể của cơ sở dữ liệu của bạn và các rào cản bạn gặp phải khi sử dụng ILP, tôi không thể biết liệu điều này có giải quyết được vấn đề của bạn hay bị các vấn đề tương tự. Như vậy, tôi cũng sẽ đưa ra một cách tiếp cận hoàn toàn khác.

ILP tương phản với cách tiếp cận "cổ điển" hoặc "đề xuất" trong khai thác dữ liệu . Những cách tiếp cận này bao gồm thịt và xương của Machine Learning như cây quyết định, mạng lưới thần kinh, hồi quy, đóng bao và các phương pháp thống kê khác. Thay vì từ bỏ các cách tiếp cận này do kích thước dữ liệu của bạn, bạn có thể tham gia hàng ngũ nhiều Nhà khoa học dữ liệu, kỹ sư dữ liệu lớn và nhà thống kê sử dụng Máy tính hiệu suất cao (HPC) để sử dụng các phương pháp này với các bộ dữ liệu lớn (có cũng lấy mẫu và các kỹ thuật thống kê khác mà bạn có thể chọn sử dụng để giảm tài nguyên tính toán và thời gian cần thiết để phân tích Dữ liệu lớn trong cơ sở dữ liệu quan hệ của bạn).

HPC bao gồm những thứ như sử dụng nhiều lõi CPU, mở rộng phân tích của bạn với việc sử dụng linh hoạt các máy chủ có bộ nhớ cao và số lượng lớn CPU nhanh, sử dụng các thiết bị kho dữ liệu hiệu suất cao, sử dụng các cụm hoặc các hình thức tính toán song song khác, v.v. Tôi không chắc bộ ngôn ngữ hoặc bộ thống kê nào bạn đang phân tích dữ liệu của mình, nhưng như một ví dụ, Khung nhìn tác vụ CRAN này liệt kê nhiều tài nguyên HPC cho ngôn ngữ R cho phép bạn mở rộng thuật toán đề xuất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.