Thuật toán học máy nào có thể được sử dụng để xác định các mẫu trong bộ dữ liệu về hiệu năng bộ đệm của CPU?


9

Tôi cần một thuật toán học máy để xác định các mẫu trong bộ dữ liệu (được lưu trong tệp CSV) có chứa chi tiết về hiệu suất bộ đệm của CPU. Cụ thể hơn, tập dữ liệu chứa các cột như Readhits, Readmisshoặc Writehits.

Các mẫu mà thuật toán xác định sẽ hữu ích theo các cách sau.

  1. giúp người dùng tăng hiệu suất của khối lượng công việc vào lần tới,

  2. giúp xác định bất kỳ vấn đề nào dựa trên các tính năng hoặc

  3. giúp người dùng dự đoán các giá trị dữ liệu trong tương lai hoặc các sự kiện trong tương lai có thể xảy ra dựa trên các mẫu.

Tôi có thể sử dụng thuật toán ML nào?

Câu trả lời:


0

Máy Boltzmann bị hạn chế (RBM) có thể xác định các mẫu trong tệp CSV mà không cần người dùng chỉ định bất kỳ điều kiện nào. Chúng được trang bị tốt để tạo ra "các biểu diễn phân tán và phân loại" của một "tập hợp các tính năng phức tạp bao gồm dữ liệu chiều cao thực sự rất quan trọng để đạt được hiệu suất cao trong các nhiệm vụ học tập của máy." 1

Vì định dạng CSV được thiết kế đặc biệt để thể hiện các thể hiện trong các hàng và một tập hợp các thuộc tính tĩnh trong các cột, nên việc thiết lập đào tạo rất đơn giản. Nếu mục tiêu là xác định các mẫu thời gian, một chiến lược cửa sổ có thể được yêu cầu.

K-RBM là sự hợp nhất của các phương pháp k-mean với RBM. Sự lựa chọn của phương pháp có liên quan nhiều đến các loại mô hình được tìm kiếm. Mẫu thuật ngữ có thể áp dụng cho các xu hướng đơn giản về số theo thời gian, các mẫu phổ biến được tìm thấy trong các cột văn bản hoặc các mẫu phức tạp được suy ra từ nhiều cột.

Người giới thiệu

[1] Sự xuất hiện của các đại diện thành phần trong các máy Boltzmann bị hạn chế , J. Tubiana, R. Monasson, 2017)

[2] Học nhiều không gian con phi tuyến tính bằng cách sử dụng K-RBM , Siddhartha Chandra, Shailesh Kumar & CV Jawahar


0

Cá nhân tôi sẽ đi với cụm k-nghĩa. Nó được thiết kế cho các vấn đề như thế này.


0

Tôi cần một thuật toán học máy để xác định bất kỳ mẫu nào trong tệp CSV

Bạn muốn học không giám sát . Định nghĩa Wikipedia giống nhau là:

Học máy không giám sát là nhiệm vụ học máy để suy ra một chức năng để mô tả cấu trúc ẩn từ dữ liệu "không nhãn" (phân loại hoặc phân loại không được bao gồm trong các quan sát).

Tôi sẽ khuyên bạn nên xem qua danh sách các thuật toán học tập không giám sát ở đây và sử dụng thuật toán phù hợp với nhu cầu của bạn.

Nếu bạn đang bắt đầu, thì tôi khuyên bạn nên bắt đầu với việc học thuật toán phân cụm K-nghĩa .


0

Trước tiên, bạn phải phân loại từng đoạn của tệp CSV và gắn nhãn cho nó dựa trên tình huống hiện tại, như A) tình huống tối ưu B) quan trọng.

Sau đó, bạn phân cụm dữ liệu của mình với một thuật toán học tập không giám sát, như SOM hoặc k-mean, và sau đó bạn chỉ cần phân loại các lớp bạn sẽ nhận được.


0

Về cơ bản, bạn đang tìm kiếm là học tập không giám sát (UL). Có rất nhiều kỹ thuật UL xung quanh, nhưng tôi không chắc chắn bạn sẽ tìm thấy một kỹ thuật thực hiện chính xác những gì bạn muốn mà không cần người dùng nhập vào. Tuy nhiên, nếu bạn đọc lướt các tài liệu về các phương pháp này, bạn cũng có thể tìm thấy một cái gì đó hữu ích.

Một tùy chọn là DBSCAN , một thuật toán phân cụm rất phổ biến không yêu cầu người dùng nhập số cụm mục tiêu ban đầu (điều mà hầu hết các thuật toán phân cụm đều yêu cầu). Nhưng ngay cả khi đó, bạn vẫn phải đưa ra các giá trị thuật toán cho epsilon(khoảng cách được sử dụng để tính toán các cụm) và minPts(số điểm tối thiểu cần thiết để tạo thành một khu vực "dày đặc").

Bạn cũng có thể nhìn vào các bản đồ tự tổ chức , một cách tiếp cận học tập không giám sát cho các mạng lưới thần kinh.

Một số thuật ngữ tìm kiếm khác có thể đưa bạn đi theo hướng hữu ích bao gồm "khai thác dữ liệu" và "khám phá kiến ​​thức trong cơ sở dữ liệu" (KDD).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.