Xử lý bộ dữ liệu với số lượng tính năng thay đổi


14

Một số cách tiếp cận để phân loại dữ liệu với một số tính năng khác nhau là gì?

Ví dụ, hãy xem xét một vấn đề trong đó mỗi điểm dữ liệu là một vectơ của các điểm x và y và chúng ta không có cùng số điểm cho mỗi trường hợp. Chúng ta có thể coi mỗi cặp điểm x và y là một tính năng không? Hoặc chúng ta chỉ nên tóm tắt các điểm bằng cách nào đó để mỗi điểm dữ liệu có một số tính năng cố định?


7
Sự hiện diện hay vắng mặt của một điểm nhất định có giúp ích trong việc phân loại dữ liệu không?
jonsca

Câu trả lời:


5

Bạn có thể coi những điểm này là thiếu --- tức là. giả sử rằng vectơ có nhiều nhất 20 cặp (x, y) và điểm cụ thể có 5 cặp (x, y), trong trường hợp này coi phần còn lại của các cặp là thiếu, và sau đó áp dụng các quy trình standatd cho các tham số bị thiếu:

Các thủ tục tiêu chuẩn này có thể là:

  • Sử dụng một mô hình xử lý các tham số bị thiếu theo cách tự nhiên, ví dụ các mô hình cây quyết định sẽ có thể đối phó với điều đó.
  • Thay thế thiếu bằng giá trị trung bình cho cột thích hợp.
  • Sử dụng một số mô hình dễ dàng để 'dự đoán' các giá trị còn thiếu.

Nhưng như @jonsca trỏ --- nếu sự vắng mặt của điểm đã cho sẽ giúp phân loại dữ liệu, ví dụ bạn nên xây dựng một vài mô hình, mỗi mô hình đều có các số điểm cụ thể.


10

Từ cách tôi hiểu câu hỏi của bạn, các điểm trong dữ liệu có thể thay thế cho nhau và không đi kèm với bất kỳ thứ tự nào, tức là bạn có một bộ điểm cho mỗi ví dụ. Cài đặt này khác với cài đặt "Thiếu giá trị" mà jb. mô tả.

Tôi biết về hai phương pháp thường được sử dụng cho vấn đề này, thực sự dựa trên ý tưởng của bạn. Một đường cơ sở tốt có lẽ chỉ là trung bình tất cả các điểm trong một ví dụ, nhưng điều đó thường không hoạt động tốt.

  • Để tổng hợp nhiều điểm cho một tính năng, các cách biểu thị túi (hoặc túi tính năng) được sử dụng khá phổ biến, ví dụ như trong thị giác máy tính. Ý tưởng là phân cụm tất cả các điểm trong tập huấn luyện của bạn (ví dụ sử dụng phương tiện k) và sau đó mô tả từng điểm theo cụm của nó. Đối với mỗi ví dụ, sau đó bạn nhận được một biểu đồ về các cụm xảy ra thường xuyên như thế nào.

  • Để sử dụng tất cả các cặp điểm, bạn có thể sử dụng các hạt nhân đã đặt. Điều này có thể hoạt động tốt nhất với việc sử dụng các SVM nhưng có lẽ cũng sẽ hoạt động với bất kỳ thuật toán học tập nào có thể được nhân hoặc sử dụng chức năng tương thích giữa các đầu vào. Đặt hạt nhân về cơ bản là một cách để tính toán độ tương tự của hai bộ tính năng, như trong cài đặt của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.