Làm thế nào để xử lý các tính năng không phải lúc nào cũng có sẵn?

8

Tôi có một tính năng trong vectơ đặc trưng của mình đôi khi không phải lúc nào cũng có sẵn (đối với một số mẫu), thật vô nghĩa khi sử dụng nó. Tôi cung cấp một MLPClassifier sklearn với vector tính năng này. Mạng nơ-ron có tự học không khi tính năng này có ý nghĩa để sử dụng cho quyết định của nó hay tôi phải thêm một lá cờ trong vectơ đặc trưng, ví dụ như 1 .

neural-network feature-selection mlp

— jochen6677
nguồn

1

Nếu tính năng này không có ý nghĩa trong một tập hợp con của các mẫu, thì điều này không có nghĩa đây là (hoặc nên là) một tập dữ liệu riêng biệt, có cần mô hình thứ hai không? Đó là một cách tiếp cận tôi nghĩ về.

Thứ hai sẽ là làm việc với chính dữ liệu (tính năng). Có lẽ tốt nhất là sử dụng giá trị trung tính.

Trong trường hợp giá trị số:
- thử sử dụng giá trị trung bình hoặc trung bình, được tính trên tất cả các mục
- hãy thử sử dụng một giá trị cực trị, ví dụ -1 nếu tính năng của bạn chỉ có các giá trị dương. Điều này sẽ chỉ ra rằng tính năng này bị thiếu và mạng sẽ có thể xử lý nó.
Trong trường hợp giá trị văn bản, ví dụ: nhúng từ, thay thế giá trị bằng một trình giữ chỗ như thế N/Akhông có nhúng

— stan0
nguồn

0

Nếu các tính năng bạn đào tạo không giống với các tính năng bạn muốn dự đoán với bạn, có một vài tùy chọn:

Giữ lại mô hình sao cho tính năng được đề cập không được sử dụng, vì nó sẽ không nằm trong tập dữ liệu dự đoán của bạn.
Áp đặt một số giá trị cho tính năng đó nếu nó bị thiếu trong tập dữ liệu của bạn. Trong ví dụ của bạn, bạn có thể đưa ra một giả định rằng nó là "0" nếu nó bị thiếu, nhưng bạn sẽ phải quyết định điều này dựa trên tập dữ liệu và trực giác của bạn.

Nếu độ dài vectơ đặc trưng của tập huấn luyện và tập dự đoán của bạn khác nhau, thì bạn sẽ gặp phải lỗi trên tập dự đoán.

— Wes
nguồn

0

Tùy thuộc vào vấn đề, bạn có thể giải quyết vấn đề bằng cách xóa các giá trị này và đưa ra ước tính cho chúng nếu có thể. Một chiến lược khác là chia tỷ lệ các tính năng theo tỷ lệ -1,1 và áp đặt các giá trị này với ví dụ -3. Sau đó sử dụng một số phương pháp mạnh mẽ mà hoàn toàn bỏ qua các "ngoại lệ". Hi vọng điêu nay co ich.

— Nemanja Boskovic
nguồn

0

Bạn có thể sử dụng mã hóa biến giả nếu các trường hợp. Bạn có thể nâng cao ý tưởng này cho vấn đề của bạn là tốt. Tôi sẽ minh họa thủ tục cho một hồi quy tuyến tính đơn giản.

Hãy tưởng tượng chúng ta muốn dự đoán thu nhập của một người bằng cách sử dụng nhiều năm giáo dục , các bài giảng đã dạy , các bài báo được xuất bản và vị trí học tập hiện tại . Các mẫu có chứa những người học tập cũng như những người không học tập. $y_i$ $x_{1i}$ $x_{2i}$ $x_{3i}$ $x_{4i}$

1. Thay thế : Gán các giá trị void tự nhiên. Ví dụ: Nếu chúng tôi đang tìm kiếm một đứa trẻ, sẽ không có ý nghĩa bao gồm thu nhập. Nhưng Thu nhập có giá trị rỗng tự nhiên là . Bạn có thể kiểm tra xem các biến của bạn cũng cho phép giá trị void như vậy. $0$

2. Thay thế : Bạn có thể chia dữ liệu thành hai nhóm (học thuật và không học thuật). Và chạy hai mô hình riêng biệt.

3. Thay thế : Giới thiệu một biến giả mới biến này là nếu người không học tập và giá trị là nếu người học tập. Sau đó, mô hình hồi quy của bạn sẽ trông như thế nàois_academic $x_{5i}$ $0$ $i$ $1$ $i$

y_{i} = w_{0} + {\tilde{w}}_{0} x_{5 i} + w_{1} x_{1 i} + {\tilde{w}}_{1} x_{5 i} x_{1 i} + {\tilde{w}}_{2} x_{5 i} x_{2 i} + {\tilde{w}}_{3} x_{5 i} x_{3 i} + + {\tilde{w}}_{4} x_{5 i} x_{4 i} + ε_{i}

$y_i = w_0+\tilde{w}_0x_{5i}+w_1x_{1i}+\tilde{w}_1x_{5i}x_{1i}+\tilde{w}_2x_{5i}x_{2i}+\tilde{w}_3x_{5i}x_{3i}++\tilde{w}_4x_{5i}x_{4i}+\varepsilon_i$

Vì vậy, tập dữ liệu của chúng tôi không phải là mà là . Bây giờ bộ dữ liệu đã hoàn tất nhưng mô hình không sử dụng hàm cơ sở tuyến tính nữa. $x_{1i}, x_{2i}, x_{3i}, x_{4i}, y_i$ $x_{1i},x_{5i},x_{5i}x_{1i},x_{5i}x_{2i},x_{5i}x_{3i}, x_{5i}x_{4i}, y_i$

Tương tự, bạn có thể suy nghĩ về tập dữ liệu của mình và giới thiệu các biến giả khi bạn thấy rằng một số tính năng chỉ hiện diện / hữu ích cho một mẫu trong tập dữ liệu của bạn.

— Máy học
nguồn