Trích xuất tính năng từ một âm mưu phân tán


7

Nói rằng tôi có một âm mưu phân tán như thế này:

nhập mô tả hình ảnh ở đây

Vì tôi có nhiều sơ đồ phân tán như thế này, tôi muốn thực hiện chuyển đổi tính năng, tức là squash (x,y)trong một thuật ngữ duy nhất để được nhập vào NN. Phép biến đổi nào giống x/yhoặc (x/y)^2hoặc bất kỳ phép biến đổi nào khác sẽ hoạt động tốt nhất trong loại biểu đồ này, tức là tăng sự phân tách nhiều hơn trong khi nén nó thành một thuật ngữ duy nhất.

Câu trả lời:


5

Như @David Masip đã đề cập, Phân tích thành phần chính sẽ là một phương pháp tốt để sử dụng ở đây. Về cơ bản, PCA là một phương pháp mà ánh xạ được tìm thấy giữa không gian chiều cao đến không gian chiều thấp hơn trong khi vẫn giữ càng nhiều biến đổi trong dữ liệu càng tốt - hoàn hảo để giảm dữ liệu chiều cao.

Tuy nhiên, bạn đề cập rằng bạn muốn sử dụng dữ liệu giảm này để đào tạo một mô hình mạng thần kinh. Trước tiên, có thể tốt nhất là đào tạo mô hình mạng lưới thần kinh và xem nó hoạt động tốt như thế nào, vì mạng lưới thần kinh thường rất tốt trong việc xác định các tương tác giữa các tính năng cũng như các cấu trúc ẩn khác trong dữ liệu. Nếu nó không hoạt động tốt, thì một cách tiếp cận để cải thiện hiệu suất có thể là sử dụng PCA - mặc dù điều này phụ thuộc nhiều vào trường hợp sử dụng, nội dung / loại / lượng dữ liệu, kiến ​​trúc mạng thần kinh, v.v.

ps PCA cũng tốt để trực quan hóa dữ liệu chiều cao (giảm kích thước xuống còn 2 hoặc 3 chiều, sau đó vẽ đồ thị. Điều này tốt hơn là chỉ vẽ 2 tính năng tại một thời điểm như bạn đã làm ở trên).


Chà, tôi không muốn sử dụng pca..Đó chỉ là dữ liệu 2 chiều..Vậy tôi đã nghĩ đến một số trích xuất tính năng thủ công
DuttaA

3

Tôi nghĩ những gì bạn đang tìm kiếm là PCA (Phân tích thành phần chính). Trong trường hợp của bạn, bạn phải lấy thành phần chính đầu tiên. PCA cho phép tự động hóa quá trình quyết định đó là sự kết hợp tuyến tính của các biến giải thích phần lớn dữ liệu. Trong ảnh bạn đã hiển thị, thành phần đầu tiên sẽ gần như là trục dọc của âm mưu của bạn. Nếu bạn không biết PCA là gì, hãy xem câu trả lời tuyệt vời này về việc xác thực chéo.



2

Nhận xét của bạn:

Chà, tôi không muốn sử dụng pca..Đó chỉ là dữ liệu 2 chiều..Vậy tôi đã nghĩ đến một số tính năng trích xuất thủ công

Một cái gì đó thực sự đơn giản bạn có thể làm chỉ là sử dụngytrực tiếp Nó có vẻ nhưy23 thực hiện một công việc khá tốt khi phân tách các nhóm màu đỏ và màu xanh lá cây trong biểu đồ phân tán.

Người ta có thể khái quát cách tiếp cận này với các cặp biến số khác bằng cách khớp cây quyết định với độ sâu 1, mang lại sự phân chia biến đơn tốt nhất để tách hai nhóm cho mỗi cặp. Các quy tắc này có thể được sử dụng để chọn một biến duy nhất để sử dụng, hoặc hoặc biến nhị phân / cờ để tạo, chẳng hạn như(i,j)ijy23 đề nghị ở trên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.