Làm cách nào để chọn các tính năng có liên quan của dữ liệu?


11

Gần đây tôi đang nghiên cứu một vấn đề để thực hiện một số phân tích chi phí về chi tiêu của tôi cho một số tài nguyên cụ thể. Tôi thường đưa ra một số quyết định thủ công từ phân tích và kế hoạch phù hợp.

Tôi có một bộ dữ liệu lớn ở định dạng excel và với hàng trăm cột, xác định việc sử dụng tài nguyên trong các khung và loại thời gian khác nhau (sử dụng chi tiết khác nhau). Tôi cũng có thông tin về 4 năm trước về dữ liệu và việc sử dụng tài nguyên thực tế và chi phí phát sinh tương ứng.

Tôi đã hy vọng đào tạo một NN để dự đoán trước chi phí của mình và lên kế hoạch ngay cả trước khi tôi có thể tự mình phân tích chi phí.

Nhưng vấn đề lớn nhất tôi gặp phải là cần xác định các tính năng để phân tích như vậy. Tôi đã hy vọng có một số cách để xác định các tính năng từ bộ dữ liệu.

Tái bút - Tôi có ý tưởng về PCA và một số kỹ thuật giảm tập hợp tính năng khác, điều tôi đang tìm kiếm là cách để xác định chúng ở nơi đầu tiên.

Câu trả lời:


1

Vì bạn có tất cả dữ liệu của mình trong một bảng, nên một điều tương đối đơn giản là xem xét từng cột một cách độc lập và sau đó xem liệu biến đầu ra (chi phí phát sinh) có tương quan với điều đó không.

Nếu cột không có (hoặc tương quan rất thấp) với biến đầu ra, thì hãy xem nó không quan trọng. Những người thực hiện việc cắt giảm sau đó được xem xét thêm.

Điều này rõ ràng không khác lắm so với cách thuật toán cây quyết định sẽ hoạt động (chẳng hạn như ID3).


0

không có quy tắc khó và nhanh để lựa chọn tính năng, bạn phải kiểm tra thủ công bộ dữ liệu và thử các kỹ thuật khác nhau cho kỹ thuật tính năng. Và không có quy tắc nào là bạn nên áp dụng các mạng thần kinh cho việc này, các mạng thần kinh tốn nhiều thời gian để đào tạo, thay vào đó bạn có thể thử nghiệm các phương pháp dựa trên cây quyết định (rừng ngẫu nhiên) vì dữ liệu của bạn dù sao cũng có cấu trúc dạng bảng.


cảm ơn về đầu vào, 1. Tôi đồng ý NN không phải là cách tốt nhất để kiểm tra giả thuyết, nhưng tôi đoán sử dụng NN chúng ta có thể đạt được mối quan hệ rộng lớn hơn giữa các tính năng, để có kết quả tốt hơn (trong hầu hết các trường hợp). 2. Vấn đề tôi gặp phải là chọn các tính năng, thực sự sẽ xác định mẫu cho vấn đề của tôi, cũng như cách xác định trọng số tính năng.
Karan Chopra

0

Đó là một câu hỏi hay và có lẽ là một trong những nhiệm vụ khó khăn nhất trên ML.

Bạn có một vài lựa chọn:

  1. Bạn có thể sử dụng các thuật toán trọng số (ví dụ: Chi bình phương) để hiểu các tính năng nào đóng góp nhiều nhất cho đầu ra của bạn
  2. Bạn có thể sử dụng các thuật toán ML khác để phân loại xem một tính năng có đóng góp cho dự đoán của bạn hay không
  3. Bạn có thể sử dụng các thuật toán ML khác (trừ NN) vốn đã cung cấp cho bạn trọng số tính năng (ví dụ: Rừng ngẫu nhiên)

Mong rằng sẽ giúp


0

Sẽ là khôn ngoan khi xem xét không chỉ mối tương quan của sự tham gia tài nguyên với chi phí, mà còn là lợi tức của chi phí tham gia tài nguyên. Thách thức điển hình là những lợi nhuận đó hầu như luôn được tích lũy hoặc bị trì hoãn. Một trường hợp tích lũy là khi tài nguyên là sự điều chỉnh hoặc cải tiến liên tục của một quá trình mà sự vắng mặt của nó làm chậm việc tạo ra doanh thu. Một trường hợp chậm trễ là khi tài nguyên nghiên cứu phải chịu chi phí mà không ảnh hưởng đến doanh thu trong một khoảng thời gian nhưng việc tạo doanh thu bắt đầu nếu nghiên cứu mang lại kết quả sản xuất có thể là một yếu tố đáng kể trên tổng chi phí của kết quả được giao.

Lý do dữ liệu chi phí tự nó có thể dẫn đến việc học tập không đúng mạng là bởi vì một mạng được đào tạo để giảm, ví dụ, chi phí tiếp thị sẽ bằng không. Điều đó thường sẽ gây ra xu hướng giảm doanh số cho đến khi doanh nghiệp gấp. Không bao gồm lợi nhuận trong thông tin đào tạo, không có học tập hữu ích có thể xảy ra.

Một MLP cơ bản (perceptionron nhiều lớp) sẽ không tìm hiểu các đặc điểm tạm thời của dữ liệu, các khía cạnh tích lũy và trì hoãn. Bạn sẽ cần một mạng lưới nhà nước. Loại mạng thành công nhất quán cho loại học tập này khi viết bài này là loại mạng LSTM (bộ nhớ ngắn hạn) hoặc một trong các biến thể phái sinh của nó. Dữ liệu doanh thu và số dư phải được sử dụng cùng với dữ liệu chi phí để đào tạo mạng để dự đoán kết quả kinh doanh cho bất kỳ chuỗi tham gia tài nguyên được đề xuất nào (kế hoạch ngân sách chi tiết đầy đủ).

Hàm mất mát phải cân bằng hợp lý thời hạn với các mục tiêu tài chính trung và dài hạn. Tiền mặt khả dụng tiêu cực sẽ tạo ra sự gia tăng rõ rệt trong chức năng mất mát để tránh những rủi ro cơ bản đối với danh tiếng và chi phí tín dụng được học.

Những cột nào trong dữ liệu của bạn có mối tương quan mạnh với lợi tức đầu tư rất khó xác định trước. Bạn có thể loại trừ ngay các cột phù hợp với bất kỳ một trong các tiêu chí sau.

  • Luôn trống
  • Các hằng số khác, các hằng số có cùng giá trị cho mỗi hàng
  • Những cái luôn có thể được bắt nguồn từ các cột khác

Dữ liệu có thể được giảm theo những cách khác

  • Mô tả đầy đủ dữ liệu bằng cách mô tả xu hướng theo những cách đơn giản
  • Sử dụng các chỉ mục để chỉ định các chuỗi dài với độ chính xác 100% bằng cách gán cho mỗi chuỗi một số
  • Nén
  • Mặt khác, giảm sự dư thừa trong dữ liệu

RBM (máy Boltzmann bị hạn chế) có thể trích xuất các tính năng từ dữ liệu và PCA có thể chiếu sáng các cột nội dung thông tin thấp, nhưng tầm quan trọng của các cột về mối tương quan với doanh thu sẽ không được xác định bằng các thiết bị này ở dạng cơ bản.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.