Các lựa chọn thay thế cho tổng quát hóa L1, L2 và bỏ học


8

Tôi có thiết lập sau đây cho dự án nghiên cứu Tài chính / Máy học tại trường đại học của mình: Tôi đang áp dụng Mạng thần kinh (Sâu) (MLP) với cấu trúc sau trong Keras / Theano để phân biệt các cổ phiếu vượt trội (nhãn 1) với các cổ phiếu hoạt động kém ( nhãn 0). Ở nơi đầu tiên tôi chỉ sử dụng bội số định giá thực tế và lịch sử. Bởi vì nó là dữ liệu chứng khoán, người ta có thể mong đợi có dữ liệu rất ồn ào. Hơn nữa, độ chính xác của mẫu trên 52% ổn định có thể được coi là tốt trong lĩnh vực này.

Cấu trúc của mạng:

  • Lớp dày đặc với 30 tính năng làm đầu vào
  • Kích hoạt lại
  • Lớp chuẩn hóa hàng loạt (Không có điều đó, mạng hoàn toàn không hội tụ)
  • Lớp bỏ học tùy chọn
  • Ngu độn
  • Relu
  • Lô hàng
  • Rơi ra ngoài
  • .... Các lớp khác, với cùng cấu trúc
  • Lớp dày đặc với kích hoạt Sigmoid

Trình tối ưu hóa: RMSprop

Mất chức năng: Nhị phân chéo Entropy

Điều duy nhất tôi làm để xử lý trước là thay đổi kích thước các tính năng thành phạm vi [0,1].

Bây giờ tôi đang gặp phải một vấn đề quá mức / thiếu cân bằng điển hình, mà tôi thường sẽ giải quyết với việc bỏ chuẩn hóa hạt nhân Dropout hoặc / và L1 và L2. Nhưng trong trường hợp này, cả hai quá trình chuẩn hóa Dropout và L1 và L2 đều có tác động xấu đến hiệu suất, như bạn có thể thấy trong các biểu đồ sau.

Thiết lập cơ bản của tôi là: NN 5 lớp (bao gồm lớp đầu vào và đầu ra), 60 Neuron mỗi lớp, Tỷ lệ học tập 0,02, không L1 / L2 và không bỏ học, 100 Epochs, Chuẩn hóa hàng loạt, Kích thước hàng loạt 1000. Mọi thứ đều được đào tạo 76000 mẫu đầu vào (các lớp gần như cân bằng 45% / 55%) và được áp dụng cho cùng một lượng mẫu thử. Đối với các biểu đồ tôi chỉ thay đổi một tham số tại một thời điểm. "Perf-Diff" có nghĩa là chênh lệch hiệu suất cổ phiếu trung bình của các cổ phiếu được phân loại là 1 và cổ phiếu được phân loại là 0, về cơ bản là số liệu cốt lõi ở cuối. (Cao hơn thì tốt hơn)

Chính quy Trong trường hợp l1, về cơ bản, mạng sẽ phân loại mỗi mẫu thành một lớp. Sự tăng đột biến đang xảy ra do mạng đang thực hiện lại nhưng phân loại 25 mẫu chính xác một cách ngẫu nhiên. Vì vậy, sự tăng đột biến này không nên được hiểu là một kết quả tốt, mà là một ngoại lệ.

Các tham số khác có tác động sau: nhập mô tả hình ảnh ở đây

Bạn có bất cứ ý tưởng làm thế nào tôi có thể cải thiện kết quả của tôi? Có một lỗi rõ ràng tôi đang làm hoặc có một câu trả lời dễ dàng cho kết quả chính quy? Bạn có đề nghị thực hiện bất kỳ loại lựa chọn tính năng nào trước khi đào tạo (ví dụ PCA) không?

Chỉnh sửa : Thông số khác: nhập mô tả hình ảnh ở đây


2
Chỉ cần một số suy nghĩ không có tổ chức: kích thước lô của bạn là khá lớn. Một chiến lược chính quy hóa khác là định mức tối đa: giới hạn tổng chỉ tiêu L2 của các trọng số tại một lớp cụ thể ở một giá trị nào đó. Dữ liệu chứng khoán tự nhiên có tính chất chuỗi thời gian, vì vậy có thể một lớp RNN có thể giúp đỡ. Nhưng cấu hình ANN là nghệ thuật hơn khoa học - ngay cả khi một vấn đề đơn giản, nó cần có sự kết hợp đúng của các tham số để mạng tìm hiểu.
Sycorax nói phục hồi Monica

@Sycorax: Tôi vừa chỉnh sửa câu hỏi của mình và bao gồm kích thước Max-Norm và Batch: Hành vi thú vị, nhưng không ảnh hưởng lớn đến kết quả kiểm tra, nhiều hơn về kết quả đào tạo. Thật không may, tôi không thực sự có dữ liệu thời gian nhưng dữ liệu ảnh chụp nhanh theo thời gian hơn, vì vậy tôi nghĩ rằng RNN không được áp dụng trong trường hợp của tôi.
SebastianB

Câu trả lời:


2

Cho rằng đó là dữ liệu tài chính, có khả năng các bản phân phối tính năng trong bộ tàu và bộ xác thực của bạn là khác nhau - một hiện tượng được gọi là dịch chuyển đồng biến - và các mạng thần kinh không có xu hướng chơi tốt với điều này. Có các bản phân phối tính năng khác nhau có thể gây ra tình trạng thừa ngay cả khi mạng tương đối nhỏ.

Cho rằng l1 và l2 không giúp ích gì cho những điều tôi nghi ngờ các biện pháp chính quy hóa tiêu chuẩn khác như thêm tiếng ồn vào đầu vào / trọng lượng / độ dốc có thể sẽ không giúp ích, nhưng nó có thể đáng để thử.

Tôi sẽ được thử dùng một thuật toán phân loại ít bị ảnh hưởng bởi cường độ tuyệt đối của các tính năng, như một cây được tăng cường độ dốc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.