Mạng lưới thần kinh: Tại sao tôi không thể quá sức?


8

Tôi có một mạng nơ ron (lớp đơn chuyển tiếp) mà tôi cố gắng dự đoán một biến liên quan đến môi trường từ hai biến tài chính (hồi quy). Tôi sử dụng chức năng "tàu" từ gói caret.

Tôi sử dụng nnet()thuật toán trong gói caret. Tôi có hai dự đoán liên tục và 420 điểm dữ liệu.

Để hiểu lý thuyết, tôi cố gắng phù hợp với mô hình của tôi; theo hiểu biết của tôi, điều này thường sẽ hoạt động với mọi tập dữ liệu, ví dụ như bei tăng "kích thước" (tức là số lượng đơn vị ẩn). Tuy nhiên, việc tăng quy mô của các đơn vị ẩn quyết liệt không dẫn đến tình trạng thừa.

Vì vậy, có sai không khi cho rằng bạn có thể điều chỉnh quá mức mọi mạng lưới thần kinh bằng cách tăng "kích thước"? Thay vào đó, biến nào khác có thể dẫn đến quá mức?

grid <- expand.grid(size = 20
                    )

control <- trainControl(method = "cv", 
                        number = 10,
                        verboseIter = TRUE
                        )

fit <- train(x=train_parametres, y=train_result, 
             method = "mlp", 
             metric = "Rsquared",
             learnFunc = "Std_Backpropagation",
             learnFuncParams = c(0.2, 0.0),
             maxit = 1000,
             trControl = control,
             tuneGrid = grid,
             preProcess = c("center", "scale"), 
             linout = T,
             verbose = T,
             allowParallel = T
)

Câu trả lời:


2

Lý do để cố gắng điều chỉnh tập hợp dữ liệu là để hiểu dung lượng mô hình cần thiết để thể hiện tập dữ liệu của bạn.

Nếu dung lượng mô hình của chúng tôi quá thấp, bạn sẽ không thể đại diện cho tập dữ liệu của mình. Khi bạn tăng dung lượng mô hình cho đến khi bạn có thể biểu diễn đầy đủ tập dữ liệu của mình, bạn sẽ biết mình đã tìm thấy dung lượng tối thiểu.

Quá mức không phải là mục tiêu ở đây, nó là một sản phẩm. Mô hình của bạn có thể đại diện cho tập dữ liệu và không nhất thiết là khái niệm . Nếu bạn sẽ thử mô hình này trên một bộ thử nghiệm, hiệu suất có thể sẽ thấp hơn cho thấy sự vượt trội.

Tuy nhiên, năng lực mô hình không phải là lý do duy nhất mà một mô hình không thể đại diện cho một khái niệm. Có thể khái niệm này không thuộc về họ các hàm được đại diện bởi mô hình của bạn - vì khi NN của bạn là tuyến tính và khái niệm thì không. Có thể là đầu vào không đủ để khác nhau giữa các mẫu hoặc thuật toán tối ưu hóa của bạn chỉ đơn giản là không tìm được giải pháp thích hợp.

Trong trường hợp của bạn, bạn chỉ có hai dự đoán. Nếu chúng là nhị phân, có khả năng bạn không thể đại diện cho hai người với họ. Giả sử rằng chúng bị chặn và trơn tru, bạn có thể thử bin chúng. Nếu bạn nhận được entropy cao trong các thùng (ví dụ: thùng có phân phối 50% -50%), không có chuyển tiếp logic nào trên các tính năng này sẽ có thể khác nhau.


Cảm ơn vì đã trả lời. Không chắc chắn nếu tôi hoàn toàn hiểu: Tôi không thể vượt quá (theo nghĩa là có được R2 gần bằng 1) vì "công suất" của mô hình không đủ lớn? Về chức năng mà NN đang sử dụng: Tôi phải chỉ định "linout = T" - điều này có nghĩa là NN tôi đang sử dụng bị giới hạn ở các hàm tuyến tính và đây có thể là lý do tại sao thuật toán không thể phù hợp hơn với bộ huấn luyện?
Requin

Thông thường chúng tôi cố gắng đạt được quá mức để ước tính công suất cần thiết. Điều đó sẽ hoạt động nếu mô hình thực sự có thể đại diện cho tập dữ liệu, được cung cấp đủ dung lượng. Vì bạn có một tập dữ liệu nhỏ, tôi tin rằng dung lượng không phải là vấn đề của bạn. Điều gì đến giữa là thiếu đầu vào mà bạn có thể cố gắng xác minh bằng cách sử dụng các thùng được đề xuất trong câu trả lời. Một lý do khác có thể là các mẫu dị thường. Mức độ hiệu suất nào bạn đạt được trên tập tàu. Đối với các hàm tuyến tính, đó là một khả năng chung, không cụ thể cho trường hợp của bạn. Tôi không sử dụng thư viện này và không quen thuộc với các tham số của nó.
DaL

1

Tôi đã có cùng một vấn đề, tôi giữ mức độ đều đặn và tỷ lệ học tập tối ưu. nhưng sự suy giảm tốc độ học tập được đặt thành không. Khi tôi đặt phân rã tỷ lệ học tập thành một số giá trị như 0,95, nó đã hoạt động và tăng số lượng kỷ nguyên

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.