Trong học máy, một mô hình với các tham số và siêu tham số trông giống như,M
Y≈ MH( Φ | D )
nơi là các thông số và H là siêu tham số. D là dữ liệu huấn luyện và Y là dữ liệu đầu ra (nhãn lớp trong trường hợp nhiệm vụ phân loại).ΦHDY
Mục tiêu trong đào tạo là để tìm thấy ước tính các thông số Φ tối ưu hóa một số chức năng mất L , chúng tôi đã xác định. Kể từ đó, mô hình M và mất chức năng L được dựa trên H , sau đó các thông số hậu quả Φ cũng phụ thuộc vào siêu thông số H .Φ^LMLHΦH
Các siêu tham số không được 'học' trong quá trình đào tạo, nhưng không có nghĩa là các giá trị của chúng là bất biến. Thông thường, các siêu tham số được cố định và chúng tôi nghĩ đơn giản của mô hình M , thay vì M H . Ở đây, các tham số siêu cũng có thể được coi là tham số tiên nghiệm.HMMH
Nguồn gốc của sự nhầm lẫn bắt nguồn từ việc sử dụng và sửa đổi của siêu thông số H trong đào tạo thường xuyên ngoài, rõ ràng, các thông số Φ . Có khả năng một số động lực để sửa đổi H trong quá trình đào tạo. Một ví dụ sẽ là thay đổi tốc độ học tập trong quá trình đào tạo để cải thiện tốc độ và / hoặc sự ổn định của thói quen tối ưu hóa.MHHΦ^H
Vấn đề quan trọng của sự khác biệt là, kết quả, ví dụ nhãn dự đoán, được dựa trên các thông số mô hình Φ và không phải siêu thông số H .Yp r e dΦH
Tuy nhiên, sự khác biệt có cảnh báo và do đó các dòng bị mờ. Ví dụ, xem xét nhiệm vụ phân cụm, cụ thể là Mô hình hỗn hợp Gaussian (GMM). Các thông số thiết lập ở đây là , nơi ˉ L được thiết lập của N có nghĩa là cụm và ˉ σ được thiết lập của N chuẩn độ lệch, cho N Gaussian Hạt nhân.Φ = { μ¯, σ¯}μ¯Nσ¯NN
Bạn có thể đã nhận ra bằng trực giác siêu tham số ở đây. Đó là số lượng các cụm . Vậy H = { N } . Thông thường, hợp lệ hóa cluster được sử dụng để xác định N apriori, sử dụng một nhỏ phụ mẫu của các dữ liệu D . Tuy nhiên, tôi cũng có thể sửa đổi thuật toán học tập Mô hình hỗn hợp Gaussian của mình để sửa đổi số lượng hạt nhân N trong quá trình đào tạo, dựa trên một số tiêu chí. Trong kịch bản này, các siêu tham số, N trở thành một phần của tập hợp các thông số Φ = { ˉ L , ˉ σ , N } .NH ={N}NDNNΦ = { μ¯, σ¯, N}
dDG MM( μ¯, σ¯)NNddμσN
ML