Cái gì trong tên: hyperparameter


19

Vì vậy, trong một phân phối bình thường, chúng ta có hai tham số: mean và variance . Trong cuốn sách Nhận dạng mẫu và Học máy , đột nhiên xuất hiện một siêu tham số trong các điều khoản chính quy của hàm lỗi.σ 2μσ2λ

Siêu âm là gì? Tại sao chúng được đặt tên như vậy? Và chúng trực giác khác với các thông số nói chung như thế nào?


3
Cá nhân tôi chỉ nghĩ rằng đó là một dịch bệnh của những người sẽ tăng. Siêu này, siêu kia. Hypersphere - đó là một hình cầu, d @ manit, ngừng tăng quá mức chỉ vì kích thước vượt quá 3. Siêu tham số - đó là một tham số, d @ mnit, ngừng tăng chỉ vì bạn có một vài trong số chúng và dường như bạn nghĩ rằng bạn cần phải chỉ mức độ phân cấp hoặc một cái gì đó. Trong mọi trường hợp, nếu bạn gặp vấn đề tối ưu hóa, hãy đánh vần rõ ràng các tham số nào đang được tối ưu hóa và bất kỳ ràng buộc nào (nếu đó là tối ưu hóa đa cấp, hãy đánh vần nó). Tôi hy vọng tôi đã không nhận được quá nhiều trong bình luận này.
Mark L. Stone

2
Tôi luôn luôn sử dụng "hypersphere" để có nghĩa là "co-chiều một hình cầu", vì vậy ít nhất trong toán học, nó dường như có nghĩa gì đó. Hoặc ít nhất là khi tôi nói về toán học. Tôi sẽ bình tĩnh lại bây giờ.
Matthew Drury

Câu trả lời:


18

Thuật ngữ siêu tham số là khá mơ hồ. Tôi sẽ sử dụng nó để chỉ một tham số ở mức phân cấp cao hơn các tham số khác. Ví dụ, hãy xem xét một mô hình hồi quy với phương sai đã biết (1 trong trường hợp này)

yN(Xβ,I)

và sau đó là một ưu tiên về các tham số, ví dụ

βN(0,λI)

Ở đây xác định phân phối và xác định phân phối cho . Khi tôi chỉ muốn tham khảo tôi có thể gọi nó là tham số và khi tôi chỉ muốn tham khảo , tôi có thể gọi nó là siêu tham số.beta beta y beta bước sóngλββyβλ

Việc đặt tên trở nên phức tạp hơn khi các tham số hiển thị trên nhiều cấp độ hoặc khi có nhiều cấp độ phân cấp hơn (và bạn không muốn sử dụng thuật ngữ siêu đường kính). Tốt nhất là nếu tác giả chỉ định chính xác ý nghĩa của việc khi họ sử dụng thuật ngữ siêu tham số hoặc tham số cho vấn đề đó.


Đây là một lời giải thích tốt đẹp. Bây giờ tôi đang tưởng tượng nó như là một "thành phần của các hàm-ish". Để dịch những gì bạn đặt trong các ký hiệu, thường được phân phối với trung bình , nhưng đến lượt , thường được phân phối như vậy. Cảm ơnX β byXβbeta
cgo

10

Một siêu tham số chỉ đơn giản là một tham số tác động, hoàn toàn hoặc một phần, các tham số khác. Họ không trực tiếp giải quyết vấn đề tối ưu hóa mà bạn gặp phải, mà là tối ưu hóa các tham số có thể giải quyết vấn đề (do đó là siêu , vì chúng không phải là một phần của vấn đề tối ưu hóa, mà là "addons"). Đối với những gì tôi đã thấy, nhưng tôi không có tài liệu tham khảo, mối quan hệ này là đơn hướng (một siêu tham số có thể bị ảnh hưởng bởi các tham số mà nó có ảnh hưởng, do đó cũng là siêu ). Chúng thường được giới thiệu trong các chương trình chính quy hóa hoặc tối ưu hóa meta.

Ví dụ: tham số của bạn có thể tự do tác động và để điều chỉnh chi phí chính quy (nhưng và không ảnh hưởng đến ). Do đó, là một siêu tham số cho và . Nếu bạn có thêm một tham số ảnh hưởng đến , thì đó sẽ là một siêu tham số cho và một siêu tham số cho và (nhưng tôi chưa bao giờ thấy nomenclatura này, nhưng tôi sẽ không cảm thấy nó sai nếu tôi thấy nó).L σ L σ bước sóng bước sóng L σ τ bước sóng bước sóng L σλμσμσλλμστλλμσ

Tôi thấy khái niệm siêu tham số rất hữu ích cho xác thực chéo, bởi vì nó nhắc nhở bạn về hệ thống phân cấp của các tham số, đồng thời nhắc nhở bạn rằng nếu bạn vẫn sửa đổi các tham số (hyper-), bạn vẫn xác thực chéo và không khái quát hóa nên bạn phải vẫn cẩn thận về kết luận của bạn (để tránh suy nghĩ vòng tròn).


7

Các giải thích khác là một chút mơ hồ; đây là một lời giải thích cụ thể hơn nên làm rõ nó

Siêu tham số là các thông số của mô hình chỉ , không những quá trình vật lý đang được mô phỏng. Bạn giới thiệu cho họ "một cách giả tạo" để làm cho mô hình của bạn "hoạt động" với sự có mặt của dữ liệu hữu hạn và / hoặc thời gian tính toán hữu hạn . Nếu bạn có sức mạnh vô hạn để đo lường hoặc tính toán bất cứ thứ gì, siêu âm sẽ không còn tồn tại trong mô hình của bạn, vì chúng sẽ không mô tả bất kỳ khía cạnh vật lý nào của hệ thống thực tế.

Mặt khác, các tham số thông thường là những tham số mô tả hệ thống vật lý và không chỉ đơn thuần là mô hình hóa các tạo tác.


6

Đây không phải là một thuật ngữ được xác định trước, vì vậy tôi sẽ tiếp tục và cung cấp cho bạn một định nghĩa khác có vẻ phù hợp với cách sử dụng phổ biến.

Một siêu tham số là một đại lượng được ước tính trong thuật toán học máy không tham gia vào dạng chức năng của hàm dự đoán cuối cùng.

Hãy để tôi thư giãn với một ví dụ, hồi quy sườn núi. Trong hồi quy sườn núi, chúng tôi giải quyết vấn đề tối ưu hóa sau:

β(λ)=argminβ((yXβ)t(yXβ)+λβtβ)
β=argminλ(yXβ(λ))t(yXβ(λ))

X,yX,y

f(X)=Xβ

λβλ


3

Như @jaradniemi đã chỉ ra chính xác, một lần sử dụng thuật ngữ siêu tham số xuất phát từ mô hình phân cấp hoặc đa cấp, trong đó bạn có một loạt các mô hình thống kê, một mô hình được xây dựng trên / dưới các mô hình khác, thường sử dụng các câu lệnh xác suất có điều kiện.

Nhưng cùng một thuật ngữ phát sinh trong các bối cảnh khác với ý nghĩa khác nhau là tốt. Chẳng hạn, tôi đã thấy thuật ngữ siêu tham số được sử dụng để chỉ các tham số của mô phỏng (chiều dài chạy, số lần sao chép độc lập, số lượng hạt tương tác trong mỗi lần sao chép, v.v.) của mô hình ngẫu nhiên, không xuất phát từ đa cấp người mẫu


1
FWIW Tôi thường coi độ dài chạy, số lượng hạt tương tác, v.v. là tham số điều chỉnh.
jaradniemi

Tôi đồng ý. Đối với tôi, nó có vẻ là một sự lựa chọn đầy đủ hơn so với siêu âm. Tuy nhiên, với những người khác, trong các lĩnh vực kiến ​​thức khác, nó vẫn có vẻ hợp lý.
Marcelo Ventura
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.