Sự khác biệt giữa siêu âm mô hình và các tham số mô hình là gì?


28

Tôi đã nhận thấy rằng các thuật ngữ như siêu tham số mô hình và tham số mô hình đã được sử dụng thay thế cho nhau trên web mà không cần làm rõ trước. Tôi nghĩ rằng điều này là không chính xác và cần giải thích. Hãy xem xét một mô hình học máy, một trình phân loại hoặc nhận dạng hình ảnh dựa trên SVM / NN / NB, chỉ là bất cứ điều gì đầu tiên nảy ra trong đầu.

Các siêu đường kínhtham số của mô hình là gì?
Hãy cho ví dụ của bạn xin vui lòng.


3
Andrew Ng xây dựng sự khác biệt giữa các tham số và siêu đường kính. coursera.org/learn/neural-networks-deep-learning/lecture/TBvb5/ gợi
Divyanshu Shekhar

Câu trả lời:


27

Hyperparameter và tham số thường được sử dụng thay thế cho nhau nhưng có một sự khác biệt giữa chúng. Bạn gọi một cái gì đó là 'siêu tham số' nếu nó không thể được học trực tiếp trong công cụ ước tính. Tuy nhiên, "tham số" là thuật ngữ chung hơn. Khi bạn nói 'truyền tham số cho mô hình', thông thường có nghĩa là sự kết hợp của siêu đường kính cùng với một số tham số khác không liên quan trực tiếp đến công cụ ước tính của bạn nhưng được yêu cầu cho mô hình của bạn.

Ví dụ: giả sử bạn đang xây dựng trình phân loại SVM trong sklearn:

from sklearn import svm
X = [[0, 0], [1, 1]]
y = [0, 1]
clf = svm.SVC(C =0.01, kernel ='rbf', random_state=33)
clf.fit(X, y) 

Trong đoạn mã trên, một thể hiện của SVM là công cụ ước tính cho mô hình của bạn mà các siêu đường kính, trong trường hợp này là Ckernel. Nhưng mô hình của bạn có một tham số khác không phải là siêu tham số và đó là random_state.


Câu trả lời này ngụ ý random_statelà một tham số. Tôi nghĩ rằng điều này là sai lệch, bởi vì (xem câu trả lời khác); một tham số được học bởi mô hình , trong khi siêu tham số được chỉ định bởi chúng tôi ; như random_state=33. Nhưng, random_statenó cũng không phải là một siêu tham số, bởi vì không có giá trị tốt nhất cho random_state; xem Jason Brownlee thảo luận tại đây
The Red Pea

21

Ngoài câu trả lời trên.

Các tham số mô hình là các thuộc tính của dữ liệu huấn luyện được học trong quá trình đào tạo bởi bộ phân loại hoặc mô hình ml khác. Ví dụ: trong trường hợp của một số nhiệm vụ NLP: tần số từ, độ dài câu, phân phối danh từ hoặc động từ cho mỗi câu, số lượng ký tự cụ thể n-gram trên mỗi từ, đa dạng từ vựng, v.v. Các tham số mô hình khác nhau cho từng thử nghiệm và tùy thuộc vào loại dữ liệu và nhiệm vụ trong tầm tay.

Mặt khác, siêu đường kính mô hình là phổ biến cho các mô hình tương tự và không thể học được trong quá trình đào tạo nhưng được đặt trước. Một bộ siêu đường kính điển hình cho NN bao gồm số lượng và kích thước của các lớp ẩn, sơ đồ khởi tạo trọng lượng, tốc độ học tập và phân rã của nó, bỏ học và ngưỡng cắt độ dốc, v.v.


7

Các tham số siêu là những tham số mà chúng tôi cung cấp cho mô hình, ví dụ: số lượng Nút và Lớp ẩn, tính năng đầu vào, Tốc độ học tập, Chức năng kích hoạt, v.v. trong Mạng thần kinh, trong khi Thông số là những thứ mà máy sẽ học được như Trọng lượng và Xu hướng .


5

Trong học máy, một mô hình với các tham số và siêu tham số trông giống như,M

YMH(Φ|D)

nơi là các thông số và H là siêu tham số. D là dữ liệu huấn luyện và Y là dữ liệu đầu ra (nhãn lớp trong trường hợp nhiệm vụ phân loại).ΦHDY

Mục tiêu trong đào tạo là để tìm thấy ước tính các thông số Φ tối ưu hóa một số chức năng mất L , chúng tôi đã xác định. Kể từ đó, mô hình M và mất chức năng L được dựa trên H , sau đó các thông số hậu quả Φ cũng phụ thuộc vào siêu thông số H .Φ^LMLHΦH

Các siêu tham số không được 'học' trong quá trình đào tạo, nhưng không có nghĩa là các giá trị của chúng là bất biến. Thông thường, các siêu tham số được cố định và chúng tôi nghĩ đơn giản của mô hình M , thay vì M H . Ở đây, các tham số siêu cũng có thể được coi là tham số tiên nghiệm.HMMH

Nguồn gốc của sự nhầm lẫn bắt nguồn từ việc sử dụng và sửa đổi của siêu thông số H trong đào tạo thường xuyên ngoài, rõ ràng, các thông số Φ . Có khả năng một số động lực để sửa đổi H trong quá trình đào tạo. Một ví dụ sẽ là thay đổi tốc độ học tập trong quá trình đào tạo để cải thiện tốc độ và / hoặc sự ổn định của thói quen tối ưu hóa.MHHΦ^H

Vấn đề quan trọng của sự khác biệt là, kết quả, ví dụ nhãn dự đoán, được dựa trên các thông số mô hình Φ và không phải siêu thông số H .YpredΦH

Tuy nhiên, sự khác biệt có cảnh báo và do đó các dòng bị mờ. Ví dụ, xem xét nhiệm vụ phân cụm, cụ thể là Mô hình hỗn hợp Gaussian (GMM). Các thông số thiết lập ở đây là , nơi ˉ L được thiết lập của N có nghĩa là cụm và ˉ σ được thiết lập của N chuẩn độ lệch, cho N Gaussian Hạt nhân.Φ= ={μ¯,σ¯}μ¯Nσ¯NN

Bạn có thể đã nhận ra bằng trực giác siêu tham số ở đây. Đó là số lượng các cụm . Vậy H = { N } . Thông thường, hợp lệ hóa cluster được sử dụng để xác định N apriori, sử dụng một nhỏ phụ mẫu của các dữ liệu D . Tuy nhiên, tôi cũng có thể sửa đổi thuật toán học tập Mô hình hỗn hợp Gaussian của mình để sửa đổi số lượng hạt nhân N trong quá trình đào tạo, dựa trên một số tiêu chí. Trong kịch bản này, các siêu tham số, N trở thành một phần của tập hợp các thông số Φ = { ˉ L , ˉ σ , N } .NH= ={N}NDNNΦ= ={μ¯,σ¯,N}

dDGMM(μ¯,σ¯)NNddμσN

ML


3

Nói một cách đơn giản,

Tham số mô hình là một cái gì đó mà một mô hình tự học. Ví dụ: 1) Trọng số hoặc hệ số của các biến độc lập trong mô hình hồi quy tuyến tính. 2) Trọng số hoặc hệ số của các biến độc lập SVM. 3) Chia điểm trong Cây quyết định.

Mô hình siêu tham số được sử dụng để tối ưu hóa hiệu suất mô hình. Ví dụ: 1) Kernel và slack trong SVM. 2) Giá trị của K tính bằng KNN. 3) Độ sâu của cây trong cây quyết định.


Họ không nhất thiết phải làm gì với việc tối ưu hóa một mô hình. Hyperparams chỉ là tham số cho quá trình xây dựng mô hình.
Sean Owen

0

Các tham số mô hình được ước tính từ dữ liệu tự động và các siêu đường kính mô hình được đặt thủ công và được sử dụng trong các quy trình để giúp ước tính các tham số mô hình.

Siêu đường kính mô hình thường được gọi là tham số vì chúng là các phần của quá trình học máy phải được đặt thủ công và điều chỉnh.

Về cơ bản, các tham số là các tham số mà mô hình của thang máy sử dụng để đưa ra dự đoán, v.v. Ví dụ: các hệ số trọng số trong mô hình hồi quy tuyến tính. Hyperparameter là những người giúp cho quá trình học tập. Ví dụ: số lượng cụm trong K-Means, hệ số co ngót trong Hồi quy độ dốc. Chúng sẽ không xuất hiện trong phần dự đoán cuối cùng, nhưng chúng có ảnh hưởng lớn đến cách các tham số sẽ trông như thế nào sau bước học tập.

Tham khảo: https://machinelearningmastery.com/difference-b between-a-parameter-and-a- hyperparameter /

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.