Đăng nhập trong máy học có nghĩa là gì?


11

"Một lỗi phổ biến mà tôi sẽ mắc phải là thêm phi tuyến tính vào đầu ra nhật ký của mình."

Thuật ngữ "logit" có nghĩa là gì ở đây hoặc nó đại diện cho cái gì?

Câu trả lời:


14

Các bản ghi được hiểu là các dự đoán (hoặc đầu ra) không chuẩn hóa (hoặc chưa được chuẩn hóa ) của một mô hình. Chúng có thể cho kết quả, nhưng chúng ta thường không dừng lại với các bản ghi, vì việc diễn giải các giá trị thô của chúng không dễ dàng.

Hãy nhìn vào định nghĩa của họ để giúp đỡ hiểu làm thế nào logits được sản xuất.

Hãy để tôi giải thích với một ví dụ:

Chúng tôi muốn đào tạo một mô hình học cách phân loại mèo và chó, sử dụng những bức ảnh mà mỗi con chứa một con mèo hoặc một con chó. Bạn xây dựng một mô hình cung cấp cho nó một số dữ liệu bạn có để xấp xỉ ánh xạ giữa các hình ảnh và dự đoán. Sau đó, bạn cung cấp cho mô hình một số ảnh chưa xem để kiểm tra độ chính xác dự đoán của nó trên dữ liệu mới. Khi chúng tôi có một vấn đề phân loại (chúng tôi đang cố gắng đặt mỗi ảnh vào một trong hai lớp), mô hình sẽ cho chúng tôi hai điểm cho mỗi hình ảnh đầu vào. Một điểm cho khả năng nó tin hình ảnh có chứa một con mèo, và sau đó một điểm cho niềm tin của nó rằng hình ảnh có chứa một con chó.

Có lẽ đối với hình ảnh mới đầu tiên, bạn nhận được các giá trị logit từ 16.917một con mèo và sau đó 0.772cho một con chó. Cao hơn có nghĩa là tốt hơn, hoặc ('nhiều khả năng'), vì vậy bạn nói rằng một con mèo là câu trả lời. Câu trả lời đúng là một con mèo, vì vậy mô hình đã làm việc!

Đối với hình ảnh thứ hai, mô hình có thể nói các giá trị logit là 1.004 cho một con mèo và 0.709 cho một con chó. Vì vậy, một lần nữa, mô hình của chúng tôi nói rằng hình ảnh của chúng tôi chứa một con mèo. Câu trả lời đúng là một lần nữa một con mèo, vì vậy mô hình làm việc một lần nữa!

Bây giờ chúng tôi muốn so sánh hai kết quả. Một cách để làm điều này là bình thường hóa điểm số. Đó là, chúng tôi bình thường hóa các bản ghi ! Làm điều này, chúng tôi có được một số hiểu biết sâu sắc về sự tự tin của mô hình của chúng tôi.

Chúng ta hãy sử dụng softmax , nơi tất cả các kết quả tổng hợp 1và vì vậy cho phép chúng ta nghĩ về chúng như xác suất:

σ(z)j=ezjk=1Kezkforj=1,,K.

Đối với hình ảnh thử nghiệm đầu tiên, chúng tôi nhận được

prob(cat)=exp(16.917)exp(16.917)+exp(0.772)=0.9999
prob(dog)=exp(0.772)exp(16.917)+exp(0.772)=0.0001

Nếu chúng ta làm tương tự cho hình ảnh thứ hai, chúng ta sẽ nhận được kết quả:

prob(cat)=exp(1.004)exp(1.004)+exp(0.709)=0.5732
prob(dog)=exp(0.709)exp(1.004)+exp(0.709)=0.4268

Mô hình không thực sự chắc chắn về hình ảnh thứ hai, vì nó rất gần với 50-50 - một phỏng đoán!

Phần cuối của trích dẫn từ câu hỏi của bạn có thể đề cập đến một mạng lưới thần kinh là mô hình. Các lớp của mạng nơ-ron thường lấy dữ liệu đầu vào, nhân số đó với một số tham số (trọng số) mà chúng ta muốn tìm hiểu, sau đó áp dụng một phi tuyến tínhhàm, cung cấp cho mô hình khả năng học các mối quan hệ phi tuyến tính. Nếu không có tính phi tuyến tính này, một mạng nơ ron sẽ chỉ là một danh sách các hoạt động tuyến tính, được thực hiện trên một số dữ liệu đầu vào, có nghĩa là nó chỉ có thể học các mối quan hệ tuyến tính. Đây sẽ là một hạn chế lớn, có nghĩa là mô hình luôn có thể được giảm xuống thành mô hình tuyến tính cơ bản. Điều đó đang được nói, nó không được coi là hữu ích khi áp dụng phi tuyến tính cho các đầu ra logit của một mô hình, vì bạn thường sẽ cắt bỏ một số thông tin, ngay trước khi dự đoán cuối cùng được đưa ra. Có một cái nhìn cho ý kiến ​​liên quan trong chủ đề này .


8

Nhật ký là điểm số cuối cùng không chuẩn hóa của mô hình của bạn. Bạn áp dụng softmax cho nó để có được phân phối xác suất trên các lớp của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.