Câu trả lời:
Các bản ghi được hiểu là các dự đoán (hoặc đầu ra) không chuẩn hóa (hoặc chưa được chuẩn hóa ) của một mô hình. Chúng có thể cho kết quả, nhưng chúng ta thường không dừng lại với các bản ghi, vì việc diễn giải các giá trị thô của chúng không dễ dàng.
Hãy nhìn vào định nghĩa của họ để giúp đỡ hiểu làm thế nào logits được sản xuất.
Chúng tôi muốn đào tạo một mô hình học cách phân loại mèo và chó, sử dụng những bức ảnh mà mỗi con chứa một con mèo hoặc một con chó. Bạn xây dựng một mô hình cung cấp cho nó một số dữ liệu bạn có để xấp xỉ ánh xạ giữa các hình ảnh và dự đoán. Sau đó, bạn cung cấp cho mô hình một số ảnh chưa xem để kiểm tra độ chính xác dự đoán của nó trên dữ liệu mới. Khi chúng tôi có một vấn đề phân loại (chúng tôi đang cố gắng đặt mỗi ảnh vào một trong hai lớp), mô hình sẽ cho chúng tôi hai điểm cho mỗi hình ảnh đầu vào. Một điểm cho khả năng nó tin hình ảnh có chứa một con mèo, và sau đó một điểm cho niềm tin của nó rằng hình ảnh có chứa một con chó.
Có lẽ đối với hình ảnh mới đầu tiên, bạn nhận được các giá trị logit từ 16.917
một con mèo và sau đó 0.772
cho một con chó. Cao hơn có nghĩa là tốt hơn, hoặc ('nhiều khả năng'), vì vậy bạn nói rằng một con mèo là câu trả lời. Câu trả lời đúng là một con mèo, vì vậy mô hình đã làm việc!
Đối với hình ảnh thứ hai, mô hình có thể nói các giá trị logit là 1.004 cho một con mèo và 0.709 cho một con chó. Vì vậy, một lần nữa, mô hình của chúng tôi nói rằng hình ảnh của chúng tôi chứa một con mèo. Câu trả lời đúng là một lần nữa một con mèo, vì vậy mô hình làm việc một lần nữa!
Bây giờ chúng tôi muốn so sánh hai kết quả. Một cách để làm điều này là bình thường hóa điểm số. Đó là, chúng tôi bình thường hóa các bản ghi ! Làm điều này, chúng tôi có được một số hiểu biết sâu sắc về sự tự tin của mô hình của chúng tôi.
Chúng ta hãy sử dụng softmax , nơi tất cả các kết quả tổng hợp 1
và vì vậy cho phép chúng ta nghĩ về chúng như xác suất:
Đối với hình ảnh thử nghiệm đầu tiên, chúng tôi nhận được
Nếu chúng ta làm tương tự cho hình ảnh thứ hai, chúng ta sẽ nhận được kết quả:
Mô hình không thực sự chắc chắn về hình ảnh thứ hai, vì nó rất gần với 50-50 - một phỏng đoán!
Phần cuối của trích dẫn từ câu hỏi của bạn có thể đề cập đến một mạng lưới thần kinh là mô hình. Các lớp của mạng nơ-ron thường lấy dữ liệu đầu vào, nhân số đó với một số tham số (trọng số) mà chúng ta muốn tìm hiểu, sau đó áp dụng một phi tuyến tínhhàm, cung cấp cho mô hình khả năng học các mối quan hệ phi tuyến tính. Nếu không có tính phi tuyến tính này, một mạng nơ ron sẽ chỉ là một danh sách các hoạt động tuyến tính, được thực hiện trên một số dữ liệu đầu vào, có nghĩa là nó chỉ có thể học các mối quan hệ tuyến tính. Đây sẽ là một hạn chế lớn, có nghĩa là mô hình luôn có thể được giảm xuống thành mô hình tuyến tính cơ bản. Điều đó đang được nói, nó không được coi là hữu ích khi áp dụng phi tuyến tính cho các đầu ra logit của một mô hình, vì bạn thường sẽ cắt bỏ một số thông tin, ngay trước khi dự đoán cuối cùng được đưa ra. Có một cái nhìn cho ý kiến liên quan trong chủ đề này .
Nhật ký là điểm số cuối cùng không chuẩn hóa của mô hình của bạn. Bạn áp dụng softmax cho nó để có được phân phối xác suất trên các lớp của bạn.