Có, bạn đúng rằng thiếu sự nhận dạng trừ khi một trong các vectơ hệ số được cố định. Có một số lý do không đề cập đến điều này. Tôi không thể nói lý do tại sao họ bỏ qua chi tiết này, nhưng đây là một lời giải thích về nó là gì và cách khắc phục nó.
Sự miêu tả
Giả sử bạn có các quan sát và các dự đoán , trong đó đi từ đến và biểu thị số / chỉ số quan sát. Bạn sẽ cần phải ước tính chiều hệ số vectơ .yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
Hàm softmax thực sự được định nghĩa là
có các thuộc tính tốt như tính khác biệt, tổng của nó là , v.v.softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
Hồi quy logistic đa thức sử dụng hàm softmax cho mỗi lần quan sát trên vectơ
i⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
có nghĩa là
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Vấn đề
Tuy nhiên, khả năng không thể xác định được vì nhiều bộ sưu tập tham số sẽ cho khả năng giống nhau. Ví dụ: dịch chuyển tất cả các vectơ hệ số theo cùng một vectơ sẽ tạo ra khả năng tương tự. Điều này có thể được nhìn thấy nếu bạn nhân từng tử số và mẫu số của từng phần tử của vectơ với hằng số , không có gì thay đổi:cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Sửa nó
Cách để khắc phục điều này là hạn chế các tham số. Sửa một trong số chúng sẽ dẫn đến nhận dạng, bởi vì thay đổi tất cả chúng sẽ không còn được phép.
Có hai lựa chọn phổ biến:
- đặt , có nghĩa là (bạn đề cập đến cái này) vàc=β0β0=0
- đặt , có nghĩa là .c=βK−1βK−1=0
Bỏ qua nó
Đôi khi, sự hạn chế không cần thiết, mặc dù. Chẳng hạn, nếu bạn quan tâm đến việc hình thành khoảng tin cậy cho số lượng , thì đây cũng giống như , vì vậy hãy suy luận về số lượng tương đối không thực sự quan trọng. Ngoài ra, nếu nhiệm vụ của bạn là dự đoán thay vì suy luận tham số, dự đoán của bạn sẽ không bị ảnh hưởng nếu tất cả các vectơ hệ số được ước tính (không ràng buộc một).β01−β21β01−c−[β21−c]