Lúng túng và entropy chéo cho các mô hình n-gram


10

Cố gắng để hiểu mối quan hệ giữa entropy chéo và bối rối. Nói chung cho một mô hình M , Perplexity (M) = 2 ^ entropy (M) . Có mối quan hệ này giữ cho tất cả các n-gram khác nhau, tức là unigram, bigram, vv?


Đó thực sự là định nghĩa của sự bối rối; điều có nguồn gốc từ nó;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Câu trả lời:


9

Vâng, sự bối rối luôn luôn bằng hai với sức mạnh của entropy. Không quan trọng bạn có loại mô hình nào, n-gram, unigram hoặc mạng lưới thần kinh.

Có một vài lý do tại sao những người làm mô hình ngôn ngữ thích sự bối rối thay vì chỉ sử dụng entropy. Một là, bởi vì số mũ, những cải thiện về "cảm giác" lúng túng giống như chúng đáng kể hơn so với cải tiến tương đương về entropy. Một điều nữa là trước khi họ bắt đầu sử dụng sự lúng túng, sự phức tạp của một mô hình ngôn ngữ đã được báo cáo bằng cách sử dụng phép đo hệ số phân nhánh đơn giản tương tự như sự bối rối so với entropy.


1

Đồng ý với câu trả lời @Aaron với một sửa đổi nhỏ:

Nó không phải luôn luôn bằng hai với sức mạnh của entropy. Trên thực tế, nó sẽ là (cơ sở cho nhật ký) với sức mạnh của entropy. Nếu bạn đã sử dụng e làm cơ sở của mình thì đó sẽ là e ^ entropy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.