Lúng túng là gì?


42

Tôi đã bắt gặp thuật ngữ lúng túng trong đó đề cập đến xác suất nghịch đảo trung bình log trên dữ liệu không nhìn thấy. Bài viết trên Wikipedia về sự bối rối không mang lại ý nghĩa trực quan cho cùng.

Biện pháp lúng túng này đã được sử dụng trong giấy pLSA .

Bất cứ ai có thể giải thích sự cần thiết và ý nghĩa trực quan của biện pháp bối rối ?


Làm thế nào để tôi tính toán sự bối rối cho pLSA. Tôi có datamatrix có số đếm và theo thuật toán TEM và được tính toán. p ( d ) p ( w | d )Xp(d)p(w|d)
Học viên

3
Tôi đã kiểm tra các chỉ số của 5 cuốn sách phân tích dự đoán / học máy / khai thác dữ liệu của Nisbett, Larose, Witten, Torgo và Shemueli (cộng với các đồng tác giả) và thuật ngữ này không xảy ra trong bất kỳ cuốn sách nào. Tôi đang bối rối :)
zbicyclist

1
Perplexity là một tên ưa thích khác cho sự không chắc chắn. Nó có thể được coi là một đánh giá nội tại chống lại đánh giá bên ngoài. Jan Jurafsky giải thích điều đó một cách tao nhã với các ví dụ phù hợp với mô hình ngôn ngữ tại đây tại youtube.com/watch?v=BAN3NB_SNHY
bicepjai

2
@zbicyclist, Nếu bạn đang tìm kiếm các ví dụ trong tự nhiên, nó đặc biệt phổ biến trong NLP và đặc biệt để đánh giá những thứ như mô hình ngôn ngữ.
Matt Krause

Trong một số lĩnh vực (ví dụ kinh tế học), người ta nói về các con số tương đương sao cho ví dụ trong đó là entropy dựa trên logarit tự nhiên là một số lượng tương đương các loại phổ biến tương đương. Vì vậy, hai loại mỗi loại có xác suất entropy 0,5 là và lũy thừa được lấy lại 2 là số lượng các loại phổ biến như nhau. Đối với xác suất không bằng nhau, các số tương đương không phải là một số nguyên nói chung. H ln 2exp(H)Hln2
Nick Cox

Câu trả lời:


21

Bạn đã xem bài viết Wikipedia về sự bối rối . Nó mang lại sự bối rối của một phân phối rời rạc như

2xp(x)log2p(x)

cũng có thể được viết là

exp(xp(x)loge1p(x))

tức là như một trung bình hình học có trọng số của các nghịch đảo của xác suất. Đối với phân phối liên tục, tổng sẽ biến thành một tích phân.

Bài viết cũng đưa ra cách ước tính sự bối rối cho một mô hình bằng cách sử dụng mẩu dữ liệu thử nghiệmN

2i=1N1Nlog2q(xi)

cũng có thể được viết

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

hoặc theo nhiều cách khác nhau, và điều này sẽ làm cho nó rõ ràng hơn nữa đến từ "xác suất nghịch đảo trung bình log" đến từ đâu.


Có sự phân biệt cụ thể nào giữa khi e được sử dụng như số mũ chứ không phải 2 không?
Henry E

2
@HenryE: không, và cơ sở logarit chung cũng sẽ hoạt động - logarit ở các cơ sở khác nhau tỷ lệ với nhau và rõ rànga log a x = b log b x10alogax=blogbx
Henry

Tôi đã tìm ra nhiều. Tôi đã bắt gặp câu trả lời này khi tôi đang cố gắng hiểu tại sao một đoạn mã lại sử dụng e để tính toán sự bối rối khi tất cả các công thức khác mà tôi thấy trước đây đã sử dụng 2. Tôi nhận ra bây giờ quan trọng như thế nào để biết giá trị của khung là gì sử dụng làm cơ sở cho việc tính toán tổn thất log
Henry E

27

Tôi thấy điều này khá trực quan:

Sự lúng túng của bất cứ điều gì bạn đang đánh giá, trên dữ liệu bạn đang đánh giá nó, sẽ cho bạn biết "điều này đúng thường xuyên như một cái chết x-side".

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


Đó là một bài viết thú vị; có thể không sâu sắc nhưng đọc giới thiệu tốt.
Monica Heddneck

1
Tôi cũng thấy bài viết này hữu ích, jamesmccaffrey.wordpress.com/2016/08/16/ trên
user2561747

11

Tôi cũng đã tự hỏi điều này. Lời giải thích đầu tiên không tệ, nhưng đây là 2 câu chuyện của tôi cho bất cứ điều gì đáng giá.


Trước hết, sự bối rối không liên quan gì đến việc mô tả mức độ thường xuyên bạn đoán đúng. Nó có liên quan nhiều hơn đến việc mô tả sự phức tạp của một chuỗi ngẫu nhiên.

Chúng tôi đang xem xét một số lượng,

2xp(x)log2p(x)

Trước tiên hãy hủy bỏ nhật ký và lũy thừa.

2xp(x)log2p(x)=1xp(x)p(x)

Tôi nghĩ rằng đáng để chỉ ra rằng sự bối rối là bất biến với cơ sở bạn sử dụng để xác định entropy. Vì vậy, theo nghĩa này, sự bối rối là vô cùng độc đáo / ít độc đoán hơn so với entropy như một phép đo.

Mối quan hệ với súc sắc

Hãy chơi với điều này một chút. Hãy nói rằng bạn chỉ đang nhìn vào một đồng tiền. Khi đồng tiền công bằng, entropy ở mức tối đa và độ khó hiểu tối đa là

11212×1212=2

Bây giờ điều gì xảy ra khi chúng ta nhìn vào một con xúc xắc mặt? Lo lắng làN

1(1N1N)N=N

Vì vậy, sự bối rối đại diện cho số cạnh của một khuôn công bằng mà khi được cuộn, tạo ra một chuỗi có cùng entropy như phân phối xác suất đã cho của bạn.

Số quốc gia

OK, vì vậy bây giờ chúng ta có một định nghĩa trực quan về sự bối rối, hãy xem nhanh cách nó bị ảnh hưởng bởi số lượng trạng thái trong một mô hình. Hãy bắt đầu với phân phối xác suất trên các trạng thái và tạo phân phối xác suất mới trên các trạng thái sao cho tỷ lệ khả năng của các trạng thái ban đầu vẫn giữ nguyên và trạng thái mới có xác suất . Trong trường hợp bắt đầu với một khuôn mặt công bằng , chúng ta có thể tưởng tượng việc tạo ra một mặt chết mới sao cho mặt mới được cuộn với xác suất và gốcNN+1NϵNN+1ϵNcác mặt được cuộn với khả năng như nhau. Vì vậy, trong trường hợp phân phối xác suất ban đầu tùy ý, nếu xác suất của mỗi trạng thái được đưa ra bởi , phân phối mới của trạng thái ban đầu được đưa ra trạng thái mới sẽ là và sự bối rối mới sẽ được đưa ra bởi:xpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

Trong giới hạn là , đại lượng này tiếp cậnϵ0

1xNpxpx

Vì vậy, khi bạn làm cho việc lăn một bên của cái chết ngày càng khó xảy ra, sự bối rối cuối cùng trông như thể bên đó không tồn tại.


3
Chắc chắn đó chỉ có giá trị ~ 1,39 nats?
Matt Krause

Bạn có thể giải thích cách bạn nhận được ? Tôi chỉ có thể làm
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
dùng2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
Alex Eftimiades

5

Thực sự có một mối liên hệ rõ ràng giữa sự bối rối và tỷ lệ đoán chính xác một giá trị từ một phân phối, được đưa ra bởi Lý thuyết Thông tin của Cover 2ed (2.146): Nếu và là các biến iid, thìXX

P(X=X)2H(X)=12H(X)=1perplexity (1)

Để giải thích, độ khó của phân phối đồng đều X chỉ là | X |, số lượng phần tử. Nếu chúng ta cố gắng đoán các giá trị mà các mẫu iid từ phân phối đồng đều X sẽ lấy bằng cách chỉ cần đoán iid từ X, chúng ta sẽ đúng 1 / | X | = 1 / bối rối về thời gian. Vì phân phối đồng đều là giá trị khó đoán nhất, nên chúng ta có thể sử dụng 1 / perplexity như một xấp xỉ giới hạn / heuristic thấp hơn cho tần suất dự đoán của chúng ta sẽ đúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.