Sự khác biệt giữa thông tin của người Viking và thông tin hữu ích của người Bỉ trong lý thuyết thông tin thuật toán


16

Theo Wikipedia :

Một cách không chính thức, từ quan điểm của lý thuyết thông tin thuật toán, nội dung thông tin của một chuỗi tương đương với độ dài của biểu diễn tự chứa ngắn nhất có thể có của chuỗi đó.

Định nghĩa nghiêm ngặt không chính thức tương tự của "thông tin hữu ích" là gì? Tại sao "thông tin hữu ích" không được coi là khái niệm tự nhiên hơn hoặc cơ bản hơn; Theo định nghĩa, dường như một chuỗi hoàn toàn ngẫu nhiên phải chứa thông tin bằng không, vì vậy tôi đang cố gắng tìm hiểu thực tế rằng nó được coi là có thông tin tối đa theo định nghĩa chuẩn.


2
Chào mừng bạn Xin lưu ý rằng bạn có thể thay đổi tên người dùng của mình thành thứ mà mọi người có thể nhận ra khi bạn trở thành khách truy cập thường xuyên.
Raphael

Câu trả lời:


12

Khái niệm trung tâm ở đây là độ phức tạp Kolmogorov , và cụ thể hơn là độ nén . Để có được cảm giác nén trực quan, hãy xem xét hai chuỗi và , trong đó . Để cho B B * B = { 0 , 1 }ABBBB={0,1}

1010 1010 1010A=1010 1010 1010 1010

0110 0111 1001B=1011 0110 0111 1001 .

Lưu ý rằng . Làm thế nào chúng ta có thể định lượng được bao nhiêu thông tin hoặc có? Nếu chúng ta nghĩ về lý thuyết thông tin cổ điển, nói chung, việc truyền một chuỗi có độ dài trung bình mất bit. Tuy nhiên, chúng ta không thể nói có bao nhiêu bit chúng ta cần để truyền một chuỗi có độ dài cụ thể .A B n n n|A|=|B|=16ABnnn

Tại sao nội dung thông tin của một chuỗi ngẫu nhiên không bằng không?

Nhìn kỹ hơn, chúng ta có thể thấy rằng trên thực tế . Tuy nhiên, nó là khó khăn hơn nhiều để nói nếu có bất kỳ mô hình rõ ràng trong cấu trúc của nó, ít nhất nó dườngcảm thấy nhiều ngẫu nhiên hơn . Vì chúng ta có thể tìm thấy một mẫu trong , chúng ta có thể dễ dàng nén và biểu diễn nó với ít hơn bit. Tương tự như vậy, vì không dễ để phát hiện bất kỳ mẫu nào trong , chúng tôi không thể nén nó nhiều như vậy. Vì vậy chúng tôi có thể nói rằng có nhiều thông tin hơn . Hơn nữa, một chuỗi ngẫu nhiên có độ dàiA=108A A A 16 B B A n nBAAA16BBAncó thông tin tối đa vì không có cách nào chúng ta có thể nén nó, và do đó đại diện cho nó với ít hơn bit.n

Thông tin hữu ích là gì?

Đối với thông tin hữu ích , vâng, có một định nghĩa sử dụng một máy Turing . Thông tin hữu ích trong làx B *TxB

minT { l(T)+C(x|T):T{T0,T1,...}},

nơi biểu thị chiều dài của một mã hóa tự giới hạn cho một máy Turing . Ký hiệu thường là sao cho biểu thị độ phức tạp Kolmogorov của và độ phức tạp Kolmogorov có điều kiện của cho .l(T)TC(x)xC(x|y)xy

Ở đây thể hiện lượng thông tin hữu ích có trong . Những gì chúng ta có thể yêu cầu là chọn như vậy trong số những người đáp ứng yêu cầu. Vấn đề là tách một chương trình ngắn nhất thành các phần st đại diện cho một thích hợp . Đây thực sự là ý tưởng tạo ra chiều dài mô tả tối thiểu (MDL) .TxTxx=pqpT


4

Nó có thể là do "hữu ích" là khó xác định. Giả sử chúng ta có một thông điệp có cấu trúc cao, giàu thông tin , có thể được nén nhiều nhất theo hệ số cho thông điệp . Theo trực giác, và chứa cùng một lượng thông tin hữu ích; thật vậy, chúng chứa cùng một lượng thông tin theo định nghĩa thông thường. Bây giờ hãy tưởng tượng một tiền tố của có cùng độ dài với ; không nên chứa nhiều thông tin hữu ích hơn , do đó, không nhiều hơn . Tuy nhiên, là "ngẫu nhiên" hơn , vìxαyxyzxyxyyzzcó thể được nén và không thể. Vì vậy, nếu chúng ta cố gắng liên kết thông tin "hữu ích" với khả năng nén, chúng ta có thể gặp phải nghịch lý sau: tiền tố của tin nhắn có thể có thông tin "hữu ích" cao hơn toàn bộ tin nhắn, dường như là một mâu thuẫn.y


Có thể khó định nghĩa, và có thể là nó không thể dựa một cách tầm thường vào khả năng nén theo cách "thông tin", nhưng có vẻ như định nghĩa quan trọng hơn! Vì thế, "thông tin" dường như là một bí danh cho "độ phức tạp Kolmogorov", thay vì một nỗ lực nghiêm túc để xác định thông tin theo nghĩa thông thường, theo định nghĩa, trong các bối cảnh khác, phải có ích! Đây có phải là một lĩnh vực hoạt động nghiên cứu? Có bất kỳ định nghĩa đề xuất?
dùng1247

@ user1247 Tại sao bạn thấy sự phức tạp của Kolmogorov là không nghiêm trọng?
Juho

@mrm Tôi thấy đó là một khái niệm rất nghiêm túc và thú vị, nhưng tôi không thoải mái khi gọi khái niệm đó là "thông tin". Điều đó có nghĩa gì đối với một chuỗi hoàn toàn ngẫu nhiên để chứa thông tin? "Thông tin hữu ích" có vẻ phù hợp và thú vị hơn khi nói về thông tin (trong đó "hữu ích" là ẩn) trong thế giới thực, trong các cuộc thảo luận cơ học triết học hoặc lượng tử về thông tin được truyền hoặc nhận, chẳng hạn.
dùng1247

1
@ user1247 Một cách thú vị để giải thích câu trả lời của tôi là: thông tin chỉ hữu ích hoặc vô dụng dựa trên cách nó được diễn giải. Đối với một diễn giải cố định, một tin nhắn có thể có nhiều hoặc ít thông tin hữu ích hơn thông điệp khác. Bất kỳ lý thuyết nào về thông tin hữu ích, theo tôi, cần phải tính đến những diễn giải như vậy (các biện pháp thông thường như entropy cũng làm điều này, mặc dù mặc nhiên).
Patrick87

@ Patrick87 Tôi hoàn toàn đồng ý rằng mọi lý thuyết tốt về "thông tin hữu ích" đều nên tính đến cơ chế giải mã. Đó là những gì làm cho nó một vấn đề thú vị! Nếu bạn gửi cho tôi một chuỗi bit và về nguyên tắc tôi không thể giải mã nó, thì nó sẽ được xác định để không chứa thông tin hữu ích.
dùng1247

4

Từ quan điểm ít chính thức hơn, tôi nghĩ có thể hữu ích nếu bạn tách mình khỏi từ "ngẫu nhiên", vì bạn đúng rằng một tập hợp các bit thực sự ngẫu nhiên không lưu trữ bất kỳ thông tin nào theo nghĩa thực tế. (Nếu tôi mã hóa một tập hợp các tên và gửi các giá trị được mã hóa cho bạn, chúng có thể có độ phức tạp Kolmogorov rất cao nhưng nó sẽ không giúp bạn tìm ra các tên đó).

Nhưng hãy nghĩ về nó theo cách này. Nếu bạn thấy một trang web bằng tiếng nước ngoài (nói tiếng Thụy Điển, giả sử bạn không nói nó) thì nó sẽ trông ít nhiều ngẫu nhiên. Sẽ có một số thứ tự cho các từ, nhưng không nhiều. Tuy nhiên, nếu bạn xem một trang web có văn bản giống như thế này: 123456123456123456123456 ... và cứ thế, bạn sẽ có thể hiểu nó nhanh hơn. Nếu bạn không nói tiếng Thụy Điển, có lẽ bạn sẽ có thể tận dụng được nhiều hơn từ nó, ngay cả khi trang web của Thụy Điển nói tương đương với "sáu số đầu tiên được lặp lại liên tục". Các trang web chứa thông tin tương tự, nhưng một cái nhìn ngẫu nhiên với bạn. Và đối với dung lượng, trang bạn hiểu là kém hiệu quả hơn trang web của Thụy Điển, mặc dù nó lưu trữ thông tin tương tự. Bạn có thể không thấy thông tin này "hữu ích" vì nó '

Khái niệm "thông tin" có nghĩa là phổ quát, vì vậy những gì trông giống như ngẫu nhiên - và do đó vô dụng - các bit đối với bạn có thể lưu trữ rất nhiều thông tin cho người khác. Thước đo thông tin được dự định là một thuộc tính nội tại của chuỗi và không thể phụ thuộc vào những gì không và không có ý nghĩa với bạn, và những gì bạn có thể và không thể giải thích.

Một điểm khác (kỹ thuật hơn) có thể giúp ích là tôi hơi bất cẩn ở đây. Như Juho chỉ ra, thông tin định nghĩa liên quan đến người giải thích nó. Bạn có thể thấy trang web của Thụy Điển hoàn toàn vô dụng như một phương tiện thông tin, nhưng ai đó nói tiếng Thụy Điển có thể thấy nó có rất nhiều thông tin. Định nghĩa không phản ánh điều này. Tuy nhiên, từ toán học, chúng ta có thể biết rằng sự khác biệt giữa trang web ngắn nhất (nhiều thông tin nhất cho không gian) để truyền đạt trang web này đến bạn và trang web ngắn nhất có thể giao tiếp với người nói tiếng Thụy Điển chỉ có thể khác nhau bởi hằng số phụ gia. Tại sao? Bởi vì đối với bạn, là một người không nói tiếng Thụy Điển, cách ngắn nhất để lưu trữ trang mà bạn có thể hiểu là "sáu số nguyên đầu tiên được lặp lại liên tục". Điều này có thể dài hơn một chút so với Thụy Điển.

Nhưng ngay cả khi bạn có thể nói tiếng Thụy Điển, bạn chỉ có thể cắt hằng số phụ gia từ độ dài! Tại sao? Bởi vì bạn luôn có thể đi mua một từ điển Thụy Điển-Anh. Sau đó, các trang web Thụy Điển siêu ngắn sẽ có ý nghĩa với bạn. Chắc chắn, chúng chỉ có ý nghĩa khi bạn có từ điển, nhưng từ điển có độ dài không đổi. Vì vậy

(Most efficient representation of information in English)(Most efficient representation in Swedish)+(Length of Swedish-English dictionary)
. Điều này nhận được một chút lạc đề từ câu hỏi ban đầu của bạn, nhưng điểm tôi đang cố gắng đưa ra là nó không quan trọng quá nhiều người đang đọc thông tin. Trang web Thụy Điển trông ngẫu nhiên không "hữu ích" với bạn, nhưng nó "hữu ích" với người khác và bạn chỉ có một lượng thông tin không thể tự mình sử dụng.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.