Tập hợp con rõ ràng và rõ ràng của bảng chữ cái Latinh?


13

Hãy tưởng tượng bạn đưa cho ai đó một thẻ có mã "5SBDO0" trên đó.

Trong một số phông chữ, chữ "S" rất khó phân biệt trực quan với số năm, (như với số 0 và chữ "O").

Đọc mã lớn, có thể khó phân biệt "B" với "D", bắt buộc phải nói "B như ở bé trai", "D như ở chó" hoặc sử dụng " bảng chữ cái ngữ âm ".

Tập hợp con lớn nhất của các chữ cái và số sẽ, trong hầu hết các trường hợp, cả hai đều trông rõ ràng và nghe không rõ ràng khi đọc to?


Lý lịch:

Chúng tôi muốn tạo một chuỗi ngắn có thể mã hóa càng nhiều giá trị càng tốt trong khi vẫn dễ dàng giao tiếp.

Hãy tưởng tượng bạn có một chuỗi 6 ký tự, "123456". Trong cơ sở 10, điều này có thể mã hóa 10 ^ 6 giá trị.

Trong hex "1B23DF", bạn có thể mã hóa 16 ^ 6 giá trị trong cùng một số ký tự, nhưng điều này có thể nghe mơ hồ khi đọc to. ("B" so với "D")

Tương tự như vậy đối với bất kỳ chuỗi N ký tự nào, bạn nhận được (kích thước của bảng chữ cái) ^ N giá trị.

Chuỗi được giới hạn ở độ dài khoảng sáu ký tự, do muốn dễ dàng phù hợp với khả năng của bộ nhớ làm việc của con người .

Do đó, để tìm số lượng giá trị tối đa chúng ta có thể mã hóa, chúng ta cần tìm tập hợp chữ cái / số rõ ràng lớn nhất đó. Không có lý do gì chúng ta không thể xem xét các chữ cái GZ và một số dấu câu phổ biến, nhưng tôi không muốn phải so sánh theo cách thủ công so sánh "G có giống A không?", "G có giống B không?", " G nghe giống C "mình. Như chúng ta biết đây sẽ là công việc ngôn ngữ O (n ^ 2) phải làm =) ...


6
Lưu ý rằng những chữ cái được phát âm tương tự có thể khác nhau rất nhiều giữa các ngôn ngữ ...
Michael Borgwardt

Bên cạnh đó, những gì chính xác là các bảng chữ cái Latin?
MSalters

Xem thêm câu trả lời của tôi trong câu hỏi StackOverflow liên quan.
MSalters

Để phân biệt trực quan, Base 32 là một mã hóa tiêu chuẩn giới hạn sự tương đồng của các biểu tượng.
barjak

@MSalters "Tập lệnh Latin" là một ý tưởng ngôn ngữ học, vì mục đích của chúng tôi, tôi thực sự chỉ có nghĩa là "chọn từ tập hợp con của tập lệnh Latin được mã hóa thành Unicode", ví dụ en.wikipedia.org/wiki/ISO/IEC_8859-1
elliot42

Câu trả lời:


15

Bạn nên phân vùng tập hợp chữ và số thành các nhóm theo độ tương tự trực quan và chọn một đại diện có tính biểu tượng nhất từ ​​mỗi nhóm. Điều này hơi chủ quan, mặc dù bạn có thể chạy thử nghiệm người dùng trên nó. Các lựa chọn bạn thực hiện cũng phụ thuộc vào việc các số liệu sẽ được in hoặc viết tay. Ví dụ:

  • { O , 0 , Q , D }

  • { Tôi , L , 1 }

  • { B , 8 }

  • { Z , 2 }

  • { S , 5 }

  • { 7 , T }

  • { U , V , Y }

Tương tự, các ký tự phân vùng theo sự giống nhau về ngữ âm của cách phát âm tên của chúng:

  • { A [eɪ], 8 [eɪ (ʔ / t)]}
    = bắt đầu bằng [eɪ]

  • { P [pi:], B [bi:], V [vi:], D [di:], T [ti:], E [i:]}
    = stop / fricative + [i:]

  • { G [i:], C [si:], Z [zi:], 3 [i:]}
    = fricative / affricate (cluster) + [i:]

  • { M [m], N [n]}
    = [ɛ] + mũi

  • { S [ s ], F [f], X [ɛks]}
    = [ɛ] + ma sát / tình cảm

  • { I [aɪ], Y [waɪ], 5 [faɪv], 9 [naɪn]}
    = phụ âm + [aɪ] + (phụ âm)

  • { Q [kjʉ:], U [jʉ:], 2 [t (j) ʉ:]}
    = phụ âm + [(j) ʉ:]

Tất nhiên, đây không phải là phân vùng duy nhất có thể, chỉ là những gì bạn nghĩ đến vào lúc này. Bất kể, chúng nên đủ để giúp bạn bắt đầu thử nghiệm thêm. Ngoài ra, những điều này không được hỗ trợ bởi bất kỳ nguồn chuyên nghiệp nào. Tôi chỉ trích dẫn nền tảng sở thích của mình về kiểu chữ và ngữ âm.


3
Để bắt đầu với sự tương tự về thính giác, hãy xem các thông tin liên lạc vô tuyến như hướng dẫn sử dụng Kiểm soát không lưu (nơi giao tiếp bằng lời nói phải được giải thích chính xác hoặc mọi người chết) và Ham Radio. Ví dụ 5 và 9 rất dễ trộn lẫn, do đó được gọi là "năm" và "chín-a"
mattnz

@mattnz: Cảm ơn, tôi đã quên 5 và 9. Chất lượng âm thanh cũng là một yếu tố lớn: radio, điện thoại, ghi âm trong phòng thu và liên lạc trực tiếp đều đặt ra những vấn đề độc đáo của riêng họ.
Jon Purdy

1
Về mặt kỹ thuật đó là "niner", bốn là "fower".
Patrick Hughes

3

Bạn có thể sử dụng Mechanical Turk để có người thực đánh giá tất cả 26 ^ 2 cặp chữ cái cho sự tương đồng về mặt âm thanh và hình ảnh. Ưu điểm là bạn thậm chí có thể lấy dữ liệu cho các ngôn ngữ bản địa khác nhau theo cách này.


1

Đối với tiếng Anh, SoundexMetaphone thuật toán mã hóa mà âm thanh rất mơ hồ. Soundex có lẽ quá đơn giản, nhưng Metaphone kết hợp một số điểm tốt. Bạn có muốn chuỗi "OU" không? Điều đó có thể được phát âm theo nhiều cách, vì câu này khử từ;)


0

Câu trả lời của Jon Purdy ở trên có vẻ đúng nhất. Đối với các mục đích thực tế, tôi đang cố gắng z-base-32, một mã hóa cơ sở 32 không chuẩn được thiết kế với khả năng giao tiếp trong tâm trí. Nó trông có vẻ chức năng, mặc dù không lý tưởng - ví dụ như họ rõ ràng không tập trung vào sự định hướng nói.

http://philzimmermann.com/docs/human-oriented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.