Unicode

Z Jabber.cz Wiki
Přejít na: navigace, hledání

Unicode je standardizovaná tabulka znaků všech existujících písem. Kromě všech známých abeced (včetně japonského a čínského písma) obsahuje i vědecké a jiné symboly, piktogramy a další. Každý znak má jednoznačný číselný kód, takže v jednom dokumentu lze kombinovat např. češtinu, řečtinu a arabštinu.


UTF-8

UTF-8 (zkratka pro UCS Transformation Format) je kódování znaků Unicode do sekvencí bajtů. Jeden znak v UTF-8 zabírá jeden až šest bytů, přičemž znaky ASCII zabírají jeden byte a mají stejné kódování. Znaky s českou diakritikou v UTF-8 zabírají obvykle dva bajty a jedná se tak pro běžné texty o úspornější ukládání, než při použití Unicode/UCS.


Vztah ke XMPP

XMPP standard, konkrétně RFC 3920, vyžaduje, aby software pracoval s Unicode kódováním UTF-8 a výslovně zakazuje používání jiného. To zjednodušuje výměnu informací mezi klienty a platformami.


Externí odkazy