Unicode: Porovnání verzí
m (fixed copy & paste) |
(Žádný rozdíl)
|
Aktuální verze z 27. 9. 2006, 06:08
Unicode je standardizovaná tabulka znaků všech existujících písem. Kromě všech známých abeced (včetně japonského a čínského písma) obsahuje i vědecké a jiné symboly, piktogramy a další. Každý znak má jednoznačný číselný kód, takže v jednom dokumentu lze kombinovat např. češtinu, řečtinu a arabštinu.
UTF-8
UTF-8 (zkratka pro UCS Transformation Format) je kódování znaků Unicode do sekvencí bajtů. Jeden znak v UTF-8 zabírá jeden až šest bytů, přičemž znaky ASCII zabírají jeden byte a mají stejné kódování. Znaky s českou diakritikou v UTF-8 zabírají obvykle dva bajty a jedná se tak pro běžné texty o úspornější ukládání, než při použití Unicode/UCS.
Vztah ke XMPP
XMPP standard, konkrétně RFC 3920, vyžaduje, aby software pracoval s Unicode kódováním UTF-8 a výslovně zakazuje používání jiného. To zjednodušuje výměnu informací mezi klienty a platformami.
Externí odkazy
- Unicode (Wikipedia, česky)
- UTF-8 (Wikipedia, česky)
- Unicode (Wikipedia, anglicky)
- UTF-8 (Wikipedia, anglicky)
- XMPP Core, Character Encoding (xmpp.org, anglicky)