Úvodní stránka | Tato stránka v originále

UTF-8

UTF-8 (8 -kousek Unikódový transformační formát) je různě dlouhý kódování charakteru to je používáno reprezentovat Unikód- zakódoval text používat proud bajtů.

Tabulka s obsahem
1 popis
2 výhody
3 Disadvantages
4 vnější spojení

Popis

UTF-8 je současně normalizován jako RFC 3629 (UTF-8, formát transformace ISO 10646), který je docela rozsáhlý a detailní. Nicméně, krátký přehled je přinesen dole, v případě že čtenář je zainteresovaný jen v obecném přehledu.

Charaktery, které jsou menší než 128 být zakódován s jediným bajtem, který obsahuje jejich hodnotu: tito si odpovídají přesně k 128 7 -kousek ASCII charaktery. V ostatních případech, několik bajtů je vyžadováno a pak vrchní kousek každého bajtu je 1, v objednávce jich být vždy větší než 127 a ne vypadat jako některý 7-kousl ASCII znaky (zvláště ones užitý na kontrolu, např. řádkový předěl). Zakódovaný charakter je rozdělen do několika skupin kousků, který být pak rozdělen mezi nižší pozice uvnitř těchto bajtů.

Rozsah kódu
hexadecimální
UTF-16UTF-8
binární
Poznámky
000000 - 00007F00000000 0xxxxxxx0xxxxxxxASCII rovnocennost rozsah; bajt začne nulou
000080 - 0007FF00000xxx xxxxxxxx10xxxxxx 110xxxxxprvní bajt začne 11, následující bajt (s) začít 10
000800 - 00FFFFxxxxxxxx xxxxxxxx1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF110110xx xxxxxxxx
110111xx xxxxxxxx
10xxxxxx 11110xxx 10xxxxxx 10xxxxxxUTF-16 vyžaduje náhrady; vyrovnaný 0x10000 je odečten, tak vzor kousku není totožný s UTF-8

Například, alef charakteru (?), který je 0x05D0 unikóda, je zakódován do UTF-8 tímto způsobem:

Tak prvních 128 charakterů potřebuje jeden bajt. Dalších 1920 charakterů potřebuje dva bajty kódovat. Toto zahrnuje Řeka, Cyrillic, Coptic, Armenian, Hebrejský, a Arabské charaktery. Zbytek UCS-2 charaktery používají tři bajty a další charaktery jsou zakódovány v 4 bajtech. (An dříve UTF-8 specifikace dovolila ještě vyšší kódové body být reprezentován, používání 5 nebo 6 bajtů, ale toto je už ne podporováno.)

Výhody

Disadvantages

Externí odkazy