Definícia

UTF-8 (Unicode Transformation Format-8-bit) je štandard pre kódovanie znakov, ktorý dokáže reprezentovať takmer všetky písmená, symboly a znaky z rôznych jazykov na svete. Využíva premennú dĺžku, kde jeden znak môže byť zakódovaný od 1 do 4 bajtov, čo z neho robí efektívny formát pre web a digitálnu komunikáciu.

Popis

UTF-8 je najpoužívanejším kódovaním pre textové dokumenty, webové stránky a databázy, pretože podporuje celý unicode štandard, ktorý zahŕňa viac než 140 000 znakov z viac ako 150 písacích systémov. Vďaka premennému kódovaniu šetrí pamäť a priestor – bežné ASCII znaky sú uložené ako jeden bajt, zatiaľ čo znaky s diakritikou, ázijské písmo alebo emotikony môžu zaberať viac bajtov.

Formát UTF-8 bol vytvorený ako univerzálne riešenie na výmenu textu medzi systémami s rôznymi kódovacími štandardmi, a preto je spätne kompatibilný s ASCII. Tento formát je dnes základom pre väčšinu moderných aplikácií a online platforiem, kde sa vyžaduje podpora viacerých jazykov a znakov.

Aký je rozdiel medzi UTF-8 a ASCII?

ASCII kóduje len základné znaky anglickej abecedy a niektoré symboly v 1 bajte. UTF-8 je s ASCII kompatibilné, ale na rozdiel od neho dokáže kódovať znaky z mnohých rôznych jazykov a symbolov, a to pomocou 1 až 4 bajtov.

Ako zistím, či je dokument v kódovaní UTF-8?

Väčšina textových editorov a programov na správu dokumentov umožňuje zobraziť alebo nastaviť kódovanie textu. V HTML dokumentoch je možné kódovanie špecifikovať pomocou značky <meta charset=“UTF-8″> v hlavičke dokumentu.

Príklad

Ak napíšete text „ahoj“ v UTF-8, každý znak zaberie len 1 bajt, pretože sú to bežné znaky z ASCII. Ak však použijete znak s diakritikou, ako je napríklad é, tento znak bude v UTF-8 kódovaný dvomi bajtmi. Emotikon, napríklad 😊, bude potrebovať 4 bajty na svoje zakódovanie.