UTF-8
Definícia
UTF-8 (Unicode Transformation Format-8-bit) je štandard pre kódovanie znakov, ktorý dokáže reprezentovať takmer všetky písmená, symboly a znaky z rôznych jazykov na svete. Využíva premennú dĺžku, kde jeden znak môže byť zakódovaný od 1 do 4 bajtov, čo z neho robí efektívny formát pre web a digitálnu komunikáciu.
Popis
UTF-8 je najpoužívanejším kódovaním pre textové dokumenty, webové stránky a databázy, pretože podporuje celý unicode štandard, ktorý zahŕňa viac než 140 000 znakov z viac ako 150 písacích systémov. Vďaka premennému kódovaniu šetrí pamäť a priestor – bežné ASCII znaky sú uložené ako jeden bajt, zatiaľ čo znaky s diakritikou, ázijské písmo alebo emotikony môžu zaberať viac bajtov.
Formát UTF-8 bol vytvorený ako univerzálne riešenie na výmenu textu medzi systémami s rôznymi kódovacími štandardmi, a preto je spätne kompatibilný s ASCII. Tento formát je dnes základom pre väčšinu moderných aplikácií a online platforiem, kde sa vyžaduje podpora viacerých jazykov a znakov.
Aký je rozdiel medzi UTF-8 a ASCII?
ASCII kóduje len základné znaky anglickej abecedy a niektoré symboly v 1 bajte. UTF-8 je s ASCII kompatibilné, ale na rozdiel od neho dokáže kódovať znaky z mnohých rôznych jazykov a symbolov, a to pomocou 1 až 4 bajtov.
Ako zistím, či je dokument v kódovaní UTF-8?
Väčšina textových editorov a programov na správu dokumentov umožňuje zobraziť alebo nastaviť kódovanie textu. V HTML dokumentoch je možné kódovanie špecifikovať pomocou značky <meta charset=“UTF-8″> v hlavičke dokumentu.
Príklad
Ak napíšete text „ahoj“ v UTF-8, každý znak zaberie len 1 bajt, pretože sú to bežné znaky z ASCII. Ak však použijete znak s diakritikou, ako je napríklad „é“, tento znak bude v UTF-8 kódovaný dvomi bajtmi. Emotikon, napríklad 😊, bude potrebovať 4 bajty na svoje zakódovanie.