# Character encoding

Character encoding vertelt de computer hoe nullen en enen in echte karakters moeten worden omgezet. Het doet dit meestal door nummers te koppelen aan tekens. Woorden en zinnen in tekst worden gemaakt van tekens en deze tekens worden gegroepeerd in een tekenset. Er zijn momenteel veel verschillende soorten ‘character encoding’, maar de meest voorkomende zijn ASCII-, 8-bit-coderingen en Unicode-gebaseerde coderingen.

# ASCII

ASCII is een character-encoding schema en het was de eerste character-encoding standaard. Het is een code voor het weergeven van Engelse karakters als cijfers, waarbij aan elke letter een cijfer van 0 tot 127 wordt toegekend. De meeste moderne character-encoding schema’s zijn gebaseerd op ASCII, hoewel ze veel extra karakters ondersteunen. Het is een single byte-codering die alleen de onderste 7 bits gebruikt. In een ASCII-bestand wordt elk alfabetisch, numeriek of speciaal teken weergegeven met een 7-bits binair getal.

# ANSI

ANSI-codes (American National Standards Institute) zijn gestandaardiseerde numerieke of alfabetische codes die zijn uitgegeven door het American National Standards Institute om een uniforme identificatie van geografische entiteiten door alle federale overheidsinstanties te garanderen. Het heeft meer dan 90 jaar gediend als coördinator van het standaardisatiesysteem van de Amerikaanse particuliere sector. Dit is in wezen een uitbreiding van de ASCII-tekenset in die zin dat het alle ASCII-tekens bevat met nog eens 128-tekencodes. ASCII definieert alleen een 7-bits codetabel met 128 symbolen. ANSI breidt dit uit tot 8 bit en er zijn verschillende codetabellen voor de symbolen 128 tot 255.

# Unicode

Unicode is een standaard die het interne tekstcoderingssysteem definieert in bijna alle besturingssystemen die momenteel in computers worden gebruikt, of het nu Windows, Unix, Macintosh, Linux of wat dan ook is. Zolang de client de lettertypes voor de specifieke taal op zijn systeem heeft geïnstalleerd zal hij bijna alle moderne talen en zelfs enkele oude talen kunnen verwerken.

Zie ook

Lijst van Unicode Characters (opens new window)

# UTF

Unicode kent elk teken een uniek nummer of codepunt toe. Het definieert twee toewijzingsmethoden, de UTF-coderingen (Unicode Transformation Format) en de UCS-coderingen (Universal Character Set). Op Unicode gebaseerde coderingen implementeren de Unicode-standaard en omvatten UTF-8, UTF-16 en UTF-32/UCS-4. Ze gaan verder dan 8-bits en ondersteunen bijna elke taal ter wereld. UTF-8 wint aan populariteit als de dominante internationale codering van het web. UTF-8, UTF-16 en UTF-32 zijn waarschijnlijk de meest gebruikte coderingen.

# UTF-8

Gebruikt 1 byte per character dus bestaat 8 bits.

# UTF-16

Gebruikt 2 bytes voor meeste characters, en 4 bytes voor bijkomstige characters. Het is dus 16 bits.

# UTF-32

Gebruikt 4 bytes voor ieder character dus 32 bits.

Cloud Services Dataformaten