Teckenkodning

Den som hållit på med lite HTML-kod har säkert stött på en tag liknande denna:

<meta content="text/html; charset=UTF-8" http-equiv="Content-Type"/>

Denna deklaration anger dokumentets MIME-typ dels genom att ange att dokumentet är text/html (primär) och dels att teckenkodning är UTF-8 (sekundär). MIME står för Multipurpose Internet Mail Extensions och ursprungligen tänkt för filer som var bilagor till e-mail. Denna specifikation fick dock större genomslag och används till mycket annat, t. ex. meta-taggar i HTML. Länge var ISO-8851-1 (eller ISO Latin-1) den vanligaste teckenkodningen på hemsidor på internet. Detta har sin förklaring i att både Windows och många Unix varianter använde detta som system kodning. Windows har fortfarande kvar detta som standard kodning, men de flesta Unix varianter – t. ex. Linux har gått över till UTF-8 och i och med att de flesta applikationer på Linux också stöder UTF-8 har det ena gett det andra.

Vad är då skillnaden? De olika teckenkodningarna handlar om vad en viss binärkombination har för grafisk representation. I den mest basala teckenkodningen i datorsammanhang, ASCII har t. ex. den binära kombinationen: ‘01000001′ den grafiska representationen ‘A’. Det ISO-8859-1 och UTF-8 har gemensamt är den alfanumeriska delen av ASCII, i båda uppsättningarna har ‘A’ samma binära representation som ASCII. Därefter skiljer de sig. Anledningen till att använda ISO-8859-1 i Europa är att denna kodning kan uttrycka de flesta västeuropeiska tecken och kräver inte mer utrymme. UTF-8 å andra sidan kan uttrycka samtliga tecken i samtliga språk (mer eller mindre i alla fall – det finns extensioner på UTF-8 för att fånga in allt.)

På sistonde har dock ett skifte inträffat, allt fler sidor använder UTF-8. Anledningen till detta kan man bara spekulera i, men en trolig anledning är att CMS verktyg som Wordpress eller Drupal blivit en allt viktigare del av publicering på internet. Dessa system är byggda med PHP som stödjer UTF-8 i grunden, och för att smidigt hantera ett system där användare kan komma från vilket land som helst och vilja ha vilka tecken som helst på sin hemsida, har man valt att använda UTF-8.

Etiketter:
, , ,

Dela med dig av detta inlägg
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Live
  • MySpace
  • Ping.fm
  • RSS
  • Twitter