Encodage

Chaque chaîne de caractères a une représentation numérique (on peut voir cette représentation en appellant la fonction repr). Cette numérisation (transformation utilisant un dictionnaire de chaque caractère vers un chiffre et vice versa) peut varier pour les lettres à accents: é, à, ê, etc. Ce qui peut causer des erreurs d'affichage (dans l'interpréteur Python, par exemple). Ces dictionnaires sont appelés encodage et si vous connaissez le nom de l'encodage utlisé, c'est possible de le traduire dans un autre encodage qui va être représenté sur l'écran correctement. Pour ce faire, nous appellons code.decode avec le nom de l'encodage en paramètre. Pour déterminer l'encodage, il est possible d'utiliser un module comme chardet.
>>> import chardet
>>> chardet.detect(texte)
{'confidence': 0.99, 'encoding': 'ISO-8859-8'}
>>> encoding = chardet.detect(texte)
>>> print texte[:200].decode(encoding["encoding"])
top