Extraire une sous-chaîne d’une chaîne UTF-8

Notez que cet article a été écrit pour la première fois il y a plus de 3 ans, mais n'est pas nécessairement obsolète.

Unicode & Universal Character Set Transformation Format
Unicode & Universal Character Set Transformation Format

Pour extraire une sous-chaîne en php, on dispose de la fonction substr(): string substr( string $string, int $start[, int $length]) . Mais si la chaîne comporte des caractères UTF-8 Unicode, les résultats peuvent être erronés. En effet, dans l’encodage UTF-8, un caractère spécial type « une lettre accentuée » (à, é, ù, î, …) occupe 2 places.

La fonction mb_substr() permet de préciser l’encodage utilisé: string mb_substr(string $str, int $start[, int $length[, string $encoding]]) .

Soumettre un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *