Quand une page est stockée dans le serveur en format Unicode UTF-8, mais affichée dans le navigateur par erreur en mode de caractère uni-octet, abusivement appelé ASCII, ie, en charset=windows-1252, ce caractère Unicode UTF-8 prend deux places.
Essayez le caractère é Unicode: il est doublé en é
Il était une fois dans l'Ouest de la Chine... il faisait froid en hiver.
Au contraire si votre page est stockée dans le serveur web en format ANSI/ASCII, mais affichée dans le navigateur du client par erreur en mode de caractère multi-octet UTF-8, appelé Unicode, en mode Unicode UTF-8, ie, en charset=UTF-8, ce caractère ASCII devient plus mince encore pour devenir un diamant point d'interrogation ou carrֳ© vide, comme s'il n'est pas assez costaud pour occuper même une seule place dans le monde Unicode qui est multi-octet.
En rֳ¨gle gֳ©nֳ©rale, quand votre fichier est en codage plus petit, plus maigre que le codage du navigateur ֳ l'affichage, le diamant point d'interrogation ou carrֳ© vide � apparaֳ®t.
Essayez le caractère é ASCII: il est réduit en diamant point d'interrogation ou carrֳ© vide �.
Il �tait une fois dans l'Ouest de la Chine... il faisait froid en hiver.
Il est utile de prֳ©ciser que tous les caractֳ¨res ASCII du code 0 ֳ 127 gardent toujours les mֳ×mes codes sans changement quelque soit le codage des caractֳ¨res, ASCII, GBK, Unicode...
Tous les caractֳ¨res ASCII ֳ©tendus du code 0 ֳ 255 (2**8=256, uni-octet, mono-byte) peuvent ֳ×tre stockֳ©s soit dans un fichier ASCII, soit en format Unicode UTF-8. Le contraire n'est pas vrai, les caractֳ¨res multi-octet (multi-byte) avec un code supֳ©rieur ou ֳ©gal ֳ 256, qui ne peuvent ֳ×tre conservֳ©s que dans un fichier Unicode comme UTF-8, ou bien dans un format spֳ©cifique (code page pays) tel le GBK pour les idֳ©ogrammes chinois.
Sur le web, un caractֳ¨re Unicode peut en outre s'exprimer en code entitֳ© HTML, ainsi stockֳ© dans un fichier du codage ASCII. Par exemple, l'idֳ©ogramme ט¯ signifiant Langue, peut ֳ×tre stockֳ© en mode ASCII par la chaֳ®ne 语, composֳ©e uniquement des ampersand &, diֳ¨se #, suivi par des chiffres du numֳ©ro dֳ©cimal de ce caractֳ¨re en Unicode, et terminֳ© par un point-virgule ;.
ה¸ו›½ו÷”ו¯¹ה÷÷ח±»ה½ו‡÷ט¾ƒו₪§ח„ט´¡ח®ן¼
La Chine doit faire une contribution relativement grande ֳ l'Humanitֳ© !
�ˆ�״×״¹��† ״¹�„�‰ ״§�„״µ��† ״×�‚״¯��… ״§״³�‡״§�…״§״× ״§�ƒ״¨״± �„�„״¨״´״±�״©!
׀׀¸ׁ‚׀°׀¹ ׀´׀¾׀»׀¶׀µ׀½ ׁ׀´׀µ׀»׀°ׁ‚ׁ ׀±׀¾׀»ׁׁˆ׀¸׀¹ ׀²׀÷׀»׀°׀´ ׀² ׁ‡׀µ׀»׀¾׀²׀µׁ‡׀µׁׁ‚׀²׀¾!
־־¯־½־± ־¸־± ֿ€ֿ־ֿ€־µ־¹ ־½־± ֿƒֿ…־¼־²־¬־»־µ־¹ ֿ€־µֿ־¹ֿƒֿƒֿֿ„־µֿ־¿ ֿƒֿ„־·־½ ־±־½־¸ֿֿ‰ֿ€ֿֿ„־·ֿ„־±!
ה¸ו›½ד¯ה÷÷י¡ד«ו₪§דד×ט²¢ח®ד‚’ד—ד¦דד ד•ד„ן¼
׳‘׳¡׳™׳ ׳™׳© ׳×׳¨׳•׳׳” ׳’׳“׳•׳׳” ׳׳׳ ׳•׳©׳•׳×!
א₪א¥€א₪¨ א₪®א₪¾א₪¨א₪µ א₪א₪¾א₪₪א₪¿ א₪•א¥‡ א₪²א₪¿א₪ א₪א₪• א₪¬א₪¡א₪¼א₪¾ א₪¯א¥‹א₪—א₪¦א₪¾א₪¨ א₪•א₪°א₪¨א₪¾ א₪א₪¾א₪¹א₪¿א₪!
א¸ˆא¸µא¸™א¸„א¸§א¸£א¸ˆא¸°א¹ƒא¸«א¹‰א¸¡א¸µא¸×א¹ˆא¸§א¸™א¸£א¹ˆא¸§א¸¡א¸¡א¸²א¸א¸‚א¸¶א¹‰א¸™א¹€א¸א¸·א¹ˆא¸א¸¡א¸™א¸¸א¸©א¸¢א¸א¸²א¸•א¸´!
�†��† ״¨״§�״¯ ״³�‡�… ״¨�״´״×״±� ״¨�‡ ״§�†״³״§�† ״±״§!
China shall make a relatively great contribution to the Man Kind!
Cette page est stockֳ©e dans le disque dur en format UTF-8 sans BOM. Mais je vous propose de l'afficher en diffֳ©rents codages. Elle peut devenir illisible si le codage diffֳ¨re trop. Il faut revenir en UTF-8 si vous avez mal ֳ la tֳ×te. Testez vous-mֳ×me sur votre navigateur en cliquant sur les liens suivants:
[Auto Detection] (auto) | Arabic (ISO-8859-6) | Arabic (Windows-1256) | ASCII Western European (ISO-8859-1) | ASCII Western European (Windows-1252) | Baltic (ISO-8859-4) | Baltic (Windows-1257) | Central European (Windows-1250) | Chinese Simplified (GB18030) | Chinese Simplified (GB2312) | Chinese Simplified (GBK) | Chinese Simplified (HZ) | Chinese Traditional (Big5) | Cyrillic (ISO-8859-5) | Cyrillic (KOI8-R) | Cyrillic (KOI8-U) | Cyrillic (Windows-1251) | Greek (Windows-1253) | Hebrew (Windows-1255) | Hebrew (ISO-8859-8-l) | Celtic (ISO-8859-14) | Central European (ISO-8859-2) | Estonian (ISO-8859-13) | Greek (ISO-8859-7) | Hebrew (ISO-8859-8) | Japanese (EUC-JP) | Japanese (ISO-2022-JP) | Japanese (Shift_JIS) | Korean (EUC-KR) | Latin 9 (ISO-8859-15) | Nordic (ISO-8859-10) | Roumain (ISO-8859-16) | South European (ISO-8859-3) | Thai (TIS-620) | Turkish (ISO-8859-9) | Turkish (Windows-1254) | Unicode (UTF-16LE) | Unicode (UTF-8) | Vietnamese (Windows-1258).