Lo básico sobre codificaciones multibytes del japonés
Los caracteres japoneses sólo pueden ser representados por codificaciones
multibytes y además se utilizan múltiples estándares de codificación
dependiendo de la plataforma y el propósito del texto. Para colmo de males,
estos estándares de codificación difieren ligeramente unos de otros. Con
el fin de crear una aplicación web que pueda utilizarse en un entorno en
japonés, un desarrollador ha de tener estas complejidades en mente
para garantizar que se utilice la codificación de caracteres apropiada.
-
El almacenamiento de un carácter puede ser de hasta 6 bytes
-
La mayoría de los caracteres japoneses multibyte son el doble
de ancho que los caracteres de un único byte. Estos caracteres
se llaman "zen-kaku", que en japonés
significa "de ancho total;". Otros caracteres
más estrechos se llaman "han-kaku", que
significa "de ancho medio". Las características
gráficas de los caracteres, sin embargo, dependen de las
tipografías usadas para mostrarlas.
-
Algunas codificaciones de caracteres usan las secuencias de
cambio (escape) definidas en el ISO-2022 para cambiar el
mapa de código del área de codigo específica
(00h a 7fh).
-
Debería usarse el ISO-2022-JP con SMTP/NNTP, y las cabeceras
y las entidades deberían recodificarse según los requisitos
del RFC. Aunque éstos no sean requisitos , es una
buena idea ya que varios agentes de usuario populares no pueden
reconocer ningún otro método de codificación.
-
Las páginas web creadas para servicios de telefonía móvil,
tales como » i-mode
o » EZweb,
deben utilizar Shift_JIS.
-
A partir de PHP 5.4.0, se admiten los caracteres
pictograma utilizados para servicios de
telefonía móvil, tales como
» i-mode
o » EZweb.