Lo básico sobre codificaciones multibytes del japonés

Los caracteres japoneses sólo pueden ser representados por codificaciones multibytes y además se utilizan múltiples estándares de codificación dependiendo de la plataforma y el propósito del texto. Para colmo de males, estos estándares de codificación difieren ligeramente unos de otros. Con el fin de crear una aplicación web que pueda utilizarse en un entorno en japonés, un desarrollador ha de tener estas complejidades en mente para garantizar que se utilice la codificación de caracteres apropiada.

  • El almacenamiento de un carácter puede ser de hasta 6 bytes
  • La mayoría de los caracteres japoneses multibyte son el doble de ancho que los caracteres de un único byte. Estos caracteres se llaman "zen-kaku", que en japonés significa "de ancho total;". Otros caracteres más estrechos se llaman "han-kaku", que significa "de ancho medio". Las características gráficas de los caracteres, sin embargo, dependen de las tipografías usadas para mostrarlas.
  • Algunas codificaciones de caracteres usan las secuencias de cambio (escape) definidas en el ISO-2022 para cambiar el mapa de código del área de codigo específica (00h a 7fh).
  • Debería usarse el ISO-2022-JP con SMTP/NNTP, y las cabeceras y las entidades deberían recodificarse según los requisitos del RFC. Aunque éstos no sean requisitos , es una buena idea ya que varios agentes de usuario populares no pueden reconocer ningún otro método de codificación.
  • Las páginas web creadas para servicios de telefonía móvil, tales como » i-mode o » EZweb, deben utilizar Shift_JIS.
  • A partir de PHP 5.4.0, se admiten los caracteres pictograma utilizados para servicios de telefonía móvil, tales como » i-mode o » EZweb.