viernes, febrero 17, 2006

Detección de encoding en ficheros html/xhtml


Como se indica aquí, en los ficheros html (o xhtml) el encoding debe de estar especificado. Pero la realidad es otra, y es que puede no venir (los estandares especifican uno por defecto) o incluso no corresponderse con el verdadero encoding.

Buscando en la web, no he encontrado nada para hacer la autodetección. Aunque seguire buscando...
Lo único que he encontrado de momento es este thread.
De momento y para salir del paso usaré el comando 'file' de unix.

En los fichero xhtml nos encontramos con una problematica adicional, y es que pueden venir los encodings especificados en el meta y con el este documento, dependerá de su uso, es decir de como se entreguen. Lo cual no deja de ser un problema si el documento lo tenemos en disco y no sabemos como se ha entragado.
Lo que si especifica bien claro es que el encoding de HTTP tiene prioridad (si se indica) sobre el resto.
Y otro link que todavía no he tenido tiempo de mirar...

Actualización
El siguiente tutorial de W3C es muy bueno: Character sets & encodings in XHTML, HTML and CSS.
Y los diferentes valores para el encoding: IANA registry.

No hay comentarios: