Cesar Ortiz: 2007

jueves, noviembre 15, 2007

Python en Linux-magazine

El número 32 de Linux Maganize va dedicado a python [vía la lista python-es].

miércoles, noviembre 14, 2007

Parseando CSS en python revisited

Una tercera entrada sobre el tema. Las anteriores:

Debido a la lentitud de cssutils (usé la versión 0.9.1b3) pobré libcroco y las diferencias de tiempo eran brutales (en un ejemplo real, pues ('real time') de procesar en 0,1 seg. a 0,4 seg.

Para la funcionalidad que necesito, me valen ambas, con lo cual en mi caso la elección está clara, ya que el tiempo de procesamiento me importa. Mi uso de la librería es muy rudimentario. Lo que realmente me interesa es el parseo en si, que me lo den, luego yo ya manejaré los datos a mi antojo...

Ahora bien, si el tiempo no te importan pues lo suyo es usar csstuils, porque libcroco te obliga a implementar bindings, ya que es C.

Con respecto a cssutils, comentar que ultimamente veo que el proyecto ha estado muy activo (van por la version 0.9.4a3), y que ahora está alojado en google code.

Bindings a libcroco
Para los bindings usé swig. No por decisión propia, sino porque ya lo usabamos.... No se si es lo mejor, pero es lo que hay.

En un primer intento lo que hice fue intentar atacar el interfaz de la librería. ¡Piiiiiip! Error.
Inabordable.
La solución fué hacer un recubrimiento en C sobre la librería, y hacer los bindings para ese recubrimiento.

En mi caso, el fichero de interfaz quedó como sigue:

%module css2av

%header %{
#include "css2av.h"
%}

typedef struct
{
char *selector;
char *declaration;
} AVStyleRule;

extern long numRules;

void freeResouces();
void process(const char *buffer,
long len
);
AVStyleRule *getRule(int index);

%include cpointer.i
%pointer_functions(AVStyleRule, AVStyleRulePtr)

Ya veis que api complejo y sofisticado me gasto ;)...
¿Que es necesario para generar los bindings?

Pues los .h y .c del codigo c
el .i (el codigo mostrado)

Procedimiento para generarlos:

Generar los bindings: swig -python [fichero]
Compilar nuestro código de interfaz (el .c para obtener el .o)
Compilar el código de los bindings (fichero [nombre_interfaz]_wrap.c ). Para compilarlo usar la opción -c del gcc e incluir con -L .../python y -L .../python/config
Generar la librería: gcc -shared [nombre].o [nombre]_wrap.o -o _[nombre].so -L[ruta] -lcroco-0.6 -lglib-2.0 -lxml2 -lz -lm

Ejemplo de uso:

import css2av

css2av.process(data,len(data))

for i in range(css2av.cvar.numRules):
styleRule = css2av.getRule(i)
print "Regla:",
css2av.AVStyleRulePtr_value(styleRule).selector,
css2av.AVStyleRulePtr_value(styleRule).declaration

css2av.freeResouces()

Como se puede apreciar, el código no es muy pythoniano. La solución es hacer un recubrimiento a los bindings mas pythoniano.

lunes, noviembre 12, 2007

Una Guía de estilo de código Python. Merece la pena su lectura.

lunes, octubre 29, 2007

rpm

rpm.org es el SITIO de referencia para documentarse sobre rpm.
Para comenzar el tutorial de gurulabs está realmente bien; además incluye un ejercicio para practicar...
He visto también que hay unos bindings para python.

Actualización

El ejercicio de gurulabs (aunque no lo he hecho) tiene realmente muy buena pinta. Es amplio (tiempo estimado 1.5 horas).
En el tutorial vienen también urls de recursos varios.
Ya en plan documentación lo mejor que he visto por ahí es:

Unos articulos de IBM, "Packaging software with RPM": [Part 1][Part 2][Part 3]
Un howto.
El articulo (un poco obsoleto) maximum rpm.

Y por supuesto siempre nos quedará la wikipedia.

FHS

En linux la estructura de directorios sigue un estandar, el cual es conocido por Filesystem Hierarchy Standard (FHS). Es interesante entender esa estructura, para saber a la hora de desplegar una aplicación que estemos desarrollando donde tiene que ir cada fichero.

Otras siglas sobre estandarización relacionadas: POSIX (Portable Operating System Interface) y LSB (Linux Standard Base).

jueves, octubre 25, 2007

Probando distutils

Sobre distutils ya había hablado en: Instalando con Python.

Recientemente hemos cambiado tanto la estructura del proyecto en el subversion como en la instalación, con lo cual los antiguos setup.py ya no nos sirven (hechos para distutils).

Pero no solo queda ahí la cosa, sino que vamos a instalar con rpms. Una opción hubira sido el crear ls 'specs' de los rpms a manubrio, pero me han recomendado hacerlo con distutils, y luego si hay que modificar algo, pues hacerlo, pero de esta manera no las tienes que crear desde cero.

La verdad.... me parece una muy buena idea, pero no sólo por ese posible ahorre de trabajo, sino que ademas podemos seguir desplegando de la manera normal (directamente) o generar un tar.gz.

Todo son ventajas...

Tras hacer el setup.py he mirado a ver que diferencias hay con setuptools [ibm article]. Por lo que parece son similares; siendo la mayor ventaja que ofrece setuptools, que te busca los paquetes a instalar y se asegura de resolver las dependencias.
Otra cosa que permite setuptools es generar 'eggs files'; y contiene EasyInstall.

Volviendo al tema que nos ocupa... cuando tienes una estructura un poco complicada no te queda mas remedio que meter en el setup.py funciones de utilidad para tu problemática concreta.

En mi caso, el mayor problemilla que he tenido es que las rutas de instalación y del SVN no son exactas, con lo cual tengo que hacer un mapeo entre el paquete que se instala, y la ruta donde está el código.

Esto se solventa con los parametros packages y package_dir, lo que hago es recorrer recursivamente el arbol del SVN para obtener las rutas a los paquetes, para a partir de ellas generar el nombre del paquete destino y definir a que directorio del SVN se corresponde.

En el caso de los datos, el parametro data_files, permite resolver esta problemática sin necesidad de ningun parámetro adicional.

Como documentación, el artículo que enlacé antes (Spreading python applications) está muy bien; asi como la documentación estándar.

Un par de notas finales:

para pruebas podeis usar la opción --dry-run
con --verbose os indica si os faltan ficheros __init__.py

viernes, octubre 19, 2007

Ver correctamente todos los caracteres con vi

Si os pasa que no veis correctamente algunos caracteres en vi, como por ejemplo los acentos, estais ante un problema con el encoding.

Puede ser porque no tengais correctamente definida la variable LAN, es valor correcto para el español es 'es_ES'.

jueves, octubre 11, 2007

Han linked in, han creado un grupo de python. Mas info aquí.

jueves, octubre 04, 2007

Ultraedit

Ahora para currar utilizo Windows XP Pro, lo cual me forzó a migrar a la version 13 de ultraedit, ya que la anterior que tenía no funcionaba correctamente.
Pues bien... la version que tengo ahora mismo delante, la 13.10a+1 me ha sorprendido muy gratamente. Han mejorado y mucho el ya util menú FTP/TELNET.

El soporte a ftp lo llevan teniendo desde hace siglos, luego metieron el de sftp, y ahora puedes establecer conexiones a ssh. No se si ya estaba y no me había dado cuenta o es nuevo. Yo creo que es nuevo.
Lo que si que es seguro es que han metido la opciones 'account manager' y 'ftp browser'. La segunda está genial, ya que nos evitará el instalar un cliente de ftp/sftp.

miércoles, octubre 03, 2007

Remote Diff

Lo mas relevante en google sobre como hacer un remote diff.
La mejor solución en un comentario, que es usando ssh: ' ssh remotehost ‘cat remotefile’ | diff - localfile'.

miércoles, septiembre 26, 2007

Fijar variables de entorno de la shell desde python

Para algo que tengo que hacer necesitaría fijar el entorno de la shell desde python, pero en principio esto no es posible.
Quiero decir, que desde python tal cual no se puede, ya que en UNIX desde un proceso hijo no se puede modificar el entorno del padre.

Una opción sería hacer un 'shell script' en el que se invoque un script python con cada variable a configurar, y que el script devuelva el valor para esa variable.
Pero en mi caso me interesaria mas otra cosa, y es que el script de la shell, el que invoca a python, no sepa nada de que variables de entorno hay que configurar.
La solución es parecida: el script python generar el codigo shell a ejecutar sacandolo por stdout y la shell lo ejecuta.

Mas info aquí.

Y ahora la solución que voy a aplicar, mostrada con un ejemplo muy tonto.
Código python que define las variables (prueba.py):

print "KK1=kk1"
print "KK2=kk2"

La shell que lo invoca:

for cmd in `python $PWD/prueba.py`; do
export $cmd
done

Sencillo ¿verdad?

vim

Post para reagrupar 3 posts que tenía sobre vi: [manual][mas][yMas].

Para saber mas.... aquí.
Y la FAQ.

Con esta entrada inaguro la categoría 'tools'. Podría crear la subsección editores, pero de momento dejemoslo ahí.

Editores de texto

Tenía una versión de ultraedit de evaluación, que me ha caducado. Esto me ha motivado a usar vim (a ver si lo aprendo un poco mejor...).
Anteriormente usaba ultraedit, accediendo a las maquinas por SFTP...

Hablando con Marcos me comenta de dos editores que están bien, que el usa:

scite [wikipedia].
ulipad. Es un editor de python, y que tiene buena pinta. Puede acceder por ftp, pero parece que no por stp. Ha sido llevado a code.google.

A través de la wikipedia veo que existe un notepad++, y buscando en google, veo que hay por ahí editores con soporte a SFTP. Ejemplos: [1][2].

Básicamente mientras pase esta temporada con vim, lo que necesito es un editor (ligero) para editar ficheros en local (y super importante, que tenga pestañas)

Actualización
Tras haber escrito lo anterior he buscado por comparativas, y paginas con listado de editores. Ahí van mas links:

Tabla comparativa.
Y comparativa wikipedia.
En dmoz.
Listados: [1][2][wikipedia]
Articulillos: [1]

Lo anterior ha sido una recopilación rápida de lo que he encontrado por la web, pero tras ver la comparativa de la wikipedia, os puedo decir que es el LINK a mira.
Lo que no se (en la comparativa no viene) si hay alguno que soporte edición en modo columna (aparte de ultraedit).

NetWinShit

Otro post para mostrar carencias de windows bastante irritantes. Esta vez relacionadas va de temas de red.

Imposiblidad de poder tener perfiles de red. Aunque debe de haber aplicaciones externas que lo permitan... O en caso contrario siempre se puede usar una aplicación de testeo, que imite a un usuario.
Imposibilidad de tener configurado mas de un dominio. Para poder conectarte a un dominio, necesitas una cuenta de administración del dominio, por lo que normalmente no lo harás tu, como usuario que eres. Lo hará un administrdor por tí. Pues bien, imaginate que con tu portatil megachulo estas unos días en un edificio y otros en otro, y esos tienen dominios diferentes... Pues bien, no puedes tener ambos configurados y que cuando te salga la ventana de login, selecciones el que te interesa...

martes, septiembre 25, 2007

Python-es FAQ.

domingo, septiembre 23, 2007

El porqué del name == "main"

En python.es posteé lo siguiente:

"Si tengo un modulo apps.py que tiene:

import debug

def programBegin():
debug.init()

Y si tengo un modulo debug.py que tiene:

DEBUG = 0

def init():
global DEBUG
DEBUG=1

if ( __name__ == "__main__") :
import apps
apps.programBegin()
print DEBUG

¿Porque al ejecutar como comando el modulo debug.py, me imprime 0? Mi no entender..."

La respuesta (por parte de Gabriel Genellina):

"La clave está en que al ejecutar debug.py directamente, se crean DOS
copias del MISMO modulo.

1) El script que estas ejecutando (debug.py) se carga como modulo
'__main__' (es decir, en sys.modules se inserta un nuevo item con
clave='__main__' y valor=el modulo debug.py).

2) Cuando apps ejecuta "import debug", Python se fija si el modulo ya esta
importado (mirando las claves de sys.modules) y como no lo encuentra, lo
lee de disco y lo inserta con clave='debug'

O sea que debug.py fue importado DOS veces. Cuando programBegin llama a
debug.init, lo que se modifica es el valor de la variable DEBUG que esta
en el modulo llamado "debug". Cuando haces el print estando dentro del
script principal (que coincide con debug.py) lo que estas imprimiendo es
la variable DEBUG que esta en el modulo llamado "__main__".

De paso, esta es justamente la razon por la que funciona la condicion:

if __name__ == "__main__":

que más de uno escribe sin tener ni idea de porqué se hace así."

viernes, septiembre 21, 2007

Me ha parecido interesante a la par que friki: hacer CV en latex.

lunes, septiembre 17, 2007

Via slashdot: Guido and Bruce Eckel Discuss Python 3000.
Debería ser de obligada lectura para los que curramos con python.
Bruce comenta que en Ruby también van a hacer ruptura hacia atrás, y que van a eliminar los 'perl-isms'. Muy interesante.... era una de las cosas que no me gustó de Ruby cuando le eché un vistazo.

lunes, septiembre 10, 2007

Metaclases en python.

viernes, septiembre 07, 2007

Que guapo!!! Un proyecto OpenSource de plantillas para generar documentacion: ReadySet.

Column-oriented DBMS [wikipedia].
En la siguiente noticia de slashdot hablan sobre el tema: Are relational databases obsolete?

Un sitio al que voy a tener que echar un vistazo con calma: en High Scalability.
Via barrapunto: ¿Qué plataforma usan los sitios más populares?.

miércoles, agosto 15, 2007

Primera noticias tras la vuelta de las minivacaciones de verano, windowsue deja de existir.

jueves, julio 19, 2007

Instalando con python

Para instalar con python, el paquete estandar es distutils [distutils-sig].
Una alternativa es usar setuptools, que se supone incorpora ciertas mejoras sobre distutils.

Para distribuir código python nos vale. Si ademas nuestro proyecto require de versiones de librerías o de aplicaciones externas y queremos comprobar las dependencias, necesitaremos alguna herramienta adicional, tipo GNU Build System (GBS).

La mayor limitación de GBS es que es para UNIX, por lo que si queremos instalar en windows, necesitaremos cygwin. Una alternativa a usar cygwin es MinGW.

Me pasan hoy este link: How To Write Unmaintainable Code .
Antiguo, pero a la vez actual.

miércoles, julio 18, 2007

MAC OS X

Estos tios de apple la verdad es que son unos genios. Me he enterado hace poco que el OS de apple está basado en BSD, vamos... que está basado en UNIX. Un motivo mas para querer un MAC. Podeis comprobarlo.

sábado, julio 14, 2007

Configuración de arranque de windows

Hoy he descubierto un comando superutil para ver que programas/servicios se ejecutan cuando arrancamos un windows, y para poder modificar el comportamiento. Se trata de msconfig.

viernes, julio 13, 2007

Cuanta razón en estas palabras: Cuando la Informática se pervirtió.

miércoles, julio 11, 2007

Alternativas a SWIG

Me está siendo duro usar swig...
¿Porque estoy usando swig? Pues sencillo porque en otra parte del proyecto se ha usado para acceder a C++.
Pero buscando información me he encontrado con que hay alternativas:

Parece que la gente del grupo de python o que menos le gusta es SWIG. Por ejemplo:

"The best thing to do is to offer your C++-lib with a C-style interface. Then you can use python's ctypes (included since python2.5) to access the shared library.
If you insist on using C++, you can expose the lib using several available wrapper generators. I know of three: SIP, Swig & Boost::Python. The first I've got some very good first-hand experience. The second is somewhat primitive IHMO. The third I never used. "

El que diga que ctypes está incluido desde python2.5 no quiere decir que no se pueda usar con versiones anteriores.

Al respecto ver los mitos sobre swig.

Otro módulo interesante es pyrex.

lunes, julio 09, 2007

Va de clientes Jabber...
Si queremos acceder a esta red tenemos varias opciones (entre otras) de gratis:

miranda (windows)
adium (MacOSX)
pidgin (fka: gaim)
kopete (linux)

sábado, julio 07, 2007

Estoy que lo rompo!

Me pasan un portatil para el curro y creo que no me ha durado ni un mes.
Se ve que venía de serie con un 'xp media center' y lo transformaron en un 'xp pro' y así ha ido.
Bueno el jueves me lo dan ya de nuevo en teoria con un 'xp pro' instalado desde cero. Pues na que me pongo a enredar con el linux (live cd) para ver si logro hacer una imagen del sistema y ya me lo he cargado.

¡¡¡¡¡GAAAAAAAAAAAAAAAAAÑAAAAAAAAAAAAAAAAAAAAAAAAN!!!!!

No se como, pero supongo que me he cargado el MBR. La verdad es que el particionamiento que tiene es raro de cojones.... Como me de la lata lo particiono de otra manera...

C: es la unidad de datos (/dev/sda2 y bootable)
D: es la del sistema (/dev/sda5 (unidad lógica sobre /dev/sda1)

Y luego tengo espacio libre para meter un linux.

Antes de enredar me salve el MBR (por supuesto) pero no se porque me da que va a estar en sda2...
También salvé la tabla de particiones y según vi seguia igual.
Resumiendo no se que puede haber pasado.

Seguiremos indagando...

Con que cara les voy a llevar a los pobres chavales de sistemas el portatil de nuevo para qu eme lo instalen.... Me da que voy a apañarmelas por mi mismo.

viernes, julio 06, 2007

[swig] Primeros pasos

La forma mas simple de generar los bindings es usar %include [el_fichero.h].
Pero es dificil que sea una buena idea, a no ser que lo que se quiera usar sea algo muy sencillito.
Según la documentación recomiendan una serie de pasos:

"Identify the functions that you want to wrap. It's probably not necessary to access every single function in a C program--thus, a little forethought can dramatically simplify the resulting scripting language interface. C header files are particularly good source for finding things to wrap.
Create a new interface file to describe the scripting language interface to your program.
Copy the appropriate declarations into the interface file or use SWIG's %include directive to process an entire C source/header file.
Make sure everything in the interface file uses ANSI C/C++syntax.
Make sure all necessary `typedef' declarations and type-information is available in the interface file.
If your program has a main() function, you may need to rename it (read on).
Run SWIG and compile."

Resumiendo.... que mejor solo hagas bindings para lo que realmente necesitas.
A continuación pongo otra parrafada interesante, sobre porque usar interface files.

"Although SWIG can parse many header files, it is more common to write a special .i file defining the interface to a package.
There are several reasons why you might want to do this:

It is rarely necessary to access every single function in a large package. Many C functions might have little or no use in a scripted environment. Therefore, why wrap them?
Separate interface files provide an opportunity to provide more precise rules about how an interface is to be constructed.
Interface files can provide more structure and organization.
SWIG can't parse certain definitions that appear in header files. Having a separate file allows you to eliminate or work around these problems.
Interface files provide a more precise definition of what the interface is. Users wanting to extend the system can go to the interface file and immediately see what is available without having to dig it out of header files."

Un ejemplo de dos posibilidades de definicion. Una primera teniendo el fichero de interfaz:

/* File : interface.i */
%module mymodule
%{
#include "header.h"
%}
extern int foo(double);
extern double bar(int, int);
extern void dump(FILE *f);

Y la segunda (que en este caso estaría justificada por ser el fichero muy sencillo):

/* File : interface.i */
%module mymodule
%include header.h

Por ejemplo si usamos la ultima aproximación con libcroco, debemos usar el flag --includeall e indicar con -I las rutas de todos los ficheros necesarios (incluyendo los del sistema), generandose mucho codigo, cuando lo que necesitaremos será simplemente una función y acceder a unas estructuras de datos.
Es mas.... posiblemente al final la aproximacion mas facil será crear unas funciones de utilidad en C, y ya hacer los wrappers a dichas funciones de utilidad con swig.

Nota: un flag interesante es -v.

[swig] Formato del fichero de interfaz

Una cosa que no esta bien explicada, o al menos no como un punto en la documentación (o al menos no lo he visto) que es el formato del fichero de interfaz, y una lista con las directivas soportadas.

En el fichero hay una serie de bloques que el formato [etiqueta] %{ %}.
Donde [etiqueta] puede ser:

%runtime
%header
%wrapper
%init
%inline

Si no se pone la etiqueta, estamos ante un bloque de tipo header.
El '%' es porque es el formato de las instrucciones para swig.
Por ejemplo el nombre del modulo en python se especifica con %module.

Todas esas etiquetas, con la excepcion de inline) sirven para incluir codigo que será includo en el fichero generado para el hacer el wrapper. No se parsean ni se generan los wrappers.
La excepción es inline: el codigo inline se da al compilador de C y a swig.

Un ejemplo de uso de inline lo tenemos en el primer ejemplo de swig: simple. Como no existe un header se meten las declaraciones en un bloque inline.

Si por el contrario tenemos un header, lo normal será usar el bloque %header y luego ya a continuación indicar las funciones para las cuales queremos generar los wrappers.

swig

En este post os presento a swig, el cual es una herramienta que nos permite 'conectar' programas escritos en C/C++ con programas escritos en lenguajes de script: como python, ruby, ...

Básicamene lo que hace es coger unas definiones y generar los wrapper necesarios para acceder al codigo C/C++,

En mi caso lo usaré para acceder a libcroco desde python. O bueno al menos eso intentaré.
Lo suyo es usar la version mas actual de swig, la 1.3.X. Sobre todo si estas con python 2.X.

Una de las cosas que sorprende es la calidad de la documentación. Da una imagen de un producto currado.

La mejor forma de empezar es tras bajarlo e instalarlo, echarle un vistazo a los ejemplos, que vienen bien documentados.

Según lo vaya creyendo conveniente pondrá algun post...

miércoles, julio 04, 2007

Hacía mucho no visitaba a Telendro. Demoledor post sobre la información que puede manejar google sobre una web: Regalar toda la información sobre tu web a google.

martes, julio 03, 2007

Google is sicko.

jueves, junio 21, 2007

Logitech Alto

Se tenian que enrollar en mi empresa y que preparasen puestos para la gente que usa portatil con por ejemplo algo tipo Logitech Alto.
¿Su precio? Pues creo que anda por los 99 euros.

miércoles, junio 20, 2007

RotatingFile

He estado buscando algo para implementar la escritura en un fichero, con politica de rotación al superar un determinado tamaño, ya que no interesa reinventar nada.
Lo único que he encontrdo es el handler RotatingFileHandler de python.
Dicho handler podría ser valido o no, dependiendo de los requisitos funcionales. A mi, para lo que tengo que hacer no, pero ahí va un ejemplo de su uso. Una clase que lo recubre:


import logging
import sys
from logging.handlers import RotatingFileHandler

#------------------------------------------------------------------------------
# RotatingFile
#------------------------------------------------------------------------------

class RotatingFile:

#------------------------------------------------------------------------------


def __init__(self,pathFilename,numBytes=0,numFiles=0):
"""
Notas:
- El fichero es de texto
- Para que exista la rotación los argumentos opcionales no pueden ser
0.
"""

# Notas:
# - Como al logger no se le fija un nivel, sacará todo
# - Al logger se le pone como identificador, la ruta al fichero.
# - Si numFiles es muy alto el algofirmo que se usa en el 'handler'

self.__logFile = pathFilename
self.__logger = logging.getLogger(self.__logFile)
hdlr = RotatingFileHandler( self.__logFile,'a',numBytes,numFiles )
fmt = logging.Formatter("%(message)s")
hdlr.setFormatter(fmt)
self.__logger.addHandler(hdlr)


#------------------------------------------------------------------------------

def write(self,value):
self.__logger.critical(value)

#------------------------------------------------------------------------------
# main (de prueba)
#------------------------------------------------------------------------------

if ( __name__ == "__main__") :
rf = RotatingFile("rotatingfile.out",10,5)
for i in range(10):
rf.write(str(i))

lunes, junio 18, 2007

WinShit

Definivamente.... windows es una mierda de sistema operativo.
El viernes lo pude comprobar en mis propias carnes. Me paso algo que como es posible que jamas puede llegar a pasar en un sistema operativo. ¿Como puede ser que el SO no sea capaz de borrar un arbol de directorios?

En mi curro suelo currar remotamiente con sesiones ssh, pero para probar una cosilla, decidí hacerlo en local, usando el eclipse: así mataba dos pajaros de un tiro: probaba lo que tenía que probar y echaba un vistazo a eclipse.

Pues bien... como no controlo eclipse, y tampoco miré ni un misero tutorial ni leches, hice algo mal y el programita de marras me metió en un bucle creando una estructura de directorios anidada recursiva muy profunda.
Al detectalo pues intenté borrarlo, encontrandome con el problema que menciono: link a la página de soporte de Microsoft.

Al no poder se me ocurrió es usar Linux, pero Linux con ntfs no se lleva demasiado bien... Hay cosillas por ahí un poco experimentales... y ante mi urgencia y no tener instalado linux en la maquina (probé con live-cd) me busqué alguna alternativa.

Al final mediante el comando subst y paciencia he podido borrar casi todo, pero me queda algo que no he sido capaz. Parece que hay algo corrupto (pero chkdsk no da errores)... A ver si le vuelvo a meter mano y acabo de una vez con el dichoso arbolito...

Unos links para acabar:

miércoles, junio 13, 2007

WinSysAdmineando

No se porque la gente dice que Windows es mas sencillo que Linux. Lo es hasta que no te salen quebraderos de cabeza. Claro si usas un XP Home Edition pues pocos problemas vas a tener...

Porque yo ya llevo unos cuantos con mi XP Profesional Edition. El último hoy, con la instalación de los drivers del Scanner Scanjet G3010 y el Photoshop.

Tras instalarlo en usuario Administrador iba sin problemas pero en usuario normales no funcionaba, ni el scanner ni el Photoshop. Vamos por partes...

Scanner
El software de HP, por lo que he podido leer por ahí es un poco gena en entorno multiusuario. Y el soporte por lo visto deja un poquito que desear... [pendiente meter un par de referencias]
La solución al final ha sido dar permisos a los usuarios normales a una determinada key del registro.

Photoshop
Tras solucionar lo del scaner todavía quedaba lo de photoshop. En un principio pensaba que el problema estaba relacionado, pero seguía sin funcionar...
La solución ha sido el meter a los usuario que lo usan como 'usuarios avanzados'. Ya se que no es muy solución muy profesional pero me ha funcionado y paso de perder mas tiempo con esto.... ;)

¿Que os parece? ¿Sencillo verdad? ¡Ja!
Relacionado hoy en meneame: Detecta todo lo que se inicia en tu windows.

martes, junio 12, 2007

A vueltas con cssutils

Tercer post en el que menciono cssutils. Los anteriores [1][2].
En este os puedo decir que lo estoy usando, y que la verdad funciona bien, aunque le he visto 2 peros:

Las estructuras de datos manejadas no son muy pythonianas
Es lento (muy). Por poner un ejemplo en procesar los css's de elpais.com tarda mas de 10 segundos (en una maquina Linux potente potente).

Echando un vistazo rápido al código, no he visto nada raro que salte a la vista. He mirado a ver si había alguna construcción que pudiese ser costosa, pero no. El código está pero que muy bien.
El problema debe ser, que según está hecho es simplemente ineficiente. O que el hacer un parser en python, es simplemente ineficiente. No lo se....
Quizás con menos comprobaciones....

He vuelto a mirar en python-es y en google groups, y no he encontrado nada de nada. Me da que voy a tener que implementarmelo... o hacer unos bindings a alguno de C.
Un par de referencias de cara a una posible implementación [vía]:

viernes, junio 01, 2007

Norton Ghost

Tras tener un sistema básico montado, lo suyo es tener una copia de respaldo para poderlo restaurar.
Tras investigar que hay por ahí (lo justo), he probado Norton Ghost ya que parace que es la mejor herramienta pra hacer imagenes del HD. Pues bien, no me ha servido. Porque lo que yo quiero es algo que me vuelva a restaurar el sistem desde CD y que el propio CD sea arrancable.

Se me ocurre hacerlo con linux a través del comando dd, pero como que es muy básico.

Seguiremos investigando.... y probando.
Una referencia: Disk cloning.

Nuevo ordenata

Que mala racha...
Pues no va y me peta el Desktop de casa (creo que la placa). Y unos dias despues el monitor...
Total que me he pillado otro ordenata. Tocaba actualizarse. Esta vez me he lanzado a un procesador AMD económico, 2 GB de memoria, disco duro de 250 GB, placa con soporte a firewire, una fuente sileciosa, una tarjeta de video ATI... Vamos en torno a 500 leuros.
Como monitor un LG de 17'' que no llegó a los 180 leuros.

Tras ello, la rutina de turno, instalar los OS. Ya me he actualizado a XP Pro, y le he metido un ubuntu 7.04.

Tras tener el ubuntu (que usa gnome) me comenta el Hectorín que le gusta mas kubuntu. Y he aqui mi duda.... ¿Cual es mejor kde o gnome?
Resumiendo por lo que he leido...: a gusto del consumidor. Lo que si parece es que gnome es mas ligerito.
A mi personalmente me gusta. Lo veo simple e intuitivo. Y como las aplicaciones que mas voy a usar no van a ser las que vengan con ambos desktops... Pues como que me vale ubuntu.
Pero tengo ganas de probar el kde. A ver si me bajo un live cd (si es que lo tienen).

Bueno paso unos links sobre el tema:

Me decanté por ubuntu, porque parece que es la distribución de moda. La alternativa podría haber sido fedora.
Y lo que he visto es que gentoo sigue teniendo su nicho. Por lo que he leido tienen una wiki muy completa, que sirve para el resto de distribuciones también. Pero vamos el instalar gentoo es para freakis y no lo haría nunca para un desktop. Podría ser interesante para un servidor en el que sólo quieres meter lo justo y necesario.

jueves, mayo 24, 2007

Ummmm, Javier Casares ha publicado una Guía SEO. Puede ser una compra interesante. O un buen regalito.

jueves, mayo 17, 2007

Evitar que google fagocite un proyecto [vía dirson].

Cuanta razón hay en ese post. Todos los grandes proyectos se han hecho por pocas personas.

martes, mayo 08, 2007

Teclado

¡Estoy realmente sorprendido! He estado mirando para cambiar el teclado de mi ordenador de sobremesa de casa y no he encontrado por ningún lado teclados que seán bajitos que no sean wireless o que tengan la típica forma ergonómica. ¿Que pasa, se ha demostrado que no es eficaz?
No lo entiendo... paso del wireless. Para un teclado es innecesario. Paso de gastar pilas y de meter mas ondas....

De lo visto (incluyendo los wireless) el que mas me ha gustado es el Logitech S510. Impresionante! Super plano y con apoyamanos.

jueves, mayo 03, 2007

REST

Representational State Transfer (REST), es un estilo de arquitectura software que la introduce su autor () en una disertación sobre diferentes estilos de arquitectura software. El título de la disertación es "Architectural Styles and the Design of Network-based Software Architectures". A ver si le hecho un vistazo...

viernes, abril 20, 2007

CAPTCHA

Siempre que hablo con JJ de cosas técnicas, me sorprende y aprendo algo nuevo.
Lo de hoy, CAPTCHA. No sabía que estos sistemas que determinan si el que está haciendo la petición es humano o no se llamaban así.

jueves, abril 19, 2007

Python Threads

De momento no me he visto en la necesidad de utilizar los threads de python, pero les he estado echando un vistazo.
Norman Natloff tiene unos tutoriales guapos y unos de ellos va sobre los threads: Tutorial on Threads Programming with Python.

Unos apuntes breves:

Hay 2 modulos, thread y threading; siendo el segundo de mas alto nivel.
No me mirado los modulos en detalle, pero el módulo threading se ve bastante completito: tiene locks, rlocks, semáforos, variables de condición, un recubrimiento sobre las variables de condición (Event) y timers. Pero sobre todo una clase para mi muy interesante Queue.
No se puede hacer multiproceso real con python, es decir sólo estará un thread ejecutandose y los threads son 'not pre-empted'. Es el interprete a través de un componente llamado GIL el que determina la planificación (bien porque un thread ha estado corriendo durante un determinado tiempo o bien por una operación E/S). Hay criticas al GIL... quizas en un futuro desaparezca.
Para depurar se puede usar PDB pero con unas limitaciones (también existe RPDB (bueno ya obsoleto... la evolución es winpdb))

Finalmente comentar que gracias a este tutorial he conocido la existencia de dis, el 'disassember' de python. Y un link sobre herramientas de depuración para python.

miércoles, abril 18, 2007

Backups de USB Flash Drive

De un tiempo a esta parte uso poco el HD del ordenata para mis documentos. El motivo es que uso un USB Flash Drive.
Tiene como ventaja el que tienes tus datos allí donde fueres. Como desventaja que es mas facil de perder...
De vez en cuando hacía backups; muy de vez en cuando. Pero tras el despiste de dejarmelo ayer en la ofi, me he dicho a mi mismo que esto no puede seguir así...

La solución: instalarte un programa de backups en tus ordenatas habituales y hacer periódicamente un backup. Que menos que semanal...

Para esto por supuesto que no necesitas el cojoprograma, sino una cosa sencillita. En genbeta he visto que tenían un par de utilidades y ya he probado una de ellas, Cobian Backup. Me ha gustado, supersencilla.
La otra es Comodo Backup.

Ambas son de gratis.

Hub vs Switch

Como se olvidan las cosas...
Leo ayer: "Un switch realiza la misma función que un hub dentro del diseño de una red, pero al contrario que un hub, un switch proporciona la máxima velocidad de red a cada puerto."

Ok, te quedas con la copla de que el switch es mas rapido, ¿pero porque? La respuesta aquí. Basicamente el porque es que el Hub es un dispositivo muy tonto, y el switch es mas listo. El Hub envia los paquetes a todos sus puertos.

Y ya puesto vamos a ver la diferencia con un router. El router se usa básicamente para unir redes.
Trabajan con la capa 3; o lo que es lo mismo, la de red.

martes, abril 10, 2007

HotLinking

No conocía el termino hotlinking [genbeta]. En el anterior enlace lo explican, indicandote como evitarlo mediante imgred.

martes, abril 03, 2007

Unas respuestas interesantes a una noticia de barrapunto: ¿Basta el software abierto para ser libre?. Explican muy bien la ventata de GPL sobre la licencia de BSD.

libxml2 XmlTextReader

Acabo de ver que libxml2, aparte de los APIs SAX y DOM tiene un tercero, XmlTextReader.
Parece que está a caballo entre los dos anteriores, por lo que puede ser un muy buen candidato a tener en cuenta. Lo recomiendan usar en lugar de SAX. SAX tieen los siguientes problemas:

Modelo de programación mas complejo
No estandar
No proporciona validación directa
El procesamiento de entidades, namespaces y 'procesamiento base' (no se que quiere decir esto exactamente) es mas dificil.

viernes, marzo 30, 2007

Creación implicita de atributos

Al modificar un fichero de un compi de curro, me llamó la atención que él creaba las variables de instancia como si fueran de clase. Y le funcionaba, cosa que me estrañó mucho.

Indagando un poco al respecto ya se porqué. Antes de nada un ejemplo:


class B:
 b = "B" 
   
class C(B): 
 def __init__(self,v): 
  self.b = v
  
  
b1 = B()
b2 = B()
c = C("c")

#--- Valores originales
print b1.b,b2.b,c.b

#--- Cambiamos la variable de clase
B.b = "BB"
print b1.b,b2.b,c.b

#---- Cambiamos variable de instancia de objeto de tipo B
b1.b = "B"
print b1.b,b2.b,c.b

Que nos proporciona la salida:


B B c
BB BB c
B BB c

El ejemplo anteiror nos muestra que cuando referenciamos una variable de instancia que no existe, pero si como clase, automáticamente se crea una variable de instancia con el valor de la variable de clase.

jueves, marzo 29, 2007

Identificadores únicos

¿Que opciones tenemos disponibles para asignar un identificador único a un buffer de datos?
En un principio estaba pensando algo como el comando sum de unix.

Pero al no encontarlo en el api de python, he mirado alternativas, y una opción que tenemos es usar alguno de los módulos criptográficos disponibles.
En python 2.4 estan md5, hmac y sha en 2.5 veo que ademas está hashlib.

Modulos relacionados

Si lo que queremos es generar un identificador único podemos usar uuid.
Hay un modulo con diferentes funciones para codificar strings: binascii.

lunes, marzo 19, 2007

¡¡¡¡Que bien!!!! Estoy dando palmas con las orejas.
Solo por esto ya merece mi contribución a AI2. Ya solo queda esperar que estos 'deseos' fructufiquen en realidades.

lunes, marzo 05, 2007

11870

Hoy me han pasado esta url, 11870. La idea es muy buena, una web 2.0 de clasificados.
Un nuevo 'enemigo' para quien trabajo, TPI.

La verdad... el tema de los clasificados está movidito. Una cosa nueva de QDQ.

sábado, marzo 03, 2007

Fractales en python

En Febrero empezó un thread muy interesante sobre fractales en python.
En Marzo hay mas posts, como muestra un botón.

jueves, marzo 01, 2007

Crear un fichero temporal en python

Con el módulo os, se puede hacer, pero la mejor manera es usando el módulo tempfile. Normalmente lo haremos mediante el uso de mkstemp.

martes, febrero 20, 2007

Test chi-cuadrado

O chi-square test.
Si por lo que sea necesitamos calcularlo en python, con el módulo stats.py podeis.
Y un poco de teoría aquí.

Alguna mas cosilla de mismo autor aquí.
Nota: stats.py depende de pstat.py.

Como casi siempre en la wikipedia hay info:

Ejemplo de uso.
Una explicación de un compi de curro (estadístico él) de como aplicarlo a una porción de texto (resultado de secuenciar un hmtl).

1.- Divide el churro en k partes (cuanto más mejor, pero que sea significativo el número de etiquetas que caen dentro de cada parte). Para el ejemplo que me has dado (60 etiquetas dentro del body) lo dividimos en 9:
parte1: (etiqueta 1) <= x < (etiqueta (60/9)*1) --> 1.00 <= x <> 6.66 <= x <> 13.33 <= x <> 20.00 <= x <> 26.66 <= x <> 33.33 <= x <> 40.00 <= x <> 46.66 <= x <> 53.33 <= x <> 1/9 = 0.11
Número de casos esperados en cada intervalo: N/k --> 13/9 = 1.44

4.- Con todos estos datos podemos generar una tabla como la que sigue:
Intervalo 1 2 3 4 5 6 7 8 9
Límite inferior 1 6.67 13.33 20.00 26.67 33.33 40.00 46.67 53.33
Límite superior 6.67 13.33 20.00 26.67 33.33 40.00 46.67 53.33 60.00
Casos observados (Oi) 2 2 0 0 0 2 4 2 1
Probabilidad esperada 0.11 0.11 0.11 0.11 0.11 0.11 0.11 0.11 0.11
Casos esperados (Ei) 1.44 1.44 1.44 1.44 1.44 1.44 1.44 1.44 1.44

Variabilidad 0.22 0.22 1.44 1.44 1.44 0.22 4.55 0.22 0.13
Vi=((Oi-Ei)^2)/Ei

Variabilidad acumulada 0.22 0.44 1.88 3.32 4.76 4.97 9.52 9.74 9.88
SUM(Vi)

El número que nos interesa es el último de todos: 9.88
Este se compara con el valor de la chi cuadrado para k-1 grados de libertad y alfa (nivel de significación). Vamos a elegir un alfa de 5% que es suficientemente significativo, el resultado es 15.51 (Excel: CHIINV(0,05;8))
Como 9.88 es menor que 15.51 entonces se acepta la hipótesis nula: la etiqueta se distribuye uniformemente por el churro.

Resumiendo...
Si haces los cálculos para cada etiqueta, aquella que menor variabilidad acumulada tenga será la más uniforme y por consiguiente la que te interesa... para lo que tu quieres solo te interesa ese calculo, aunque no está de más comprobar que se distribuye uniformemente comparando el elegido con el valor de la chi-cuadrado.

Para acabar comentar unas notas finales:

Chi-cuadrado se usa contra el spam.
Código para la chi-inversa. Aunque la he probado y no me da lo mismo que la CHIINV del excel.
En scipy está implementada, en el módulo stats.

miércoles, febrero 14, 2007

Interesante lectura: La increíble hisotoria de FAST [vía]

El futuro del XML en el 2007: Todavía no he leido el artículo pero tiene pinta de merecer la pena.
Con respecto a lo que dicen en barrapunto sobre los Web Services, de que han fracasado antes de despegar. Pues no lo se, ya que sólo lo he tocado de refilón. Pero si me parece la arquitectura un poco complicada.

martes, febrero 13, 2007

En una noticia de barrapunto, hay unos comentarios muy interesantes sobre virus y malware.
Como muestra éste. Ah! los comentarios son de runlevel0 (1932).

sábado, febrero 10, 2007

Navegando por ahí he llegado la web de Jorge Villanova, que fijate tu curra en TPI, en Noxtrum.
No he tenido de leer los posts, pero parece que tiene alguna entrada interesante:

En este habla sobre 'The Long Tail'
Y en este sobre 'The Search'

Un artículo muy bueno: Why Writing Your Own Search Engine is Hard [vía ojobuscador].

miércoles, febrero 07, 2007

Web 2.0

Un video muy bueno que explica que es la web 2.0.

domingo, febrero 04, 2007

Hacer software es dificil

Veo en barrapunto una noticia que me interesa: El software es dificil.
Por supuesto que lo es. Creo que el siguiente post de slasdot lo resume muy bien (la noticia en slasdot está enlazada desde barrapunto:

"Why doesn't anyone complain about how hard brain surgery is? Why doesn't anyone complain about how hard building space exploration vehicles is? Why doesn't anyone complain about how hard creating a successful marketing campaign is? Software engineering is difficult because it's a complex subject that takes a combination of intelligent people and training to produce good results. Just because businesses are too stupid to realize this doesn't make the problem go away. You can't throw complex projects at untrained, stupid, incompetent people and expect them to produce quality software. You can't just invent some magic formula for software development that will work 100% of the time to maximize efficiency. Software engineering is NOT manufacturing. Accept it and move on for fuck's sake. "

Recuerdo los tiempos de la facultad, cuando te hablaban de las herramientas de cuarta generación. Si hay algo que tengo cada vez mas claro es que jamás se podrá sustituir la labor humana en la producción de software. Es utópico.
En un curro como el mio actual, donde continuamente tienes que estar 'inventandote' algoritmos... dime tu como vas a sustituir esa labor humana. Y buscando soluciones... Y descubriendo y evaluando productos o librerias.... ¿Lo puede hacer cualquiera? Desde luego que no. A ver si algúndía se dan cuenta los que mueven el cotarro que hay que dar una vuelta de tuerca al mercado del desarrollo del software. Se den cuenta de que no somos monos que pulsamos teclas.

miércoles, enero 31, 2007

Totalmente de acuerdo: ¿Que si tiene futuro la Ingeniería Informática?

martes, enero 30, 2007

Tipos set y Set

Me acabo de dar cuenta de que a partir de la versión 2.4 de python existe como 'built-in type' el tipo set.
En versiones anteriores había que usar el tipo Set del modulo sets.
Por lo que he podido leer es mas mejor ahora usar set.

Un post interesante de OjoBuscador de José R. Pérez Agüera: Todo el mundo tiene un buscador, pero ¿realmente lo tienen? Interesante echarle un ojo a los comentarios.

¡chapó!: Reglas estúpidas [kirai.net].

lunes, enero 29, 2007

Ejecutar comandos del sistema

Conocía os.system, pero hoy en la python-es han comentado un par de opciones mas; popen:

import os
data=os.popen('ls').read()
file=open('fichero.txt','w')
file.write(data)
file.close()

Y con commands:

import commands
out = commands.getoutput('ls')

f = file('lsout.txt', 'w')
f.write(out)
f.close()

SSH Tuneling

ssh -l username -g -L localport:remotehost:remoteport remotegateway

Sobre Google Bombing y Don´t be evil [Ismael El-Qudsi].

viernes, enero 26, 2007

Mas sobre cssutils

Antes de nada indicar que estoy usando la distribución 0.9.1b3 de cssutils.

Tests
En teoria los test podriamos ejecutarlos tras hacer una build del paquete, o incluso tras descomprimirlo. Mediante:

python setup.py test

Pero por lo que sea no me ha funcinado. Bueno no pasa nada... podemos lanzar los test desde el directorio de tests (../src/cssutils/tests) de la siguiente manera (en 'kk' tendremos la salida):

for i in test_*.py; do echo $i >> kk; python $i >> kk 2>&1; done

Veremos que aparecen trazas de error. No pasa nada. Lo importante es que el test nos devuelva OK.

encutils

cssutils tiene un paquete, encutils, a tener en cuenta.
La funcion principal es getEncodingInfo que devuelve informacion sobre le encoding. Esta informacion se extrae del elemento pasado: headers de HTTPResponse, XML declaration y lementos meta X/HTML.
Resumiendo podemos pasar un HTTPResponse o un texto como argumento.
Aunque no la he probado, parece currada.

csscapture
Permite extraer todos las hojas de estilo de una url determinada (incluyendo las que estan embebidas en la propia página html).
Usa HTMLParser.

El parseo (interioridades)
El parser desencadena el parseo al asignar el texto del css al objeto CSSStylesheet.
Para realizar el parseo se usa tokenizer.CSSTokenizer.
El único pero que veo a cssutils es que es un poco lento con el parseo. Necesitamos mas velocidad. No se si se podrá obtimizar algo... He estado echando un vistazo rápido pero el codigo no es sencillo.
Habrá que meteler el profiler, a ver si hay algo que canta.

martes, enero 23, 2007

Python bindings

Un par de productos para crear bindings entre python y otros lenguajes:

boost.python. Para C++
swig. [introducción]

lunes, enero 22, 2007

Parsers de CSS

He tenido que mirar que hay por ahí, para parsear CSS's en python. Lo primero que tengo que decir es que estoy realmente sorprendido. No he encontrado ningún producto maduro, y ni siquiera unos bindings en python.

Los dos parsers que he encontrado en python usan además DOM, por lo que no hay nada SAX (o en gerga CSS SAC).
Esto significa que alguien con interés, ganas y tiempo puede hacer algo útil para la comunidad del software libre...

Pero lo que mas me sorprende es no haber encontrado nada ni en python-es, ni en comp.lang.python.

Antes de entrar a comentar los parsers, comentar que CSS tiene tres versiones, CSS1, CSS2 y CSS3 (en desarrollo).
Todos los parsers implementan CSS1 y por lo que he podido ver CSS2 parcialmente.

Bueno al lio... los parsers de python encontrados son:

cssutils (beta) y
TechGame Framework CSS Parser and Engine (alpha)

de los dos parece más maduro cssutils, pero todavía no los he probado.

Si no nos convencen ninguno de los dos, no nos va a quedar mas remedio que implementar unos bindings a alguno existente en C (vamos lo normal en python... no lo vamos a hacer de uno implementado en Java; ummm, aunque no he dicho un disparate... siempre se puede usar jython ;)). En C he encontrado:

El SAC de w3.org.
Libcroco: parser SAC y CSSOM like api para gnome.

Finalmente se puede intentar usar el parser que use algún browser (implementando el binding correspondiente, claro). Entre los disponibles parece que el candidato más lógico sería usar del del firefox, Gecko.
Mas info sobre el parser de CSS de Gecko aquí.

jueves, enero 11, 2007

Validad un DTD

Si queremos validar un DTD lo que podemos hacer es usar un validador de xml que use dicho DTD.
Al cargarlo detectará posibles errores.
Por ejemplo podemo susar xmllint:

xmllint --valid

miércoles, enero 10, 2007

RSS Readers

Ya he comentado anteriormente sobre agregadores de feeds: [1],[2] y [3].
Me vuelve a surgir el tema porque tengo que obtener feeds de una intranet, por lo que los lectores web no me sirven. Voy a tener que usar el firefox o bien una aplicación local.
Para windows me recomiendan Omea Reader (Net 2.0) y para linux liferea (gnome) o kagregator. (kde)
Con el firefox voy a echarle un vistazo a sage y ver como funcionan los live bookmarks.

La tecnología de clustering de google.

¿Devaluacion de la informatica también en la ESO?
Aunque es un poco bobá lo que dicen.

martes, enero 09, 2007

¿libxml2 leak in python (html sax-parsing)?

Me siento un poco fustrado con el parser de html de libxml2. Se nos va memoria a saco y no tengo ni idea de como evitarlo.
He preguntado a la lista, pero no ha servido de mucho. A ver si me aclaran algo mas... Actualizaré el post cuando sepa algo.

Tras detectar que en nuestro codigo el mayor problema con la memoria lo teníamos con el parser sax de html de libxml2, modifiqué el test que acompaña a la distribución (pushSAXhtml.py)para que en lugar de procesar 1 fichero, procese N, siendo N un número suficientemente grande para ver las perdidas de memoria...

Pues bien, en algo mas de 10 minutos procesando el proceso se cae por un segmentation fault.
El específico en el bucle para procesar el fichero por el parser es:

ctxt = libxml2.htmlCreatePushParser(handler, initdata, 0, inputFilePath)
ctxt.htmlParseChunk(data, len(data), 1)
ctxt = None

En el callback no hacemos nada:

class callback:
def startDocument(self):
print "."

def endDocument(self):
pass

def startElement(self, tag, attrs):
pass

def endElement(self, tag):
pass

def characters(self, data):
pass

def warning(self, msg):
pass

def error(self, msg):
pass

def fatalError(self, msg):
pass

¡Ojo! la fuga de memoria la vemos a nivel del sistema operativo (con top o mirando en /proc (por ejemplo con mem-monitor)), ya que las rutinas específicas de libxml2 nos indican que todo está OK.
En fin... que con este problema no podemos llevar nuestro codigo a producción. O solucionamos esto o tenemos que mirar otro parser (posible candidato beautifulsoup); cosa que no me gustaría.

Otra cosa que me ha frustado mucho es no encontrar nada en la web. ¿Es que nadie por ahí esta parseando html con libxml2 usando SAX? No me lo puedo creer...

Ah! un detalle que se me olvidada. En el código asignamos None al contexto. Es correcto. Eso provoca la invocación a xmlFreeParserCtxt(que es lo mismo que htmlFreeParserCtxt: esta llama a la anterior). Con lo cual no tenemos que liberar nada mas, ya que el documento no lo usamos. De hecho si intentamos obtener el documento los bindings de python nos devolverán una excepción.

Para terminar de cerrar el tema y asegurame de que no hay nada raro en mi entorno he hecho el ejemplo equivalente en C, y ha funcionado sin problemas. Ahí va el codigo:


/* libxml2 C HTML Parser Example 
 * gcc  -I -L -lxml2
 */

#include 
#include 
#include 
#include 
#include 
#include 

#define BUFFER_SIZE 100000
#define NUM_ITERS  10000
#define FILE_PATH   ""

/*****************************************************************************/

/*
 * Foo context structure
 */
typedef struct
{  
 int foo;
} Context;

/*
 *  libxml start element callback function
 */
void startElement(void *voidContext,
                         const xmlChar *name,
                         const xmlChar **attributes)
{
 return;
}


/*
 *  libxml end element callback function
 */
void endElement(void *voidContext,
                       const xmlChar *name)
{ 
 return;
}



/*
 *  Text handling helper function
 */
void handleCharacters(Context *context,
                             const xmlChar *chars,
                             int length)
{
 return;
}



/*
 *  libxml PCDATA callback function
 */

void characters(void *voidContext,
                       const xmlChar *chars,
                       int length)
{ 
 return;
}



/*
 *  libxml CDATA callback function
*/

void cdata(void *voidContext,
                  const xmlChar *chars,
                  int length)
{  
 return;
}




htmlSAXHandler saxHandler =
{
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  startElement,
  endElement,
  NULL,
  characters,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  NULL,
  cdata,
  NULL
};


/*****************************************************************************/

char buffer[BUFFER_SIZE];

int main(void)
{
 htmlParserCtxtPtr ctxt;
  Context context;
  char *filepath=FILE_PATH;
  FILE *f = NULL;
  long fileLen = 0;
  long retRead = 0;
  int i=0;

  
  /*---- Reading the data */
  /*
  struct stat myStat;
  stat(filepath,&myStat);
  if (myStat.st_size >= BUFFER_SIZE)
  {
   print("El fichero no cabe en el buffer\n");
   return 1;
  }
  */
  
  f = fopen(filepath, "r"); 
  
  if ( f == NULL )             /* Could not open file */
  {
    printf("Error opening %s: %s (%u)\n", filepath, strerror(errno), errno);
    return 1;
  }
  
  fseek(f, 0L, SEEK_END); /* Position to end of file */
  fileLen = ftell(f);    /* Get file length */
  rewind(f);              /* Back to start of file */
  
  if (fileLen >= BUFFER_SIZE)
  {
   printf("El fichero no cabe en el buffer: %d\n",fileLen);
   return 1;
  }
  
  
  retRead = fread(buffer,fileLen,1,f);  
  if (retRead != 1)
  {
   printf("Error haciendo el read");
   return 1;
  }
  fclose(f);
  
  /*---- We parser the file */    
  for(i=0;i < NUM_ITERS; ++i)
  {
   ctxt = htmlCreatePushParserCtxt(&saxHandler, &context, "", 0, "",
                                  XML_CHAR_ENCODING_NONE);
   htmlParseChunk(ctxt, buffer, fileLen, 0);
   htmlParseChunk(ctxt, "", 0, 1);
   htmlFreeParserCtxt(ctxt);   
   printf(".\n");  
 }
   
  
  return 0;
}

Para hacerlo operativo modificar las constantes BUFFER_SIZE, NUM_ITERS, FILE_PATH, al gusto del consumidor.

miércoles, enero 03, 2007

Uso de etiquetas en blogger

Hace poco he migrado todos mis blogs a la nueva versión de blogger. Mi mayor interés para ello era el poder etiquetar los posts.

Pero una vez hecho, la template usada se mantenía (no se mostraban las labels). Tras estar indagando un poco he visto que es necesario actualizar la template, pudiendo modificar el diseño a golpe de ratón, cosa que antes no se podía. Es una gran mejora.
¡¡¡Ojo!!! Si en la template anterior habeis hecho modificaciones a mano se perderán, si no las meteis en la nueva template antes de guardarla.

Ya con respecto a las etiquetas indicar un par de cosas:

se muestran como una lista, bien ordenada alfabéticamente o por frecuencia
se pueden hacer feeds por las etiquetas; mas información aquí.

Si en lugar de querer una lista queremos cosillas mas chulas como por ejemplo una nube, pues en la web podeis encontrar info al respecto, como por ejemplo: Code for Beta Blogger Label Cloud.

Y ya para acabar indicar que si estamos en blogger, cuando estamos visualizando nuestro blog, nos permite editar los elementos compositivos de la template (por ejemplo añadir un enlace a la lista de enlaces).

Resumiendo: ha mejorado mucho blogger con esta nueva versión.

martes, enero 02, 2007

Lo que pasó en el 2006 según OjoBuscador.