Cesar Ortiz: 02/2008

lunes, febrero 25, 2008

urllib vs urllib2

Haciendo unas pruebecillas con la página de la wikipedia de mi signo chino, me pasaba una cosa curiosa que era que en la maquina en la que estaba ejecutando mi código me daba un error:


>>> import urllib2
>>> urllib2.urlopen("http://es.wikipedia.org/wiki/Rata")
Traceback (most recent call last):
 File "", line 1, in ?
 File "/usr/lib/python2.4/urllib2.py", line 130, in urlopen
   return _opener.open(url, data)
 File "/usr/lib/python2.4/urllib2.py", line 364, in open
   response = meth(req, response)
 File "/usr/lib/python2.4/urllib2.py", line 471, in http_response
   response = self.parent.error(
 File "/usr/lib/python2.4/urllib2.py", line 402, in error
   return self._call_chain(*args)
 File "/usr/lib/python2.4/urllib2.py", line 337, in _call_chain
   result = func(*args)
 File "/usr/lib/python2.4/urllib2.py", line 480, in http_error_default
   raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden

Pero sin embargo, haciendo un wget, si que la obtenía...
Se me ocurre probar con urllib en lugar de con urllib2 y si que la obtengo. ¿Mande?

Solución ñapa temporal :pppp:


try:
 h = urllib2.urlopen(theUrl)
except:
 h = urllib.urlopen(theUrl)

¡Dios! ¡soy un lumbreras!
Bueno seamos serios.... tras probar mis cosillas gracias a la ñapa, procedamos a mirar que es lo que realmente está pasando...
Pues lo que está pasando es que urllib2 está enviando unos headers al servidor web que no le molan...
La solución es cambiar el user agent.
Para ello lo que tenemos que hacer es proceder del siguiente modo (por ejemplo):


userAgent = 'Mozilla'                  # Por ejemplo
headers = { 'User-Agent' : userAgent }
req = urllib2.Request(theUrl, None, headers)
response = urllib2.urlopen(req)
thePage = response.read()

Referencias:

urllib2 - The Missing Manual[y aqui equivalente]
Y otro artículo del mismo site, sobre el manejo de cookies. Nota: hay más artículos interesantes.
Listado de user agents.

Cesar Ortiz

lunes, febrero 25, 2008

urllib vs urllib2

lunes, febrero 04, 2008

HTML5 or XHTML 2.0