Articles of urlopen

Web raspado urlopen en python

Estoy intentando obtener los datos de este sitio web: http://www.boursotwig.com/includes/cours/last_transactions.phtml?symbole=1xEURUS Parece que urlopen no recibe el código html y no entiendo por qué. Va como: html = urllib.request.urlopen(“http://www.boursotwig.com/includes/cours/last_transactions.phtml?symbole=1xEURUS”) print (html) Mi código es correcto, obtengo la fuente html de otras páginas web con el mismo código, pero parece que no reconoce esta dirección. se imprime: […]

La ruptura de urliben de Urllib en algunos sitios (por ejemplo, api de StackApps): devuelve resultados de basura

Estoy usando la función urlopen para intentar obtener un resultado JSON de la api StackOverflow. El código que estoy usando: >>> import urllib2 >>> conn = urllib2.urlopen(“http://api.stackoverflow.com/0.8/users/”) >>> conn.readline() El resultado que estoy obteniendo: ‘\x1f\x8b\x08\x00\x00\x00\x00\x00\x04\x00\xed\xbd\x07`\x1cI\x96%&/m\xca{\x7fJ\… Soy bastante nuevo en urllib, pero esto no parece ser el resultado que debería obtener. Lo he intentado en otros […]

tiempo de espera para urllib2.urlopen () en versiones pre Python 2.6

La documentación de urllib2 dice que el parámetro de tiempo de espera se agregó en Python 2.6. Desafortunadamente, mi base de código se ha ejecutado en las plataformas Python 2.5 y 2.4. ¿Hay alguna forma alternativa de simular el tiempo de espera? Todo lo que quiero hacer es permitir que el código hable con el […]

Utilice “objeto similar a un byte” de urlopen.read con JSON?

Solo trato de probar comandos muy simples de Python JSON, pero estoy teniendo algunos problemas. urlopen(‘http://www.similarsitesearch.com/api/similar/ebay.com’).read() debe dar salida ‘{“num”:20,”status”:”ok”,”r0″:”http:\\/\\/www.propertyroom.com\\/”,”r1″:”http:\\/\\/www.ubid.com\\/”,”r2″:”http:\\/\\/www.bidcactus.com\\/”,”r3″:”http:\\/\\/www.etsy.com\\/”,”r4″:”http:\\/\\/us.ebid.net\\/”,”r5″:”http:\\/\\/www.bidrivals.com\\/”,”r6″:”http:\\/\\/www.ioffer.com\\/”,”r7″:”http:\\/\\/www.shopgoodwill.com\\/”,”r8″:”http:\\/\\/www.beezid.com\\/”,”r9″:”http:\\/\\/www.webidz.com\\/”,”r10″:”http:\\/\\/www.auctionzip.com\\/”,”r11″:”http:\\/\\/www.overstock.com\\/”,”r12″:”http:\\/\\/www.bidspotter.com\\/”,”r13″:”http:\\/\\/www.paypal.com\\/”,”r14″:”http:\\/\\/www.ha.com\\/”,”r15″:”http:\\/\\/www.onlineauction.com\\/”,”r16″:”http:\\/\\/bidz.com\\/”,”r17″:”http:\\/\\/www.epier.com\\/”,”r18″:”http:\\/\\/www.sell.com\\/”,”r19″:”http:\\/\\/www.rasmus.com\\/”}’ pero me sale la misma cadena, con una b en el frente: b'{“num”:20,”status”:”ok”,”r0″:”http:\\/\\/www.propertyroom.com\\/”,”r1″:”http:\\/\\/www.ubid.com\\/”,”r2″:”http:\\/\\/www.bidcactus.com\\/”,”r3″:”http:\\/\\/www.etsy.com\\/”,”r4″:”http:\\/\\/us.ebid.net\\/”,”r5″:”http:\\/\\/www.bidrivals.com\\/”,”r6″:”http:\\/\\/www.ioffer.com\\/”,”r7″:”http:\\/\\/www.shopgoodwill.com\\/”,”r8″:”http:\\/\\/www.beezid.com\\/”,”r9″:”http:\\/\\/www.webidz.com\\/”,”r10″:”http:\\/\\/www.auctionzip.com\\/”,”r11″:”http:\\/\\/www.overstock.com\\/”,”r12″:”http:\\/\\/www.bidspotter.com\\/”,”r13″:”http:\\/\\/www.paypal.com\\/”,”r14″:”http:\\/\\/www.ha.com\\/”,”r15″:”http:\\/\\/www.onlineauction.com\\/”,”r16″:”http:\\/\\/bidz.com\\/”,”r17″:”http:\\/\\/www.epier.com\\/”,”r18″:”http:\\/\\/www.sell.com\\/”,”r19″:”http:\\/\\/www.rasmus.com\\/”}’ Posteriormente, cuando bash correr. json.loads(urlopen(‘http://similarsitesearch.com/api/similar/ebay.com’).read()) me da el mensaje de error: TypeError: no se puede usar un patrón de cadena en un […]

Python urllib2 urlopen respuesta

Python urllib2 urlopen respuesta: <addinfourl at 1081306700 whose fp = > esperado: {“token”: “mYWmzpunvasAT795niiR”}

¿Cómo establecer el indicador TCP_NODELAY al cargar la URL con urllib2?

Estoy usando urllib2 para cargar una página web, mi código es: httpRequest = urllib2.Request(“http:/www….com”) pageContent = urllib2.urlopen(httpRequest) pageContent.readline() ¿Cómo puedo obtener las propiedades del socket para establecer TCP_NODELAY ? En socket normal estaría usando la función: socket.setsockopt(socket.IPPROTO_TCP, socket.TCP_NODELAY, 1)

¿Cómo tratar con ® en url para urllib2.urlopen?

Recibí una url: https://www.packtpub.com/virtualization-and-cloud/citrix-xenapp®-75-desktop-virtualization-solutions ; Es de BeautifulSoup. url=u’https://www.packtpub.com/virtualization-and-cloud/citrix-xenapp\xae-75-desktop-virtualization-solutions’ Quiero alimentar de nuevo en urllib2.urlopen de nuevo. import urllib2 source = urllib2.urlopen(url).read() El error que recibo: UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\xae’ in position 43: illegal multibyte sequence Por lo tanto, he intentado: source = urllib2.urlopen(url.encode(“utf-8”)).read() Obtuvo la fuente de la página, sin embargo, […]

Python verifica si existe sitio

Quería comprobar si existe un determinado sitio web, esto es lo que estoy haciendo: user_agent = ‘Mozilla/20.0.1 (compatible; MSIE 5.5; Windows NT)’ headers = { ‘User-Agent’:user_agent } link = “http://www.abc.com” req = urllib2.Request(link, headers = headers) page = urllib2.urlopen(req).read() – ERROR 402 generated here! Si la página no existe (error 402, o cualquier otro error), […]

Cómo evitar una redirección “oculta” con urlopen () en Python

Estoy usando BeautifulSoup para el rastreo web y tengo problemas con un tipo particular de sitio web cuando uso urlopen . Cada artículo en el sitio web tiene su propia página única y el artículo viene en diferentes formatos (por ejemplo, 500 ml, 1L, 2L, … ). Cuando abro la URL del producto ( www.example.com/product1 […]

Dile a urllib2 que use DNS personalizado

Me gustaría decirle a urllib2.urlopen (o un abridor personalizado ) que use 127.0.0.1 (o ::1 ) para resolver direcciones. Sin embargo, no cambiaría mi /etc/resolv.conf . Una posible solución es usar una herramienta como dnspython para consultar direcciones y httplib para crear un abridor de URL personalizado. Sin urlopen , prefiero decirle a urlopen que […]