Articles of mecanizar

Proxy parece ser ignorado por Mechanize?

Estoy usando un proxy http y el módulo Mechanize. Inicializo el objeto de mecanizar y configuro el proxy como tal: self.br = mechanize.Browser() self.br.set_proxies({“http”: proxyAddress}) #proxy address is like 1.1.1.1:8080 Entonces abro el sitio así: response = self.br.open(“http://google.com”) Mi problema es que mecanize parece estar ignorando completamente el proxy. Si depuro e inspecciono el objeto […]

Obtención y captura de la respuesta HTTP utilizando Mechanize en Python

Estoy tratando de obtener los códigos de respuesta de Mechanize en Python. Si bien puedo obtener un código de estado 200, no se devuelve nada más (404 lanzamientos y excepción y 30x se ignora). ¿Hay alguna manera de obtener el código de estado original? Gracias

¿Motor de Javascript (y procesamiento de HTML) sin una GUI para automatización?

¿Existen bibliotecas o marcos que proporcionen la funcionalidad de un navegador, pero que no necesiten renderizarse físicamente en la pantalla? Quiero automatizar la navegación en las páginas web (Mechanize hace esto, por ejemplo), pero quiero la experiencia completa del navegador, incluido Javascript. Por lo tanto, me gustaría tener un navegador virtual de algún tipo, que […]

Rastreador web: ¿ignorar el archivo Robots.txt?

Algunos servidores tienen un archivo robots.txt para evitar que los rastreadores web rastreen sus sitios web. ¿Hay alguna forma de hacer que un rastreador web ignore el archivo robots.txt? Estoy usando mecanizar para python.

BeautifulSoup no extrae todos los html

Estamos intentando obtener las URL de los productos en esta página del sitio de Forever 21 ( http://www.forever21.com/Product/Category.aspx?br=f21&category=dress&pagesize=100&page=1 ). Por alguna razón, BeautifulSoup no está obteniendo los elementos con la clase “item_pic”, a pesar de que están en el sitio html. Hemos intentado usar peticiones, mecanizar, selenium, y no estamos teniendo suerte. Todo el código […]

Descargando archivo con mecanizar Python

Estoy tratando de descargar un archivo de un sitio web usando python y mecanizar. Mi código actual inicia sesión con éxito en el sitio web y abre la página que contiene el enlace de descarga. El enlace de descarga es: https://www.lendingclub.com/browse/browseNotesRawDataV2.action La información para el enlace es: Link(base_url=’https://www.lendingclub.com/browse/browse.action’, url=’/browse/browseNotesRawDataV2.action’, text=”, tag=’a’, attrs=[(‘class’, ‘master_pngfix’), (‘id’, ‘browseDownloadAllLink’), […]

Obligando a Mecanizar a usar SSLv3

¿Cómo obligaría a mecanizar el uso de SSLv3 para las URL de HTTPS que lo requieren? Si trato de utilizar mecanizar con todas las URL solo de SSLv3, obtengo el error: URLError:

Cómo obtener la imagen captcha generada utilizando mecanizar.

Estoy tratando de usar Python y mecanizar para enviar sms desde el sitio web de mi proveedor de servicios móviles. El problema es que la forma tiene una imagen captcha. Al usar mecanize puedo obtener el enlace a la imagen, pero es diferente cada vez que accedo a ese enlace. ¿Hay alguna manera de obtener […]

¿Mecanizar cómo agregar a una lista de selección?

Acabo de empezar a experimentar con la presentación de formularios web a través de mecanizar. En esta página web hay una lista de elementos para seleccionar, MASTER_MODS . Estos se pueden seleccionar en cualquiera de los MODS usando un comando add_MODS o en IT_MODS usando un botón add_IT_MODS (vea la figura en la parte inferior). […]

Cómo omitir Mechanize “AmbiguityError” en Python

Estoy tratando de subir imágenes a ImageBam llenando sus formularios web y solicitando POST. No sé mucho sobre urllib2, httplib, multipartas. Estoy tratando de usar el módulo MECHANIZE. Pero creo que no debería ser demasiado complejo porque es solo un formulario web, lo rellenaré y lo publicaré. La página, donde los formularios de carga son: […]