Beautiful Soup no ‘recibe’ página web completa

Estoy usando BeautifulSoup para analizar un montón de enlaces de esta página, pero no estaba extrayendo todos los enlaces que quería. Para intentar averiguar por qué, descargué el html a “web_page.html” y lo ejecuté

soup = BeautifulSoup(open("web_page.html")) print soup.get_text() 

Me doy cuenta de que no imprime toda la página web. Termina en Brackley. Miré el código html para ver si algo extraño estaba sucediendo en ‘Brackley’ pero no pude encontrar nada. Además, si muevo otro enlace al lugar de Brackley, se imprimirá eso y no Brackley. ¿Parece que solo leerá un archivo html de cierto tamaño?

Trate de usar diferentes analizadores. No está especificando uno, por lo que probablemente esté usando el html.parser predeterminado. Trate de usar lxml o html5lib .

Para más información: http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

No estoy seguro de cómo obtuviste la página y los enlaces, esto es lo que hice y obtuve todos los enlaces que comienzan desde “Canadá” y terminan con “Taloyoak, HAM”:

 from bs4 import BeautifulSoup import requests url = 'http://www12.statcan.gc.ca/census-recensement/2006/dp-pd/tbt/Geo-index-eng.cfm?TABID=5&LANG=E&APATH=3&DETAIL=0&DIM=0&FL=A&FREE=0&GC=0&GID=0&GK=0&GRP=1&PID=99015&PRID=0&PTYPE=88971,97154&S=0&SHOWALL=0&SUB=0&Temporal=2006&THEME=70&VID=0&VNAMEE=&VNAMEF=&D1=0&D2=0&D3=0&D4=0&D5=0&D6=0' response = requests.get(url) soup = BeautifulSoup(response.content) print [a.text for a in soup.select('div.span-8 ol li a')] 

Huellas dactilares:

 [ u'Canada', u'Newfoundland and Labrador / Terre-Neuve-et-Labrador', ... u'Gjoa Haven, HAM', u'Taloyoak, HAM' ] 

Para su información, div.span-8 ol li a es un CSS Selector .