¿Cómo forzar a scrapy a rastrear la URL duplicada?

Estoy aprendiendo Scrapy un marco de rastreo web.
de forma predeterminada, no rastrea las direcciones URL duplicadas o las que scrapy ya ha rastreado.

¿Cómo hacer que Scrapy rastree las URL duplicadas o que ya se han rastreado?
Intenté averiguarlo en internet pero no pude encontrar ayuda relevante.

Encontré DUPEFILTER_CLASS = RFPDupeFilter y SgmlLinkExtractor de Scrapy: la araña rastrea las URL duplicadas, pero esta pregunta es opuesta a la que estoy buscando.

Probablemente esté buscando el argumento dont_filter=True en Request() . Ver http://doc.scrapy.org/en/latest/topics/request-response.html#request-objects

Una solución más elegante es deshabilitar el filtro duplicado por completo:

 # settings.py DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter' 

De esta manera, no tiene que saturar todo el código de creación de su Solicitud con dont_filter=True . Otro efecto secundario: esto solo deshabilita el filtrado duplicado y no otros filtros como el filtrado externo.

Si desea utilizar esta configuración de forma selectiva solo para una o varias arañas en su proyecto, puede establecerla a través de custom_settings en la implementación de la araña:

 class MySpider(scrapy.Spider): name = 'myspider' custom_settings = { 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', }