Articles of elasticsearch

¿Cómo hacer uso de la caché del sistema de archivos en Java o Python?

Una publicación reciente del blog en el sitio web de Elasticsearch habla de las características de su nueva versión 1.4 beta. Tengo mucha curiosidad acerca de cómo hacen uso del caché del sistema de archivos: Las versiones recientes han agregado soporte para los valores de doc. Esencialmente, los valores de documento proporcionan la misma función […]

El pajar de Django EdgeNgramField obtuvo resultados diferentes a los de elasticsearch

Actualmente estoy ejecutando un pajar con un backend de elasticsearch, y ahora estoy construyendo un autocompletado para los nombres de las ciudades. El problema es que SearchQuerySet me está dando resultados diferentes, que desde mi perspectiva son incorrectos, que la misma consulta ejecutada directamente en elasticsearch, que son para mí los resultados esperados. Estoy usando: […]

¿Cómo obtener elasticsearch para realizar una consulta de coincidencia exacta?

Esta es una pregunta de dos partes. Mis documentos se ven así: {“url”: “https://someurl.com”, “content”: “searchable content here”, “hash”: “c54cc9cdd4a79ca10a891b8d1b7783c295455040”, “headings”: “more searchable content”, “title”: “Page Title”} Mi primera pregunta es cómo recuperar todos los documentos donde ‘título’ es exactamente “Sin título”. No quiero que aparezca un documento con el título “Este documento no tiene […]

Tiempo de espera de conexión con Elasticsearch

from datetime import datetime from elasticsearch import Elasticsearch es = Elasticsearch() doc = { ‘author’: ‘kimchy’, ‘text’: ‘Elasticsearch: cool. bonsai cool.’, ‘timestamp’: datetime(2010, 10, 10, 10, 10, 10) } res = es.index(index=”test-index”, doc_type=’tweet’, id=1, body=doc) print(res[‘created’]) Este código simple está devolviendo el siguiente error: elasticsearch.exceptions.ConnectionTimeout: ConnectionTimeout caused by – ReadTimeoutError(HTTPConnectionPool(host=’localhost’, port=9200): Read timed out. (read […]

Creación de DataFrame a partir de los resultados de ElasticSearch

Estoy tratando de construir un DataFrame en pandas, usando los resultados de una consulta muy básica para ElasticSearch. Estoy obteniendo los datos que necesito, pero es una cuestión de dividir los resultados en una forma de construir el dataframe adecuado. Realmente solo me importa obtener la marca de tiempo y la ruta de cada resultado. […]

Django Haystack Valor Distinto para Campo

Estoy construyendo un pequeño motor de búsqueda utilizando Django Haystack + Elasticsearch + Django REST Framework, y estoy tratando de averiguar cómo reproducir el comportamiento del método distinct de un Django QuerySet . Mi índice se ve algo como esto: class ItemIndex(indexes.SearchIndex, indexes.Indexable): text = indexes.CharField(document=True, use_template=True) item_id = indexes.IntegerField(faceted=True) def prepare_item_id(self, obj): return obj.item_id […]

Volcar datos elásticos en csv o en cualquier NOSQL a través de python

Como sabemos, no podemos obtener más de 10000 filas en python desde la búsqueda elástica debido a un problema de error de conexión. Quiero datos durante dos horas de mi grupo elástico y por cada 5 minutos, tengo aproximadamente 10000 observaciones. 1.) ¿Hay alguna forma si puedo simplemente descargar los datos de búsqueda elástica directamente […]

Cómo utilizar elasticsearch.helpers.streaming_bulk

Alguien puede recomendar cómo usar la función elasticsearch.helpers.streaming_bulk en lugar de elasticsearch.helpers.bulk para indexar datos en elasticsearch. Si simplemente cambio streaming_bulk en lugar de en bloque, nada se indexa, por lo que supongo que se debe utilizar de forma diferente. El código a continuación crea datos de índice, tipo e índice del archivo CSV en […]

Formato de la salida de elasticsearch-py

Estoy tratando de usar el cliente de python para elasticsearch . Aquí hay un ejemplo mínimo: import logging logging.basicConfig() from elasticsearch import Elasticsearch as ES print “Setup connection…” es=ES([‘localhost:8080′]) print “Done!” print “Count number of users…” print es.count(index=’users’) La salida es: {u’count’: 836780, u’_shards’: {u’successful’: 5, u’failed’: 0, u’total’: 5}} Tengo dos preguntas: ¿Cómo me […]

Búsqueda elástica que no da datos con gran número para el tamaño de la página

Tamaño de los datos a obtener: 20,000 aprox. Problema: buscar datos indexados de Elastic Search usando el comando de abajo en python Pero no obteniendo ningún resultado. from pyelasticsearch import ElasticSearch es_repo = ElasticSearch(settings.ES_INDEX_URL) search_results = es_repo.search( query, index=advertiser_name, es_from=_from, size=_size) Si doy un tamaño menor o igual a 10,000, funciona bien pero no con […]