¿Cómo descargar conjuntos de datos para sklearn? – python

En NLTK hay una función nltk.download() para descargar los conjuntos de datos que vienen con la suite de NLP.

En sklearn, habla sobre la carga de conjuntos de datos ( http://scikit-learn.org/stable/datasets/ ) y la obtención de datos de http://mldata.org/, pero para el rest de los conjuntos de datos, las instrucciones fueron para descargar de la fuente

¿Dónde debo guardar los datos que he descargado de la fuente? ¿Hay otros pasos después de guardar los datos en el directorio correcto antes de poder llamar desde mi código de python?

¿Hay un ejemplo de cómo descargar, por ejemplo, el conjunto de datos de 20newsgroups ?

He instalado sklearn y he intentado esto, pero tengo un IOError . Probablemente porque no he descargado el conjunto de datos de la fuente.

 >>> from sklearn.datasets import fetch_20newsgroups >>> fetch_20newsgroups(subset='train') Traceback (most recent call last): File "", line 1, in  File "/usr/local/lib/python2.7/dist-packages/sklearn/datasets/twenty_newsgroups.py", line 207, in fetch_20newsgroups cache_path=cache_path) File "/usr/local/lib/python2.7/dist-packages/sklearn/datasets/twenty_newsgroups.py", line 89, in download_20newsgroups tarfile.open(archive_path, "r:gz").extractall(path=target_dir) File "/usr/lib/python2.7/tarfile.py", line 1678, in open return func(name, filemode, fileobj, **kwargs) File "/usr/lib/python2.7/tarfile.py", line 1727, in gzopen **kwargs) File "/usr/lib/python2.7/tarfile.py", line 1705, in taropen return cls(name, mode, fileobj, **kwargs) File "/usr/lib/python2.7/tarfile.py", line 1574, in __init__ self.firstmember = self.next() File "/usr/lib/python2.7/tarfile.py", line 2334, in next raise ReadError("empty file") tarfile.ReadError: empty file 

Un problema de conexión de red probablemente ha dañado el archivo fuente en su disco. Elimine los veinte grupos o carpetas relacionados de su carpeta scikit_learn_data en el directorio de inicio de su usuario e intente nuevamente.

 $ cd ~/scikit_learn_data' $ rm -rf 20news_home $ rm 20news-bydate.pkz