Diccionario palabras Español en texto
Un diccionario con todas las palabras del Español en formato texto nos puede ser muy útil, sobretodo en proyectos que trabajen con texto.
NOTA: Octubre 2020, Actualizado y completo.
Esta publicación lleva tiempo en la web y en la versión anterior faltaba algunos términos y la letra v, perdí el código y no podía volver a ejecutarlo. He rehecho el script desde cero. Si hay interés deja un comentario y hago un post con el código del mini-robot web en python.
Tras buscar por Internet un diccionario de estas características y no encontrarlo, he decidido subir el mío propio.
Os dejo los enlaces a los diccionarios (Uno por cada letra del abecedario y uno con todas las palabras.)
NOTA: Este diccionario de palabras en Español en formato texto incluye las conjugaciones de los verbos.
Enlaces
Todas las palabras, comienzo A.
Todas las palabras, comienzo B.
Todas las palabras, comienzo C.
Todas las palabras, comienzo D.
El resto lo podéis encontrar en el repo
Muchas gracias por publicar el listado, la propia RAE debería publicar este tipo de contenidos
Gracias por este listado, es buena utilidad.
Saludo cordial.
Jorge: Muchas gracias por poner a disposición del mundo esta extensa recopilación. Por si no estás enterado, faltan las palabras con la letra V. Si tienes el fichero, te agradecería profundamente nos lo facilites también.
Buenos días, no encuentro el código del extractor de la rae… y es verdad que la v no está ni como fichero suelto ni en el fichero total.
Ya está actualizado
https://github.com/JorgeDuenasLerin/diccionario-espanol-txt
Gracias por el aporte. Muy útil.
Comencé por el final y según el DRAE la última palabra del diccionario es ‘zuzón’, el tuyo se detiene en ‘zurzo’. Esto y la omisión de la ‘v’, convierte todo tu trabajo en una pieza más de chatarra del internet.
Gracias por el comentario. No sé dónde dejé el código fuente y no puedo volver a ejecutarlo. Puedes programar un script que haga la búsqueda de palabras y colgar tu propuesta. Déjala en un comentario cuando la termines.
https://github.com/JorgeDuenasLerin/diccionario-espanol-txt
Muy valioso trabajo. Podrías dejar en tu github el script que has utilizado para dar validez a la técnica utilizada para extraer las palabras.
Muchas gracias y saludos cordiales.
Esta semana lo dejo que quiero escribir una entrada con los problemas que he tenido y cómo está desarrollado el código.
Por fin he tenido tiempo de escribir un post con la araña. Esta en esta entrada:
https://duenaslerin.com/diccionario-palabras-espanol-en-texto-script/
Espero que se entiendan las distintas partes.
Hola. Existe un corpus que además incluye la frecuencia de uso de las palabras. https://corpus.rae.es/lfrecuencias.html
El aporte significativo será el archivo txt con las principales definiciones de las 10,000 formas mas frecuentes.
profemaravi.blogspot.com
Buenos días Jorge. Me gustaría usar su código para mi TFG de informática, donde necesito crear una BBDD con todas las palabras del español con su raíz. Es para obtener la lista de todas las palabras del diccionario. No se si su código de github tiene esa disponibilidad pública. En caso de que no, sería posible disponer de su permiso para el uso del código? Si puede responderme con un email sería ideal. Un saludo
Claro! La semana que viene haré una actualización y aprovecho para poner licencia GPL