El poder de la palabra

Manuel Ángel García
Data Intelligence Manager. Techedge

No. No se preocupen. Este artículo no versará sobre religión. Un tema casi tan controvertido como la política en estos tiempos que corren.

Quién nos diría hace diez años que, en un mundo dominado por los unos y los ceros, la palabra comenzaría a tomar más y más relevancia. ¿Cuántos de nosotros no hemos hablado alguna vez con nuestro móvil, o con Alexa o con un Chatbot? Si Turing levantase la cabeza, su dilema quedaría resuelto al instante.

El porcentaje de los datos no estructurados y en lenguaje natural se acerca cada vez más al del dato estructurado. Esto ha obligado a que cada vez exista más la necesidad de algoritmos capaces de interpretar esta información: categorización de documentos, buzones de correo, análisis de sentimientos, impacto de campañas de marketing en el mercado, etc.

Evolución cronológica

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de la inteligencia artificial que ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano.

Las lenguas humanas pueden expresarse por escrito, oralmente y mediante signos. Es ahí cuando tratar computacionalmente una lengua implica un proceso de modelización matemática.


EDependiendo del caso de uso se utilizará un tipo de modelización:

  • NLP para la traducción Automática de texto.
  • NLP para la recuperación y extracción de información.
  • NLP para respuestas automáticas a preguntas.
  • Clasificación de documentos por categorías.
  • Análisis de sentimiento.

¿Por qué es tan necesaria esta tecnología? Los modelos de Machine Learning y Deep Learning permiten la automatización de tareas repetitivas que, tradicionalmente, se hacían de forma manual, además de dar solución en tiempo real a problemas que, anteriormente, suponían numerosas jornadas de múltiples recursos.

Uno de los casos más explotados es la interpretación de los textos de redes sociales. La comprensión del lenguaje empleado en las mismas es extremadamente complejo para los ordenadores. Normalmente el lenguaje utilizado en este ámbito suele contener múltiples modismos, erratas, faltas de ortografía y construcciones específicas como pueden ser los hashtags o emoticonos.

Además, los seres humanos aprenden fácilmente nuevas palabras según el contexto en el que aparecen, mientras que este proceso en los ordenadores es mucho más complejo. En las tecnologías Deep Learning este proceso puede realizarse de forma automática.

Dos factores han supuesto un gran progreso en PLN en los últimos años:


  1. Word Embeddings: traducción de palabras a un dominio matemático donde las palabras se representan con números que tratan de capturar la semántica de la palabra. Este proceso se realiza automáticamente usando millones de dominios públicos. De este modo, las máquinas aprenden la representación de billones de palabras sin intervención humana alguna.


2. Abstracción de más alto nivel de textos: gracias a Deep Learning, las representaciones de las palabras se combinan inteligentemente para obtener una visión semántica de documentos más complejos, como frases o documentos. Con esta información se puede obtener una comprensión del significado real de textos complejos, obteniendo así mejores resultados en comparación con sistemas de PLN previos que realizan análisis de sentimiento, traducción automática, detección de entidades, sistemas de pregunta/respuesta, etc.

Es importante reseñar en este punto un elemento importante del tratamiento de lenguaje mediante máquinas. Mientras que cuando un grupo de individuos analiza el contenido de un texto siempre existe un componente subjetivo -cada individuo, en función de su cultura, edad, lugar de procedencia lo interpretará de un modo-, una máquina siempre tratará todos los textos analizados con la misma lógica. Con lo que los resultados de su análisis siempre seguirán esa misma lógica.

Las aplicaciones de este tipo de técnicas pueden ser infinitas. Pensemos, por ejemplo, en la cantidad de documentos legales que se deben revisar e interpretar en un juzgado diariamente. Buzones de correos en los que se reciben miles de envíos que quedan desatendidos por falta de personal.

Si vamos un poco más allá, las técnicas de machine learning pueden ayudar a un teleoperador a derivar la conversación ofreciendo un producto u otro en función de las respuestas que vaya realizando el interlocutor. O podría ser utilizado para analizar cuál fue el tratamiento del teleoperador frente al cliente evaluando así el desempeño de su trabajo.

La clave de toda esta tecnología es que somos los propios seres humanos (muchas veces sin darnos cuenta) quienes entrenamos los propios algoritmos a partir de nuestras conversaciones con máquinas o respuestas en chatbots.


Los humanos empleamos un lenguaje natural para comunicarnos y usamos decenas de fórmulas diferentes para efectuar la misma pregunta. Por ejemplo, antes para buscar la cartelera de cine en Madrid el fin de semana era necesario emplear las palabras: ‘cine, Madrid, fin de semana’. Ahora, sin embargo, es posible decir ‘¿Qué película me recomiendas para este viernes?’ o ‘¿Qué puedo ver en la gran pantalla el fin de semana?’ y el asistente sabrá que estás preguntando por el cine y en la ciudad en la que vives.


Algo que nos podría parecer ciencia ficción hace unos años es real ya hoy en día. Existen soluciones de Business Intelligence a las que se puede preguntar del mismo modo que lo haría un ejecutivo sobre la evolución de las ventas el mes pasado y la solución nos mostrará un gráfico mostrando dicha evolución.


Se estima que el 80% de la información relevante para una empresa viene de algún tipo de datos no estructurados, con lo que la palabra está aquí para quedarse.