Browsing by Author "Chariguaman Morocho, Gilson Ariel"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Item“Procedimiento algorítmico basado en técnicas del procesamiento del lenguaje natural para el análisis del CORPUS de artículos científicos de la plataforma EcuCiencia.”(Ecuador: Latacunga: Universidad Técnica de Cotopaxi (UTC)., 2020-09) Chariguaman Morocho, Gilson Ariel; Quilumbaquin Tutillo, Nataly Lizeth; Rodríguez, GustavoHoy en día analizar una cantidad excesiva de documentos en formato electrónico que se encuentran por la web es una tarea complicada y desgastante para cualquier persona, en la plataforma científica ECUCIENCIA al analizar un artículo científico se basa solamente en el título, resumen y palabras claves, existen documentos en formato pdf con mucha más información en el cuerpo del documento, en donde se puede visualizar datos con mayor exactitud ya que estamos viviendo en una era en donde la tecnología y el internet nos ha permitido generar y recopilar grandes volúmenes de información, para el estudio del proyecto se tuvo como objetivo el establecimiento de un procedimiento algorítmico mediante técnicas de procesamiento de lenguaje natural que permitió el análisis del corpus de artículos científicos de los docentes investigadores de la Universidad Técnica de Cotopaxi almacenados en la plataforma ECUCIENCIA; se tuvo dos fases para cumplir el desarrollo del proyecto, se utilizó la metodología KDD(Knowledge Discovery in Databases) para la primera etapa que conduce a la extracción de conocimiento el cual es el proceso metodológico para encontrar un modelo valido, útil y entendible que describa patrones de acuerdo a la información extraída, por otro lado para la segunda etapa se utilizó la metodología scrum el cual permitió una comunicación directa entre el cliente y el equipo de desarrollo teniendo así una mayor calidad del producto final y así el proyecto fue creciendo de iteración en iteración sin problemas y se logró unir la lógica adquirida de la primera etapa con el desarrollo de un módulo, donde se aplicaron librerías de Python que permitió realizar el análisis del corpus de los artículos científicos en formato pdf obteniendo de los mismos la riqueza léxica, frecuencia de palabras, palabras de parada, similitud y distancias de textos de los mismos que se representan mediante gráficos para los usuarios visualicen el contenido del análisis de datos sin dificultad.