“Procedimiento algorítmico basado en técnicas del procesamiento del lenguaje natural para el análisis del CORPUS de artículos científicos de la plataforma EcuCiencia.”

No Thumbnail Available
Date
2020-09
Journal Title
Journal ISSN
Volume Title
Publisher
Ecuador: Latacunga: Universidad Técnica de Cotopaxi (UTC).
Abstract
Hoy en día analizar una cantidad excesiva de documentos en formato electrónico que se encuentran por la web es una tarea complicada y desgastante para cualquier persona, en la plataforma científica ECUCIENCIA al analizar un artículo científico se basa solamente en el título, resumen y palabras claves, existen documentos en formato pdf con mucha más información en el cuerpo del documento, en donde se puede visualizar datos con mayor exactitud ya que estamos viviendo en una era en donde la tecnología y el internet nos ha permitido generar y recopilar grandes volúmenes de información, para el estudio del proyecto se tuvo como objetivo el establecimiento de un procedimiento algorítmico mediante técnicas de procesamiento de lenguaje natural que permitió el análisis del corpus de artículos científicos de los docentes investigadores de la Universidad Técnica de Cotopaxi almacenados en la plataforma ECUCIENCIA; se tuvo dos fases para cumplir el desarrollo del proyecto, se utilizó la metodología KDD(Knowledge Discovery in Databases) para la primera etapa que conduce a la extracción de conocimiento el cual es el proceso metodológico para encontrar un modelo valido, útil y entendible que describa patrones de acuerdo a la información extraída, por otro lado para la segunda etapa se utilizó la metodología scrum el cual permitió una comunicación directa entre el cliente y el equipo de desarrollo teniendo así una mayor calidad del producto final y así el proyecto fue creciendo de iteración en iteración sin problemas y se logró unir la lógica adquirida de la primera etapa con el desarrollo de un módulo, donde se aplicaron librerías de Python que permitió realizar el análisis del corpus de los artículos científicos en formato pdf obteniendo de los mismos la riqueza léxica, frecuencia de palabras, palabras de parada, similitud y distancias de textos de los mismos que se representan mediante gráficos para los usuarios visualicen el contenido del análisis de datos sin dificultad.
Description
Today to analyze an excessive amount of documents in electronic format that are found on the web is a complicated and tiring task for any person, in the scientific platform ECUCIENCIA when analyzing a scientific article is based only on the title, summary and keywords, there are documents in pdf format with much more information in the body of the document, where it is possible to visualize data with greater accuracy since we are living in an era where technology and the Internet have allowed us to generate and collect large volumes of information. For the study of the project, the objective was to establish an algorithmic procedure through natural language processing techniques that allowed the analysis of the corpus of scientific articles of the research professors of the Technical University of Cotopaxi stored in the ECUCIENCIA platform; There were two phases to fulfill the development of the project, the methodology KDD (Knowledge Discovery in Databases) was used for the first phase that leads to the extraction of knowledge which is the methodological process to find a valid, useful and understandable model that describes patterns according to the extracted information, On the other hand, for the second stage, the scrum methodology was used, which allowed a direct communication between the client and the development team, thus having a higher quality of the final product. In this way, the project grew from iteration to iteration without problems and the logic acquired from the first stage was joined to the development of a module, where Python libraries were applied that allowed the analysis of the corpus of the scientific articles in pdf format obtaining from them the lexical richness, word frequency, stop words, similarity and distances of the texts that are represented by means of graphics for the users to visualize the content of the data analysis without difficulty.
Keywords
ECUCIENCIA, KDD, SCRUM, PYTHON
Citation
Chariguaman Morocho Gilson Ariel, Quilumbaquin Tutillo Nataly Lizeth (2020), “Procedimiento algorítmico basado en técnicas del procesamiento del lenguaje natural para el análisis del CORPUS de artículos científicos de la plataforma EcuCiencia.” UTC. Latacunga. 106 p.