Aplicación de algoritmo de extracción de textos en los perfiles de usuarios en caso de los investigadores de la Universidad Técnica de Cotopaxi.
No Thumbnail Available
Date
2019-02
Advisors
Journal Title
Journal ISSN
Volume Title
Publisher
Ecuador: Latacunga: Universidad Técnica de Cotopaxi: Facultad de Ciencias de la Ingeniería y Aplicadas
Abstract
La Universidad Técnica de Cotopaxi es una Institución de Educación Superior que desarrolla
producción científica por parte de los docentes investigadores puesto que los resultados
obtenidos reflejan en documentos científicos, tales como: artículos, libros y ponencias.
Investigaciones que se realiza porque es fundamental generar conocimiento científico, no solo
por compromiso si no porque proporciona beneficio personal como institucional. Es entonces
que este proceso conlleva a una mejor administración de información porque debido a la alta
proliferación de datos que maneja la Institución resulta conflictivo organizarla de acuerdo a las
sub-líneas de investigación a la que pertenece porque involucra una serie de inconvenientes
como, por ejemplo: consume esfuerzo, tiempo, costo y en ocasiones impracticable si la
cantidad a clasificar es extensa. Por tal motivo la presente propuesta tecnológica tiene como
propósito desarrollar una plataforma científica que permita recolectar una cantidad determinada
de información considerable y posteriormente implementar un algoritmo clasificador
automático de textos que permite estructurar datos relevantes a un dominio específico (clase o
categorías). Para conseguir lo mencionado, se utilizó métodos de investigación, de desarrollo y
de minería de texto: en primer lugar, se realizó una investigación documental, explicativa,
además técnicas de investigación como la entrevista y encuesta para obtener información veraz,
en segundo lugar, se hizo uso de la metodología Scrum que ayudó a definir los product backlog
lo que permitió determinar 8 funcionalidades que concibe la plataforma científica:
“EcuCiencia” para recolectar datos relevantes y por último se aplicó la metodología Knowledge
Discovery in DataBases ( KDD) haciendo uso de las técnicas de Machine Learning para
preparar el texto, filtrarlas, normalizarlas, etiquetarlas, aplicación del algoritmo de clasificación
SVM y evaluación. Como resultado de la propuesta implantada se determina que la plataforma
científica es capaz de almacenar información trascendental, actualmente cuenta con 468
artículos científicos, 152 libros y 430 ponencias indexadas de los cuales han sido extraídos y
procesados para el desarrollo de un modelo de entrenamiento que sirvió como base en la
clasificación automática aplicada en la Carrera de Ingeniería en Sistemas Informáticos,
provocando de tal manera que el acceso a la información sea más fácil, organizada y en menor
tiempo. No obstante, se hace necesario destacar que la propuesta tecnológica forma parte del
proyecto de investigación “Red de Estudios Cienciométricos REDEC”.
Description
“Universidad Técnica de Cotopaxi” is a higher education institution that develops scientific
production through its research professors, because the results obtained are reflected in
scientific papers like: research papers, published books and lectures. Studies are made because
it is fundamental to produce scientific knowledge, not only for commitment but also because it
generates a personal and institutional benefit. That`s why this process leads to a better
information administration because in case of the high proliferation of data that is managed for
the institution, it results difficult to be organized according to the research parameters that it
belongs because it contains series of inconveniences, for example: consumes effort, time,
money and sometimes it could be unworkable if the amount to classify is excessive. That`s why
the principal proposal of this technological project is about the development of a scientific
platform that allow us to gather a specific amount of substantial information and later
implement an automatic classifying algorithm of text with which is possible to structure
relevant data in a specific domain (class or categories). In order to obtain the fact
aforementioned, research methods were used regarding development and text mining. Firstly,
a documentary and explanatory study was carried out. In addition, research techniques such as
interview and survey were applied in order to obtain truthful information. Secondly, the Scrum
methodology was used, which helped to define the product backlog, which allowed to
determine 8 functionalities that conceived the scientific platform: "EcuCiencia" to collect
relevant data and finally the methodology Knowledge Discovery in DataBases (KDD) was
applied making use of Machine Learning techniques to prepare the text, filter them, normalize
them, label them, apply the algorithm of SVM classification and evaluation. As a result of the
proposal implemented, it is determined that the scientific platform is able of storing
transcendental information, currently it has 468 research papers, 152 books and 430 indexed
lectures from which they have been extracted and processed for the development of a training
model that served as a base in the automatic classification applied in the Engineering Major in
Computer Systems, provoking in such a way that access to information is easier, organized and
in less time. However, it is necessary to emphasize that the technological proposal is part of the
research study "Red de Estudios Cienciométricos REDEC".
Keywords
Sistemas, Gestión de información
Citation
Allauca Chaquinga. J.J. (2019) Aplicación de algoritmo de extracción de textos en los perfiles de usuarios en caso de los investigadores de la Universidad Técnica de Cotopaxi. U.T.C. Latacuga. 156 p.