Método para la determinación de similaridad y distancia entre investigadores a partir de algoritmos de clasificación.

Falconí Punguil, Diego Geovanny; Gualpa Mendoza, Jennifer Nataly

Método para la determinación de similaridad y distancia entre investigadores a partir de algoritmos de clasificación.

Files

T-001135.pdf(4.56 MB)

Date

2019-02

Authors

Falconí Punguil, Diego Geovanny

Gualpa Mendoza, Jennifer Nataly

Advisors

Rodríguez, Gustavo

Publisher

Ecuador: Latacunga: Universidad Técnica de Cotopaxi: Facultad de Ciencias de la Ingeniería y Aplicadas

Abstract

En la Universidad Técnica de Cotopaxi se está apoyando y promoviendo la investigación científica, dando como resultado un aumento de artículos, libros, proyectos, ponencias entre otros documentos, que requieren ser almacenados. Para lo cual la Dirección de Investigación aprueba la implementación de una Plataforma científica denomina Ecuciencia, que tiene como objetivo la recopilación y visualización de la producción científica y tecnológica a partir de indicadores cienciométricos. Para cumplir con los requerimientos que demanda el proyecto, fue dividido en varias fases, la recopilación de datos de usuario, la comparación y clasificación entre investigadores. Partiendo de las características reales del proyecto se planteó el uso de herramientas de inteligencia computacional, para generar la representación gráfica de similitud y distancia entre investigadores, que sirven para hacer estudios relativos a la productividad científica de la universidad. Para lo cual se desarrolló métodos aplicando algoritmos de clasificación como K-means, MeanShift, SpectralClustering, AgglomerativeClustering y minería de datos, que realizan el análisis de un conjunto de datos extenso, para obtener como resultado matrices de similaridad y distancia de acuerdo al número de publicaciones de cada usuario. El lenguaje de programación Python fue fundamental para desarrollar la propuesta tecnológica, debido a su simplicidad y facilidad para emplear librearías de aprendizaje automático como Sklearn, el mismo que contiene módulos de varios algoritmos de clasificación. Para la agilidad del desarrollo del módulo implementado, se utilizó la metodología KDD (Knowledge Discovery in Databases), que está orientada al desarrollo de proyectos relacionados con la minería de datos. Se escogió este proceso, ya que trabaja mediante el ciclo de vida iterativo, a través de etapas que facilitó el avance de la propuesta tecnológica de forma metódica. Mediante la implementación de algoritmos de clasificación, en el sistema Ecuciencia, se logró la representación de la similaridad y distancia de investigadores de acuerdo a su producción científica, en gráficos que permiten que los usuarios visualicen la información sin mayor dificultad.

Description

The Cotopaxi Technical University  is supporting and promoting the scientific research, resulting an increase of articles, books, projects, papers and other documents that need to be stored. For this reason the Research Direction has approved the implementation of a scientific platform called Ecuciencia, which aims to recompile and visualize the scientific and technological production based on Scientometric indicators. To reach this demanded requirements, the project was divided in phases, the collection of user data, comparison and classification among researchers. Starting from the real characteristics of the project, the use of computational intelligence tools was proposed, in order to generate the graphic representation of similarity and distance between researchers, which serves to make studies related to the scientific productivity of the university. So it has developed methods by applying classification algorithms like K - means, MeanShift, SpectralClustering, AgglomerativeClustering and data mining, which perform the analysis of an extensive dataset, to obtain as a result matrices of similarity and distance according to the number of publications of each user. The programming language Python was fundamental to develop the technological proposal, due to its simplicity and facility to use automatic learning libraries like Sklearn, the same one that contains modules of a lot of classification algorithms. To agilitate the development of the implemented module, the KDD methodology was used (Knowledge Discovery in Databases), which is oriented to the development of projects related to data mining. This process was chosen because it works through iterative life cycle through stages which has facilitated the advancement of technological proposal methodically. Through the implementation of classification algorithms in the Ecuciencia’s system, the representation of the similarity and distance of researchers according to their scientific production was achieved, in graphics that allow users to view information without difficulty.

Keywords

Sistemas, Minería de datos

Citation

Falconí Punguil. D.G. (2019) Método para la determinación de similaridad y distancia entre investigadores a partir de algoritmos de clasificación. U.T.C. Latacunga. 84 p.

URI

http://repositorio.utc.edu.ec/handle/27000/5698

Collections

Tesis - Ingeniería en Informática y Sistemas Computacionales

Full item page