Algoritmo para la clasificación de aspectos de lenguaje natural basados en web semántica.

No Thumbnail Available
Date
2019-08
Journal Title
Journal ISSN
Volume Title
Publisher
Ecuador: Latacunga: Universidad Técnica de Cotopaxi (UTC).
Abstract
El presente proyecto de investigación trata sobre el diseño de un algoritmo para clasificar los aspectos de lenguaje natural basados en web semántica. Para ello, se realizó una revisión de la literatura de algoritmos de búsqueda, esta revisión dio como resultado la necesidad de proponer nuevas alternativas de búsqueda para mejorar los resultados de los mismos. Se observó, además, que en la actualidad, existen pocas propuestas que resuelvan este problema empleando herramientas de inteligencia artificial de forma eficiente. Por lo tanto, este trabajo propone emplear los algoritmos Ramdon Forrest y K-Nearest Neighbours (k-NN) en búsquedas web empleando datos basados en lenguaje natural. Para el desarrollo del algoritmo propuesto se empleó Python como lenguaje de programación para la creación y Prototipado del algoritmo de clasificación propuesto. Con este fin, se empleó la herramienta Spyder de la suite Anaconda y la librería Pandas, Sklearn en donde se encuentran los algoritmos de clasificación Random Forest Classifier y KNeighbors Classifier para Random Forest y Knn respectivamente. Random Forest consta de bosques aleatorios formados por un conjunto de árboles de clasificación que se eligen de forma aleatoria construida con N datos de la muestra con reemplazamiento. K-NN se basa simplemente en “recordar” todos los ejemplos que se vieron en la etapa de entrenamiento. Por lo cual, cuando un nuevo dato se presenta al sistema de aprendizaje, este se clasifica según el comportamiento del dato más cercano, la principal dificultad de este método consiste en determinar el valor k, ya que si toma un valor grande se corre el riesgo de hacer la clasificación de acuerdo a la mayoría. El proceso experimental empleó cuatro Dataset extraídos de la web, las mismas son GBvideos, que contiene los comentarios sobre música de YouTube, vg1, que corresponde a las ventas de videos juegos, zomato que muestra los comentarios sobre restaurantes y AppStore que contiene los comentarios de las aplicaciones móviles. La cantidad de instancias analizadas corresponde a 57956 instancias. El análisis dio como resultado una tasa de predicción de la clasificación en Random Forest 0.7 o 70% y k-NN 0.6 o 60%. Para evaluar el algoritmo propuesto se empleó Auc Roc que obtuvo 0.7 de exactitud. Con este análisis se concluye que el uso de un algoritmo basado en Random Forest es el más confiable y preciso para la clasificación del lenguaje natural. Además, este algoritmo podría ser considerado como apoyo para estudiantes a fin de que se establezca en proyectos futuros.
Description
The present researching refers a design of an algorithm to classify aspects of natural language based on semantic web. For doing this, a literature review of search algorithms was carried out, this revision resulted in the need to propose new search alternatives to improve the results of the same. It was also observed that currently, there are few proposals that solve this problem using artificial intelligence tools efficiently. Therefore, this work proposes using Ramdon Forrest and K-Nearest Neighbors (k-NN) algorithms in web searches using data based on natural language. For the development of the proposed algorithm, Python was used as the programming language for the creation and prototyping of the proposed classification algorithm. To this end, the Spyder tool of the Anaconda suite and the Pandas, Sklearn library were used, where the Random Forest Classifier and KNeighbors Classifier, algorithms classified for Random Forest and Knn respectively are used. Random Forest consists of random forests formed by a set of randomly chosen classification trees constructed with N data from the sample with replacement k-NN is based simply on "remembering" all the examples that were seen in the training stage. Therefore, when a new data is presented to the learning system, it is classified according to the behavior of the closest data, the main difficulty of this method is to determine the value k, because if it takes a large value the risk is to do the classification according to the majority. The experimental process used four dataset extracted from the web, the same are GBvideos, which contains the comments on YouTube music, vg1, which corresponds to the sales of video games, zomato that shows the comments on restaurants and AppStore that contains the comments of the mobile applications. The number of instances analyzed corresponds to 57956 instances. The analysis resulted in a prediction rate of the classification in Random Forest 0.7 or 70% and k-NN 0.6 or 60%. To evaluate the proposed algorithm, Auc Roc was used, which obtained 0.7 of accuracy. With this analysis it is concluded that the use of an algorithm based on Random Forest is the most reliable and accurate for the classification of natural language. In addition, this algorithm could be considered as support for students in order to be established in future projects.
Keywords
ALGORITMO, WEB SEMÁNTICA, EXPRESIÓN CORPORAL
Citation
Álvarez Lasso Francisco Bolívar Mayo Pazuña Lenyn Santiago (2019); Algoritmo para la clasificación de aspectos de lenguaje natural basados en web semántica. UTC. Latacunga. 109 p.