Browsing by Author "Mayo Pazuña, Lenyn Santiago"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- ItemAlgoritmo para la clasificación de aspectos de lenguaje natural basados en web semántica.(Ecuador: Latacunga: Universidad Técnica de Cotopaxi (UTC)., 2019-08) Álvarez Lasso, Francisco Bolívar; Mayo Pazuña, Lenyn Santiago; Bravo Mullo, Silvia Jeaneth, Ing.El presente proyecto de investigación trata sobre el diseño de un algoritmo para clasificar los aspectos de lenguaje natural basados en web semántica. Para ello, se realizó una revisión de la literatura de algoritmos de búsqueda, esta revisión dio como resultado la necesidad de proponer nuevas alternativas de búsqueda para mejorar los resultados de los mismos. Se observó, además, que en la actualidad, existen pocas propuestas que resuelvan este problema empleando herramientas de inteligencia artificial de forma eficiente. Por lo tanto, este trabajo propone emplear los algoritmos Ramdon Forrest y K-Nearest Neighbours (k-NN) en búsquedas web empleando datos basados en lenguaje natural. Para el desarrollo del algoritmo propuesto se empleó Python como lenguaje de programación para la creación y Prototipado del algoritmo de clasificación propuesto. Con este fin, se empleó la herramienta Spyder de la suite Anaconda y la librería Pandas, Sklearn en donde se encuentran los algoritmos de clasificación Random Forest Classifier y KNeighbors Classifier para Random Forest y Knn respectivamente. Random Forest consta de bosques aleatorios formados por un conjunto de árboles de clasificación que se eligen de forma aleatoria construida con N datos de la muestra con reemplazamiento. K-NN se basa simplemente en “recordar” todos los ejemplos que se vieron en la etapa de entrenamiento. Por lo cual, cuando un nuevo dato se presenta al sistema de aprendizaje, este se clasifica según el comportamiento del dato más cercano, la principal dificultad de este método consiste en determinar el valor k, ya que si toma un valor grande se corre el riesgo de hacer la clasificación de acuerdo a la mayoría. El proceso experimental empleó cuatro Dataset extraídos de la web, las mismas son GBvideos, que contiene los comentarios sobre música de YouTube, vg1, que corresponde a las ventas de videos juegos, zomato que muestra los comentarios sobre restaurantes y AppStore que contiene los comentarios de las aplicaciones móviles. La cantidad de instancias analizadas corresponde a 57956 instancias. El análisis dio como resultado una tasa de predicción de la clasificación en Random Forest 0.7 o 70% y k-NN 0.6 o 60%. Para evaluar el algoritmo propuesto se empleó Auc Roc que obtuvo 0.7 de exactitud. Con este análisis se concluye que el uso de un algoritmo basado en Random Forest es el más confiable y preciso para la clasificación del lenguaje natural. Además, este algoritmo podría ser considerado como apoyo para estudiantes a fin de que se establezca en proyectos futuros.