Authorship Classification in Academic and Scientific Documents: A Machine Learning-Based Approach

Pablo Pico-Valencia; Sahory Maila-Herrera

doi:10.14482/inde.44.01.215.568

Autores/as

Pablo Pico-Valencia Pontificia Universidad Católica del Ecuador https://orcid.org/0000-0003-3518-3313
Sahory Maila-Herrera Pontificia Universidad Católica del Ecuador https://orcid.org/0009-0007-1702-9749

DOI:

https://doi.org/10.14482/inde.44.01.215.568

Palabras clave:

Aprendizaje automático, minería de datos, procesamiento del lenguaje natural, estilo de redacción, predicción

Resumen

Este artículo presenta un sistema basado en aprendizaje automático que implementa minería de texto para analizar y clasificar estilos de escritura en informes científicos elaborados por docentes de la Pontificia Universidad Católica del Ecuador, sede Esmeraldas. El objetivo del sistema es fortalecer la integridad académica mediante la identificación de posibles casos de autoría falsa. Se procesó un conjunto de datos compuesto por artículos de investigación redactados en español por profesores universitarios, aplicando TF-IDF (Frecuencia de Término - Frecuencia Inversa de Documento) y Word Embeddings para la extracción de características. Para evaluar el rendimiento en la clasificación, se probaron siete modelos de aprendizaje supervisado: Clasificador Lineal de Vectores de Soporte (SVC), SVC con kernel RBF, Random Forest, Árbol de Decisión, Regresión Logística, k-Vecinos más Cercanos (k-NN) y Naïve Bayes. El modelo de Regresión Logística obtuvo la mayor precisión (89,62%), seguido de cerca por el SVC Lineal (87,36%) y el SVC RBF (86,59%), superando con significancia estadística a los métodos basados en árboles y probabilísticos (p < 0,05). La prueba de Wilcoxon no mostró diferencias significativas en el rendimiento entre los mejores clasificadores, lo que confirma su fiabilidad en la atribución de autoría. Los hallazgos subrayan el potencial de incorporar el análisis del estilo de escritura en los sistemas institucionales para mejorar los métodos convencionales de detección de plagio.

Referencias

A. Korkmaz, C. Aktürk, and T. Talan, “Analyzing the User’s Sentiments of ChatGPT Using Twitter Data -,” Iraqi J. Comput. Sci. Math., vol. 4, no. 2, pp. 202–214, 2023.

A. Arias, Y. Mattos, J. Heredia, and D. Heredia, “Minería de texto como una herramienta para la búsqueda de artículos científicos para la investigación,” Rev. I+D en TI, vol. 7, no. 1, pp. 14–20, 2017.

A. Zanasi, “Virtual Weapons for Real Wars: Text Mining for National Security,” in Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS’08, 2009, vol. 53, pp. 53–60.

R. Bridgelall, “An Application of Natural Language Processing to Classify What Terrorists Say They Want,” Soc. Sci., vol. 11, no. 1, pp. 1–15, 2022.

Jufri and M. Thamrin, “Political Influence Analysis Social Media Text Mining for Public Opinion: Case Study Makassar City,” in 2021 3rd International Conference on Cybernetics and Intelligent System (ICORIS), 2021, pp. 1–5.

M. Gamon, A. Aue, S. Corston-Oliver, and E. Ringger, “Pulse: Mining Customer Opinions from Free Text,” in Advances in Intelligent Data Analysis VI. IDA 2005, 2005, pp. 121–132.

S. Jardim and C. Mora, “Customer reviews sentiment-based analysis and clustering for market-oriented tourism services and products development or positioning,” Procedia Comput. Sci., vol. 196, no. 2021, pp. 199–206, 2021.

D. Mittal and S. R. Agrawal, “Determining banking service attributes from online reviews: text mining and sentiment analysis,” Int. J. Bank Mark., vol. 40, no. 3, pp. 558–577, 2022.

S. Chatterjee, D. Goyal, A. Prakash, and J. Sharma, “Exploring healthcare/health-product ecommerce satisfaction: A text mining and machine learning application,” J. Bus. Res., vol. 131, no. October 2020, pp. 815–825, 2021.

M. C. Barrera, “Minería de texto en la clasificación de material bibliográfico,” Biblios, no. 64, pp. 33–43, 2016.

R. Ferreira-Mello, M. André, A. Pinheiro, E. Costa, and C. Romero, “Text mining in education,” Wiley Interdiscip. Rev. Data Min. Knowl. Discov., vol. 9, no. 6, 2019.

J. Villalón, P. Kearney, R. A. Calvo, and P. Reimann, “Glosser: Enhanced feedback for student writing tasks,” in Proceedings - The 8th IEEE International Conference on Advanced Learning Technologies, ICALT 2008, 2008, no. 1, pp. 454–458.

E. Hossain et al., “Natural Language Processing in Electronic Health Records in relation to healthcare decision-making: A systematic review,” Comput. Biol. Med., vol. 155, pp. 1–24, 2023.

G. Aciar, S. Aciar, and C. González, “Analítica del aprendizaje: método automático para identificar sentencias que contienen información positiva y negativa utilizando técnicas de minería de texto,” in VIII Jornadas Internacionales de Campus Virtuales (JICV’18), 2018.

V. Mercado, A. Villagra, and M. Errecalde, “El Proceso de Extracción de Conocimiento en la Determinación del Perfil del Autor y la Atribución de Autoría,” in XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017, ITBA, Buenos Aires), 2017, pp. 261–265.

M. Ramírez, J. Carillo, and M. Somodevilla, “Atribución de autoría combinando información léxico-sintáctica mediante representaciones holográficas reducidas,” Res. Comput. Sci., vol. 88, pp. 103–113, 2014.

K. Thakur and V. Kumar, “Application of Text Mining Techniques on Scholarly Research Articles: Methods and Tools,” New Rev. Acad. Librariansh., vol. 28, no. 3, pp. 279–302, 2022.

I. Valero, “Técnicas estadísticas en Minería de Textos,” Universidad de Sevilla, 2017.

A. A. Jalal and B. H. Ali, “Text documents clustering using data mining techniques,” Int. J. Electr. Comput. Eng., vol. 11, no. 1, pp. 664–670, 2021.

S. Selva Birunda and R. Kanniga Devi, A review on word embedding techniques for text classification, vol. 59. Springer Singapore, 2021.

M. Ruiz, “Implementación de un sistema de diálogo automático como asistente en el proceso administrativo del examen de traductor e intérprete oficial de la Universidad de Antioquia,” Universidad de Antioquia, 2020.

G. Liberatore, A. Vuotto, and G. Fernández, “Desarrollo de una herramienta para el análisis y representación semántica de colecciones documentales a través del factor TF-IDF,” in Jornadas Temas Actuales en Bibliotecología, 2018.

A. Cardoso, L. Talame, M. Amor, and A. Monge, “Aplicación de técnicas avanzadas de aprendizaje automático para identificar emociones en textos,” in XXIII Workshop de Investigadores en Ciencias de la Computación, 2021, pp. 73–77.

G. Naidu, T. Zuva, and E. M. Sibanda, A Review of Evaluation Metrics in Machine Learning Algorithms, vol. 724 LNNS. Springer International Publishing, 2023.

S. Sarica and J. Luo, “Stopwords in technical language processing,” PLoS One, vol. 16, no. 8 August, pp. 1–13, 2021.

Z. Abidin, A. Junaidi, and Wamiliana, “Text Stemming and Lemmatization of Regional Languages in Indonesia: A Systematic Literature Review,” J. Inf. Syst. Eng. Bus. Intell., vol. 10, no. 2, pp. 217–231, 2024.

P. Pico-Valencia, O. Vinueza-Celi, and J. A. Holgado-Terriza, “Bringing Machine Learning Predictive Models Based on Machine Learning Closer to Non-technical Users,” in Advances in Intelligent Systems and Computing, 2021, vol. 1273 AISC, pp. 3–15.

D. G. Pereira, A. Afonso, and F. M. Medeiros, “Overview of Friedman’s Test and Post-hoc Analysis,” Commun. Stat. - Simul. Comput., vol. 44, no. 10, pp. 2636–2653, 2015.