Utilizing deep learning and natural language processing to recognise chat-based social engineering attacks for cyber security situational awareness

Τσίγγανος, Νικόλαος

Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/29455

Author:	Τσίγγανος, Νικόλαος
Title:	Utilizing deep learning and natural language processing to recognise chat-based social engineering attacks for cyber security situational awareness
Alternative Titles:	Αναγνώριση επιθέσεων κοινωνικής μηχανικής βασισμένων σε συνομιλίες με χρήση τεχνικών βαθιάς μάθησης και επεξεργασίας φυσικής γλώσσας προς επίγνωση της κατάστασης κυβερνοασφάλειας
Date Issued:	2023
Department:	Πανεπιστήμιο Μακεδονίας. Τμήμα Εφαρμοσμένης Πληροφορικής (ΕΠ)
Supervisor:	Μαυρίδης, Ιωάννης
Abstract:	In an era dominated by digital communication, the escalating threat of chat-based social engineering (CSE) attacks looms large. These attacks, characterized by manipulation, cheating, and psychological exploitation, pose a grave danger to individuals and organizations alike. To confront this burgeoning menace, this doctoral thesis presents an all-encompassing system for recognizing CSE attacks, under the banner of the Chat-based Social Engineering Attack Recognition System (CSE-ARS). The foundation for this research is laid in an exhaustive exploration of the theoretical landscape. This comprehensive survey delves into the core concepts and principles essential for grasping the context of CSE attack recognition. Topics encompassed here range from the broader realm of cybersecurity, particularly in the context of social engineering, to the intricacies of the attack cycle and the profound impact of social engineering attacks. We further examine the pivotal role of advanced technologies such as artificial intelligence, deep learning, and natural language processing. Notably, this investigation scrutinizes the metrics used to evaluate the performance of recognition models, including accuracy, precision, recall, and the F1 score. The aim is to establish a strong theoretical grounding, emphasizing the significance of deep learning models in identifying and addressing the multifaceted challenges of CSE attacks. The identified enablers of successful CSE attacks are then thoroughly examined. One key enabler lies in personality traits, as social engineers strategically exploit their understanding of human behavior to manipulate their targets. Understanding the dynamics of persuasion is also crucial for defense, with machine learning algorithms leveraged to recognize persuasive strategies and enhance resilience against CSE attacks. Persistent behavior, including paraphrasing, is another central strategy used by social engineers to manipulate their targets. Recognizing and characterizing this behavior is crucial for developing effective defenses. Deception is a vital enabler, and investigating deception cues and developing machine learning models for recognition is an essential component of defense. Additionally, recognizing speech acts and the role of chat history in providing insights into the structure and context of conversations is emphasized. Deep learning models are deployed to enhance the accuracy of CSE attack recognition and prevention by studying speech acts and incorporating chat history analysis too. The creation of the CSE Corpus serves as a fundamental resource for studying and understanding CSE attacks. This meticulous process begins with data source selection, dialogues collection, enrichment, linguistic analysis, and finally annotation. The CSE Corpus serves as a valuable asset for researchers and practitioners alike, facilitating the development and evaluation of robust models and methodologies for recognizing and mitigating social engineering attacks. Next, each enabler recognizer is introduced starting with a specialized recognition model, CRINL-R, for the identification of critical information leakage in CSE attacks. By employing deep learning techniques and a carefully curated dataset, CRINL-R demonstrates promising performance in identifying instances of critical information leakage. Personality traits remain at the forefront of the investigation in the development of the PERST-R model. This model leverages a pre-trained BERT model and a rich corpus of labeled text data to specialize in the accurate recognition of individual traits. This recognition plays a pivotal role in understanding social engineering tactics and further fortifying defenses. The recognition of persuasion techniques in CSE attacks takes center stage with the introduction of the PERSU-R model. This model integrates persuasion principles and convolutional neural networks to identify and categorize persuasive elements within textual interactions. Its efficacy in characterizing persuasion techniques contributes significantly to bolstering defenses against social engineering attacks. Recognition of persistence in CSE attacks is addressed through the PERSI-R model, which leverages natural language processing techniques and neural networks. This model accurately identifies and characterizes persistence cues within textual interactions, underlining the significance of recognizing persistence as a critical factor in social engineering attacks. The culmination of this research is presented with the introduction of the Chat-based Social Engineering Attack Recognition System (CSE-ARS). CSE-ARS leverages a late fusion approach to identify and recognize CSE attacks by combining multiple sources of information. By integrating individual recognizers specialized in different facets of CSE attacks, such as critical information leakage, personality traits, dialogue acts, persuasion techniques, and persistence, CSE-ARS achieves a comprehensive understanding of chat-based interactions. The system's performance is rigorously evaluated across various chat-based scenarios, demonstrating its potential real-world applicability. This doctoral thesis endeavors to provide a comprehensive framework for recognizing and mitigating social engineering attacks in the realm of digital communication. The integration of deep learning techniques, multimodal information fusion, and ethical considerations underscores the potential for advanced defense mechanisms against the pervasive challenges of social engineering threats. This interdisciplinary approach empowers individuals and organizations to counteract these attacks effectively, enhancing security and preserving personal and organizational integrity in the digital age. Future research may continue to refine and expand upon these models, contributing to practical deployment and wider adoption in real-world scenarios. Σε μια εποχή που κυριαρχείται από την ψηφιακή επικοινωνία, η αύξηση των Επιθέσεων Κοινωνικής Μηχανικής βασισμένων σε Συνομιλίες (ΕΚΜΣ) είναι προδιαγεγραμμένη. Αυτές οι επιθέσεις, που χαρακτηρίζονται από την ψυχολογική εκμετάλλευση, και την εξαπάτηση, αποτελούν μια σοβαρή απειλή τόσο για τα άτομα όσο και για τις επιχειρήσεις. Για την αντιμετώπιση αυτής της αυξανόμενης απειλής , η παρούσα διδακτορική διατριβή παρουσιάζει ένα σύστημα αναγνώρισης επιθέσεων ΕΚΜΣ, υπό την αιγίδα του Συστήματος Αναγνώρισης Επιθέσεων Κοινωνικής Μηχανικής βασισμένων σε Συνομιλίες (CSE-ARS). Τα θεμέλια αυτής της έρευνας τίθενται ξεκινώντας μια εκτενή εξερεύνηση του σχετικού θεωρητικού υπόβαθρου. Η έρευνα εξετάζει τις βασικές έννοιες και αρχές που είναι απαραίτητες για την κατανόηση του πλαισίου της αναγνώρισης των επιθέσεων ΕΚΜΣ. Τα θέματα που εξετάζονται εκτείνονται από τον ευρύτερο τομέα της κυβερνοασφάλειας αλλά με έμφαση στο πλαίσιο της κοινωνικής μηχανικής, μέχρι τις λεπτομέρειες του κύκλου μιας επίθεσης ΕΚΜΣ και τις επιπτώσεις της. Εξετάζεται επίσης ο κρίσιμος ρόλος των προηγμένων τεχνολογιών όπως η τεχνητή νοημοσύνη, η βαθιά μάθηση και η επεξεργασία φυσικής γλώσσας. Σημαντική είναι επίσης η εξέταση των μετρικών που χρησιμοποιούνται για την αξιολόγηση της απόδοσης των μοντέλων αναγνώρισης επιθέσεων ΕΚΜΣ. Στόχος είναι να δημιουργηθεί μια ισχυρή θεωρητική βάση, η οποία αναδεικνύει τη σημασία των μοντέλων βαθιάς μάθησης στην αναγνώριση και αντιμετώπιση των επιθέσεων ΕΚΜΣ. Στη συνέχεια, εξετάζονται εξονυχιστικά οι παράγοντες που διευκολύνουν την επιτυχία των επιθέσεων ΕΚΜΣ. Ένας βασικός παράγοντας συναντάται στα χαρακτηριστικά της προσωπικότητας του ατόμου, καθώς οι κοινωνικοί μηχανικοί εκμεταλλεύονται στρατηγικά την κατανόησή τους για την ανθρώπινη συμπεριφορά προκειμένου να εξαπατήσουν τους στόχους τους. Η επίμονη συμπεριφορά, είναι άλλος ένας κεντρικός παράγοντας που χρησιμοποιούν οι κοινωνικοί μηχανικοί για να εκμεταλλευτούν τις αδυναμίες των στόχων τους. Η δυνατότητα αναγνώρισης της επίμονης συμπεριφοράς είναι κρίσιμη για την ανάπτυξη αποτελεσματικών μέτρων αμυντικής φύσης. Η εξαπάτηση αποτελεί έναν ακόμη κρίσιμο παράγοντα, και η ανάπτυξη μοντέλων μηχανικής μάθησης για την αναγνώριση της είναι ένα επιπλέον στοιχείο της άμυνας. Ακόμη, η αναγνώριση των πράξεων ομιλίας και ο ρόλος του ιστορικού των συνομιλιών είναι ιδιαίτερα σημαντικές. Τα μοντέλα βαθιάς μάθησης χρησιμοποιούνται για την ενίσχυση της ακρίβειας αναγνώρισης και πρόληψης των επιθέσεων ΕΚΜΣ μελετώντας τις πράξεις ομιλίας και συμπεριλαμβάνοντας την ανάλυση του ιστορικού των συνομιλιών. Η δημιουργία του σώματος κειμένων CSE Corpus αποτελεί ένα θεμελιώδες εργαλείο για τη μελέτη και κατανόηση των επιθέσεων ΕΚΜΣ. Η διαδικασία παραγωγής του σώματος κειμένου αρχίζει με την επιλογή πηγών δεδομένων, τη συλλογή διαλόγων, τον εμπλουτισμό τους, τη γλωσσική ανάλυση και την τελική επισήμανση τους. To σώμα κειμένων CSE Corpus αποτελεί ένα πολύτιμο εργαλείο για τους ερευνητές, διευκολύνοντας την ανάπτυξη και την αξιολόγηση αξιόπιστων μοντέλων και μεθοδολογιών για την αναγνώριση και την αντιμετώπιση των επιθέσεων ΕΚΜΣ. Στη συνέχεια, οι ανιχνευτές για κάθε επιμέρους παράγοντα παρουσιάζονται ξεκινώντας με το εξειδικευμένο μοντέλο αναγνώρισης, ο ανιχνευτής CRINL-R, για την αναγνώριση της διαρροής κρίσιμων πληροφοριών. Με τη χρήση τεχνικών βαθιάς μάθησης και ενός προσεκτικά επιλεγμένου συνόλου δεδομένων, το CRINL-R εκπαιδεύεται και επιδεικνύει ελπιδοφόρα απόδοση στην αναγνώριση περιπτώσεων διαρροής κρίσιμων πληροφοριών. Τα χαρακτηριστικά της προσωπικότητας παραμένουν στο επίκεντρο της έρευνας στην ανάπτυξη του ανιχνευτή PERST-R. Αυτό το μοντέλο εκμεταλλεύεται ένα προ-εκπαιδευμένο μοντέλο BERT και ένα πλούσιο σύνολο δεδομένων με ετικέτες για την ακριβή αναγνώριση των ατομικών χαρακτηριστικών προσωπικότητας. Αυτή η αναγνώριση παίζει κρίσιμο ρόλο στην κατανόηση των τακτικών της κοινωνικής μηχανικής και στην ενίσχυση των μέτρων αμυντικής φύσης. Η αναγνώριση τεχνικών πειθούς στις επιθέσεις ΕΚΜΣ καταλαμβάνει την κεντρική θέση στον ανιχνευτή PERSU-R. Αυτό το μοντέλο αξιοποιεί νευρωνικά δίκτυα για την αναγνώριση και κατηγοριοποίηση στοιχείων πειθούς. Η αποτελεσματικότητά του στην αναγνώριση των τεχνικών πειθούς συμβάλλει σημαντικά στην ενίσχυση των μέτρων αμυντικής φύσης έναντι των επιθέσεων κοινωνικής μηχανικής. Η αναγνώριση της επιμονής στις επιθέσεις ΕΚΜΣ αντιμετωπίζεται μέσω του ανιχνευτή PERSI-R, το οποίο χρησιμοποιεί τεχνικές επεξεργασίας φυσικής γλώσσας και νευρωνικά δίκτυα. Αυτό το μοντέλο αναγνωρίζει και χαρακτηρίζει με ακρίβεια στοιχεία επιμονής, υπογραμμίζοντας τη σημασία της αναγνώρισης της επιμονής ως κρίσιμου παράγοντα στις επιθέσεις κοινωνικής μηχανικής. Η κορύφωση αυτής της έρευνας πραγματοποιείται με την παρουσίαση του Συστήματος Αναγνώρισης Επιθέσεων Κοινωνικής Μηχανικής βασισμένου σε Συνομιλίες (CSE-ARS). Το CSE-ARS χρησιμοποιεί μια προσέγγιση με χρήση της τεχνικής αργής συγχώνευσης πληροφοριών για την αναγνώριση των επιθέσεων ΕΚΜΣ, συνδυάζοντας τα συμπεράσματα των επιμέρους ανιχνευτών. Ενσωματώνοντας τους επιμέρους ανιχνευτές εξειδικευμένους στην αναγνώριση παραγόντων επιτυχίας μιας επίθεσης ΕΚΜΣ, όπως η διαρροή κρίσιμων πληροφοριών, τα χαρακτηριστικά της προσωπικότητας, οι πράξεις ομιλίας, οι τεχνικές πειθούς και η επιμονή, το CSE-ARS επιτυγχάνει μια σφαιρική κατανόηση των ΕΚΜΣ. Η απόδοση του συστήματος αξιολογείται αυστηρά σε διάφορα σενάρια βασισμένα σε συνομιλίες, επιδεικνύοντας την πραγματική δυνατότητά του για εφαρμογή στον πραγματικό κόσμο. Αυτή η διδακτορική διατριβή παράσχει ένα σύστημα για την αναγνώριση και τη μείωση των επιθέσεων κοινωνικής μηχανικής στον τομέα της ψηφιακής επικοινωνίας. Η ενσωμάτωση τεχνικών βαθιάς μάθησης, και συνένωσης πληροφοριών υπογραμμίζει τη δυνατότητα για προηγμένα μέτρα αμυντικής φύσης έναντι των επικρατούντων προκλήσεων και απειλών κοινωνικής μηχανικής. Αυτή η διεπιστημονική προσέγγιση αντιμετωπίζει αποτελεσματικά τις επιθέσεις ΕΚΜΣ, ενισχύοντας την ασφάλεια και διατηρώντας την εμπιστευτικότητα της πληροφορίας στην ψηφιακή εποχή. Μελλοντικές έρευνες μπορούν να συνεχίσουν να βελτιώνουν και να επεκτείνουν τα επιμέρους μοντέλα, συμβάλλοντας στην πρακτική εφαρμογή και την ευρύτερη υιοθέτησή τους σε πραγματικά σενάρια ΕΚΜΣ.
Keywords:	Cybersecurity Machine Learning Transformers Transfer Learning Corpus Annotation
Information:	Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2023.
Rights:	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές
Appears in Collections:	Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Files in This Item:

File	Description	Size	Format
TsinganosNikolaosPhD2023.pdf		4.19 MB	Adobe PDF	View/Open

Show full item record Recommend this item

This item is licensed under a Creative Commons License

PSEPHEDA

Digital Library and Institutional Repository