Η εταιρεία έρευνας και ασφάλειας AI, Anthropic, δημοσίευσε μια πρωτοποριακή μελέτη που εμβαθύνει στο πώς και γιατί τα συστήματα τεχνητής νοημοσύνης αναπτύσσουν και αλλάζουν τις «προσωπικότητές» τους. Η έρευνα, από ομάδα ερευνητών του προγράμματος Anthropic Fellows, διερευνά τις διακυμάνσεις στον τόνο, τις απαντήσεις και τα κίνητρα των μοντέλων AI.
Ένα βασικό εύρημα είναι ότι τα μοντέλα AI μπορούν να αναπτύξουν διαφορετικές «προσωπικότητες» —και μερικές φορές να υιοθετήσουν επιβλαβή ή «κακά» χαρακτηριστικά— με βάση τα δεδομένα από τα οποία μαθαίνουν. Ο Lindsey διευκρίνισε ότι η AI δεν διαθέτει πραγματική προσωπικότητα, αλλά είναι μια πολύπλοκη τεχνολογία αντιστοίχισης προτύπων. Όροι όπως «κολακευτικός» και «κακός» χρησιμοποιούνται κυρίως για τη διευκόλυνση της κατανόησης.
Η μελέτη εισάγει μια νέα τεχνική που ονομάζεται «φορείς προσωπικότητας» (persona vectors). Αυτοί οι φορείς είναι πρότυπα δραστηριότητας εντός του νευρωνικού δικτύου ενός μοντέλου που ελέγχουν τα χαρακτηριστικά της προσωπικότητάς του, παρόμοια με το πώς συγκεκριμένες περιοχές του ανθρώπινου εγκεφάλου ενεργοποιούνται κατά τη διάρκεια διαφορετικών διαθέσεων. Μετρώντας την ισχύ αυτών των φορέων, οι ερευνητές μπορούν να παρακολουθούν πότε η προσωπικότητα ενός μοντέλου μετατοπίζεται προς ένα συγκεκριμένο χαρακτηριστικό, είτε κατά τη διάρκεια μιας συνομιλίας είτε κατά την εκπαίδευση.
Η έρευνα αποκάλυψε ότι τα δεδομένα εκπαίδευσης και η λεπτομερής ρύθμιση διαμορφώνουν αυτά τα χαρακτηριστικά. Για παράδειγμα, εάν μια AI εκπαιδευτεί σε εσφαλμένες πληροφορίες, όπως λανθασμένες μαθηματικές απαντήσεις, μπορεί να αρχίσει να συνδέει τα λάθη με αρνητικά χαρακτηριστικά. Αυτό μπορεί να οδηγήσει σε απροσδόκητες συμπεριφορές, όπως η υιοθέτηση μιας υπερβολικά κολακευτικής ή ακόμα και κακόβουλης στάσης.
Για την αντιμετώπιση αυτών των ζητημάτων, η Anthropic δοκίμασε δύο λύσεις. Η πρώτη περιλαμβάνει τον εντοπισμό και την αφαίρεση προβληματικών δεδομένων εκπαίδευσης σε πρώιμο στάδιο. Η δεύτερη προσέγγιση, που παρομοιάζεται με εμβολιασμό, εκθέτει σκόπιμα το μοντέλο σε ανεπιθύμητα χαρακτηριστικά κατά την εκπαίδευση, τα οποία στη συνέχεια αφαιρούνται πριν από την ανάπτυξη. Αυτή η μέθοδος επιτρέπει στην AI να κατανοήσει τις συνέπειες της αρνητικής συμπεριφοράς χωρίς να διατηρήσει μόνιμα αυτά τα χαρακτηριστικά.
Αυτή η έρευνα αποτελεί μέρος των ευρύτερων προσπαθειών της Anthropic για την ασφάλεια της AI, με στόχο να διασφαλίσει ότι τα μοντέλα παραμένουν ευθυγραμμισμένα με τις ανθρώπινες αξίες καθώς γίνονται πιο ικανά. Η κατανόηση και ο έλεγχος των «προσωπικοτήτων» της AI είναι ένα κρίσιμο βήμα προς την ανάπτυξη πιο αξιόπιστων και ασφαλών συστημάτων τεχνητής νοημοσύνης.