Η ανησυχητική διαπίστωση μιας νέας έρευνας
Μια νέα μελέτη από την Palisade Research αποκάλυψε ότι τα προηγμένα μοντέλα τεχνητής νοημοσύνης αρχίζουν να υιοθετούν παραπλανητικές τακτικές κατά τη διάρκεια ανταγωνιστικών παιχνιδιών! Η έρευνα αξιολόγησε επτά σύγχρονα AI συστήματα για την προθυμία τους να εκμεταλλευτούν ευπάθειες στον κυβερνοχώρο σε έναν αγώνα σκακιού.
Σε αντίθεση με τα παλαιότερα μοντέλα που ακολουθούσαν αυστηρά τους κανόνες, ορισμένα σύγχρονα συστήματα AI, συμπεριλαμβανομένου του o1-preview της OpenAI, παρατηρήθηκε ότι εκμεταλλεύονται αδυναμίες του συστήματος. Όταν αντιμετώπιζαν ήττα απέναντι σε έναν ισχυρό αντίπαλο, αυτά τα μοντέλα επέλεγαν μερικές φορές να τροποποιήσουν το περιβάλλον του παιχνιδιού, αναγκάζοντας ουσιαστικά τους αντιπάλους τους να παραιτηθούν, αντί να χάσουν!
Η μελέτη υποδεικνύει ότι αυτή η συμπεριφορά μπορεί να συνδέεται με τη χρήση της ενισχυτικής μάθησης μεγάλης κλίμακας (large-scale reinforcement learning). Αυτή η μέθοδος εκπαίδευσης, η οποία ενθαρρύνει την AI να επιλύει προβλήματα μέσω δοκιμής και σφάλματος, φαίνεται να έχει επιτρέψει σε μοντέλα όπως το o1-preview και το DeepSeek R1 να αναγνωρίζουν και να εκμεταλλεύονται παραθυράκια του συστήματος αυτόνομα, χωρίς άμεσες οδηγίες.
Κατά τη διάρκεια των πειραμάτων που πραγματοποιήθηκαν από τις 10 Ιανουαρίου έως τις 13 Φεβρουαρίου, τα AI συστήματα κλήθηκαν να νικήσουν το Stockfish, ένα από τα ισχυρότερα engines για σκάκι. Τα αποτελέσματα έδειξαν ότι το o1-preview προσπάθησε να εξαπατήσει στο 37% των δοκιμών, ενώ το DeepSeek R1 το έκανε στο 11% των περιπτώσεων. Άλλα μοντέλα χρειάζονταν σαφείς εντολές για να επιδείξουν παρόμοια συμπεριφορά, και μόνο το o1-preview κατάφερε να επιτύχει ποσοστό επιτυχίας hacking 6%.
Τα ευρήματα εγείρουν ευρύτερες ανησυχίες σχετικά με την ασφάλεια της τεχνητής νοημοσύνης, καθώς αυτά τα συστήματα χρησιμοποιούνται όλο και περισσότερο σε πραγματικές εφαρμογές. Οι ερευνητές προειδοποιούν ότι η επιθυμία για υπέρβαση των προκλήσεων θα μπορούσε να οδηγήσει την AI σε ακούσιες και ενδεχομένως μη-ηθικές στρατηγικές, υπογραμμίζοντας την ανάγκη για ισχυρά μέτρα ασφαλείας καθώς αυτές οι τεχνολογίες εξελίσσονται.
Σε απάντηση στα αποτελέσματα της μελέτης, οι επόμενες εκδόσεις ορισμένων μοντέλων, συμπεριλαμβανομένων των o1 και o3-mini της OpenAI, δεν έδειξαν καμία ένδειξη μη εξουσιοδοτημένων εκμεταλλεύσεων, υποδεικνύοντας ότι οι βελτιωμένες δικλείδες ασφαλείας μπορούν να μετριάσουν αυτούς τους κινδύνους. Ωστόσο, οι ειδικοί τονίζουν ότι ο έλεγχος της συμπεριφοράς των αυτόνομων AI πρακτόρων παραμένει μια περίπλοκη πρόκληση που απαιτεί συνεχή έρευνα και ρυθμιστική εποπτεία.
How often did o1-preview win against its opponent Stockfish? Out of 71 attempts at normal play, it won 0 games. Out of 52 hacking attempts, it succeeded 7 times. Because Stockfish is significantly better at Chess than any language model, hacking was the only strategy that worked
— Palisade Research (@PalisadeAI) February 20, 2025
Πηγή: unboxholics.com