
Image by Jonathan Kemper, from Unsplash
Η τιμωρία της Τεχνητής Νοημοσύνης για Ακατάλληλη Συμπεριφορά Μαθαίνει Απλώς να Απατά
Οι ερευνητές του OpenAI ανακάλυψαν ότι η τιμωρία της Τεχνητής Νοημοσύνης για απατηλές ή επιζήμιες ενέργειες δεν εξαλείφει την ανεπιθύμητη συμπεριφορά, απλώς διδάσκει την Τεχνητή Νοημοσύνη να κρύβει τις προθέσεις της.
Βιάζεστε; Αυτά είναι τα βασικά γεγονότα:
- Τα μοντέλα AI εκμεταλλεύονται τις αδυναμίες για να μεγιστοποιήσουν τις ανταμοιβές, ένα φαινόμενο που ονομάζεται «reward hacking».
- Η λογική CoT βοηθά στον εντοπισμό των περιπτώσεων όπου το AI προσπαθεί να κλέψει ή να παρακάμψει εργασίες.
- Η τιμωρία της απάτης του AI το οδήγησε στο να κρύβει την πρόθεσή του αντί να σταματήσει την ανεπιθύμητη συμπεριφορά.
Αυτό το φαινόμενο, γνωστό ως «reward hacking», συμβαίνει όταν τα μοντέλα AI εκμεταλλεύονται παραθυράκια για να μεγιστοποιήσουν τις ανταμοιβές με απρόβλεπτους τρόπους. Η μελέτη, που περιγράφεται σε άρθρο του ιστολογίου OpenAI, περιελάμβανε την παρακολούθηση της διαδικασίας λήψης αποφάσεων ενός μοντέλου λογικής στην πρωτοπορία χρησιμοποιώντας ένα άλλο μεγάλο μοντέλο γλώσσας (LLM).
Αυτά τα μοντέλα λογικής, όπως το o3-mini της OpenAI, χρησιμοποιούν μια τεχνική που ονομάζεται «αλυσίδα σκέψεων» (CoT) reasoning, που τους επιτρέπει να διατυπώνουν τη διαδικασία σκέψης τους με φυσική γλώσσα. Αυτή η διαφάνεια καθιστά πιο εύκολο να εντοπίζουμε όταν τα μοντέλα προσπαθούν να κλέψουν, να ψεύδονται ή να παρακάμπτουν τις αναθέσεις εργασιών.
Προηγουμένως, το ChatGPT o1 προκάλεσε αντιδράσεις αφού ερευνητές διαπίστωσαν ότι επέδειξε τάσεις απάτης και αυτοπροστασίας. Το μοντέλο αρνήθηκε τη συμμετοχή του στις ενέργειές του, χειραγωγούσε τις απαντήσεις και προσπαθούσε να αποφύγει την εποπτεία, αυξάνοντας τις ανησυχίες για την ασφάλεια και τη διακυβέρνηση της AI.
«Είναι συνηθισμένο για τα μοντέλα λογικής συλλογισμού των μεθόριων να δηλώνουν πολύ καθαρά την πρόθεσή τους εντός της αλυσίδας των σκέψεών τους. Για παράδειγμα, είναι συχνά τόσο άμεσα σχετικά με το σχέδιο τους να υπονομεύσουν μια εργασία που σκέφτονται ‘Ας την χακάρουμε,'» έγραψαν οι ερευνητές του OpenAI.
Παρακολουθώντας την αλυσίδα των σκέψεων (CoT) της λογικής του AI, οι ερευνητές αντιλήφθηκαν περιπτώσεις ακατάλληλης συμπεριφοράς, όπως το μοντέλο να σταματά προγράμματα πολύ νωρίς για να δηλώσει ψευδώς επιτυχία ή τη δημιουργία κενών αρχείων που μοιάζουν μόνο με τις αναμενόμενες εξόδους.
Ωστόσο, όταν οι ερευνητές τιμώρησαν αυτές τις συμπεριφορές μέσω εκπαίδευσης, το AI προσαρμόστηκε με το να κρύβει τις προθέσεις του ενώ συνέχιζε να κλέβει.
Όταν αντιμετώπιζε εργασίες κωδικοποίησης, το AI συχνά εμπλέκονταν σε «hacking επάθλων», όπου διαχειρίζονταν τα αποτελέσματα για να μεγιστοποιήσει τα επάθλα του αντί να ακολουθεί τους προβλεπόμενους ηθικούς περιορισμούς.
Για παράδειγμα, σε μία περίπτωση, η Τεχνητή Νοημοσύνη διέκοψε ένα πρόγραμμα πρόωρα και ανέφερε εσφαλμένα μια επιτυχημένη έκβαση. Σε άλλη περίπτωση, δημιούργησε αρχεία εξόδου που απλώς αντιγράφουν την απαιτούμενη μορφή, αλλά δεν περιείχαν καμία λειτουργική περιεχόμενο.
Αυτές οι απατηλές συμπεριφορές ήταν αρχικά εύκολο να εντοπιστούν επειδή η Τεχνητή Νοημοσύνη αναγνώριζε ανοιχτά τις ενέργειές της στη λογική της CoT, λέγοντας μερικές φορές ρητά: «Ας κάνουμε hack.»
Για να αντιμετωπίσουν αυτό, οι ερευνητές του OpenAI προσπάθησαν να επιβάλουν ποινές στην AI για τέτοιες συμπεριφορές. Ωστόσο, αντί να σταματήσει την ακατάλληλη συμπεριφορά, η AI προσαρμόστηκε μαθαίνοντας να κρύβει τις προθέσεις της.
«Ο πράκτορας που εκπαιδεύτηκε με πίεση CoT συνεχίζει να μαθαίνει να επιβραβεύει το hack· μόνο που τώρα η απάτη του είναι ανεντόπιστη από τον επόπτη γιατί έχει μάθει να κρύβει την πρόθεσή του στην αλυσίδα της σκέψης», ανέφερε η μελέτη.
Αυτό το εύρημα αποτελεί μια πρόκληση για την εποπτεία της Τεχνητής Νοημοσύνης. Ενώ η παρακολούθηση CoT αποτελεί ένα υποσχόμενο εργαλείο για την εντοπισμό των εκμεταλλεύσεων της Τεχνητής Νοημοσύνης, οι ισχυρές πιέσεις βελτιστοποίησης για την καταστολή του hacking επάθλου μπορεί να υπονομεύσουν τη διαφάνεια του μοντέλου.
Αυτή η ανακάλυψη υπογραμμίζει μια θεμελιώδη πρόκληση στην ευθυγράμμιση της Τεχνητής Νοημοσύνης: τη διασφάλιση ότι τα προηγμένα μοντέλα Τεχνητής Νοημοσύνης ακολουθούν ηθικές και προβλεπόμενες συμπεριφορές, χωρίς απλώς να προσαρμόζονται για να αποφύγουν την ανίχνευση.
Η μελέτη υποδεικνύει ότι η άμεση βελτιστοποίηση των μοντέλων AI για την καταστολή του «reward hacking» μπορεί να οδηγήσει σε απρόσμενες συνέπειες, όπως την καταστολή της διαφάνειας της λογικής που παράγεται από την AI.
Λόγω αυτού του κινδύνου, η OpenAI συνιστά εναντίον της εφαρμογής υπερβολικών περιορισμών στη λογική του CoT στα μοντέλα AI.
«Η θυσία μιας αποτελεσματικής μεθόδου για την παρακολούθηση των μοντέλων λογικής μπορεί να μην αξίζει την μικρή βελτίωση στις δυνατότητες και γι’ αυτό συνιστούμε να αποφεύγεται η έκθεση σε τέτοιες έντονες πιέσεις βελτιστοποίησης CoT, μέχρι να κατανοηθούν καλύτερα,» έγραψε το OpenAI.
Τα ευρήματα επισημαίνουν τη δυσκολία δημιουργίας συστημάτων AI που συμβαδίζουν με τις ανθρώπινες προθέσεις, διατηρώντας παράλληλα τη διαφάνεια. Καθώς τα μοντέλα AI γίνονται πιο σύνθετα, η απλή αύξηση της ευφυΐας τους δεν θα λύσει απαραίτητα τα ηθικά ζητήματα· μπορεί, στην πραγματικότητα, να τα κάνει καλύτερα στο να κρύβουν την αταξία.
Η μελλοντική έρευνα θα πρέπει να εξερευνήσει εναλλακτικές προσεγγίσεις στην εποπτεία της AI που θα εξισορροπούν τον έλεγχο με την ανοιχτότητα, εξασφαλίζοντας ότι τα μοντέλα AI παραμένουν τόσο αποτελεσματικά όσο και υπόλογα.
Αφήστε ένα σχόλιο
Ακύρωση