
Image by Mika Baumeister, from Unsplash
Τα AI Chatbots Ευάλωτα σε Επίθεση Εισαγωγής Μνήμης
Οι ερευνητές ανακάλυψαν μια νέα μέθοδο για να χειραγωγούν τα AI chatbots, δημιουργώντας ανησυχίες για την ασφάλεια των μοντέλων AI με μνήμη.
Βιάζεστε; Εδώ είναι τα γρήγορα στοιχεία!
- Ερευνητές από τρία πανεπιστήμια ανέπτυξαν το MINJA, δείχνοντας την υψηλή του επιτυχία στην παραπλάνηση.
- Η επίθεση αλλάζει τις απαντήσεις του chatbot, επηρεάζοντας τις συστάσεις προϊόντων και τις ιατρικές πληροφορίες.
- Το MINJA παρακάμπτει τα μέτρα ασφαλείας, επιτυγχάνοντας ποσοστό επιτυχίας εμφύτευσης 95% στις δοκιμές.
Η επίθεση, η οποία ονομάζεται MINJA (Memory INJection Attack), μπορεί να πραγματοποιηθεί απλά αλληλεπιδρώντας με ένα σύστημα AI όπως ένας τακτικός χρήστης, χωρίς να χρειάζεται πρόσβαση στο backend του, όπως ανέφερε για πρώτη φορά το The Register.
Αναπτυγμένο από ερευνητές του Πανεπιστημίου του Μίσιγκαν, του Πανεπιστημίου της Τζόρτζια και του Πανεπιστημίου Διοίκησης Σιγκαπούρης, το MINJA λειτουργεί δηλητηριάζοντας τη μνήμη ενός AI μέσω παραπλανητικών εντολών. Όταν ένα chatbot αποθηκεύει αυτές τις απατηλές εισαγωγές, μπορούν να αλλάξουν τις μελλοντικές απαντήσεις για άλλους χρήστες.
«Σήμερα, οι πράκτορες AI συνήθως ενσωματώνουν μια τράπεζα μνήμης η οποία αποθηκεύει ερωτήσεις και εκτελέσεις εργασιών βασισμένες στην ανθρώπινη ανταπόκριση για μελλοντική αναφορά», εξήγησε ο Ζεν Ξιάνγκ, επίκουρος καθηγητής στο Πανεπιστήμιο της Τζόρτζια, όπως αναφέρθηκε από το The Register.
«Για παράδειγμα, μετά από κάθε συνάντηση του ChatGPT, ο χρήστης μπορεί προαιρετικά να δώσει θετική ή αρνητική βαθμολογία. Και αυτή η βαθμολογία μπορεί να βοηθήσει το ChatGPT να αποφασίσει εάν οι πληροφορίες της συνάντησης θα ενσωματωθούν στη μνήμη τους ή στη βάση δεδομένων τους», πρόσθεσε.
Οι ερευνητές δοκίμασαν την επίθεση σε μοντέλα AI που λειτουργούν με το OpenAI’s GPT-4 και GPT-4o, συμπεριλαμβανομένου ενός βοηθού για ηλεκτρονικές αγορές, ενός chatbot για την υγεία, και ενός πράκτορα που απαντά σε ερωτήσεις.
Σύμφωνα με την εφημερίδα The Register, αναφέρεται ότι ανακάλυψαν ότι το MINJA θα μπορούσε να προκαλέσει σοβαρές διαταραχές. Για παράδειγμα, σε έναν υγειονομικό chatbot, μετέβαλλε τις καταχωρήσεις των ασθενών, συσχετίζοντας τα δεδομένα ενός ασθενούς με έναν άλλον. Σε ένα διαδικτυακό κατάστημα, ξεγέλασε την AI παρουσιάζοντας στους πελάτες τα λάθος προϊόντα.
«Αντίθετα, η δική μας εργασία δείχνει ότι η επίθεση μπορεί να εκτελεστεί απλώς αλληλεπιδρώντας με τον παράγοντα όπως ένας τακτικός χρήστης», είπε ο Xiang, όπως αναφέρει το The Register. «Οποιοσδήποτε χρήστης μπορεί εύκολα να επηρεάσει την εκτέλεση της εργασίας για οποιονδήποτε άλλο χρήστη. Επομένως, λέμε ότι η επίθεσή μας αποτελεί μια πρακτική απειλή για τους παράγοντες LLM», πρόσθεσε.
Η επίθεση είναι ιδιαίτερα ανησυχητική επειδή παρακάμπτει τα υφιστάμενα μέτρα ασφαλείας της Τεχνητής Νοημοσύνης. Οι ερευνητές ανέφεραν ποσοστό επιτυχίας 95% στην εισαγωγή παραπλανητικών πληροφοριών, καθιστώντας το μια σοβαρή ευπάθεια που οι προγραμματιστές Τεχνητής Νοημοσύνης πρέπει να αντιμετωπίσουν.
Καθώς τα μοντέλα Τεχνητής Νοημοσύνης με μνήμη γίνονται όλο και πιο συνηθισμένα, η μελέτη επισημαίνει την ανάγκη για ισχυρότερες εγγυήσεις για να αποτρέψουν τους κακόβουλους παράγοντες από το να χειραγωγούν τους chatbots και να παραπλανούν τους χρήστες.
Αφήστε ένα σχόλιο
Ακύρωση