Η τεχνητή νοημοσύνη χρειάζεται ανοιχτά μοντέλα
Γιατί είναι επιθυμητά τα ανοικτά μοντέλα
Για εμάς τους προγραμματιστές το μεγαλύτερο ίσως απόνερο από την ιστορία με την OpenAI είναι ο στιγματισμός της “ανοιχτότητας”. Στην πληροφορική, εδώ και δεκαετίες το επίθετο “ανοιχτό” έχει πολλαπλές χρήσεις: αναφέρεται ανοικτά πρότυπα όπως το GSM και το 5G στις επικοινωνίες ή το HTTP και το ανοιχτό λογισμικό γενικότερα. Η λογική όμως είναι ξεκάθαρη: υπάρχει ένα κοινός τόπος ανοιχτός και διαθέσιμο προς όλους, και από εκεί και πέρα ο ανταγωνισμός λειτουργεί προσθετικά.
Στην περίπτωση της τεχνητής νοημοσύνης (ή της μηχανικής μάθησης για να ακριβολογούμε) το ζήτημα της ανοιχτότητας είναι λίγο πιο περίπλοκο.
Ας ξεκινήσουμε από τα βασικά: για να φτιάξει κάποιος ένα μεγάλο γλωσσικό μοντέλο (LLM) χρειάζεται τρία πράγματα: πρωτογενή δεδομένα (συνήθως κείμενο), λογισμικό που να επεξεργάζεται το κείμενο και να τα μετατρέπει σε αριθμούς και ισχυρή υπολογιστική υποδομή για να τρέξει το λογισμικό. Όταν συνδυαστούν αυτά τα τρία, στην τελική του μορφή το αποτέλεσμα της εκπαίδευσης του μοντέλου είναι ένα μεγάλος πλήθος από αριθμούς – παραμέτρους, Το λεγόμενο “μέγεθος του μοντέλου”. Αυτές οι παράμετροι ποσοτικοποιηθούν την ευφυΐα του μοντέλου και το πώς αυτό γεννά νέο περιεχόμενο.
Για να έχουμε μια εικόνα των μεγεθών: Αυτή στιγμή που τα μεγαλύτερα ανοικτά / δωρεάν μοντέλα κυμαίνονται από λίγα δις έως 70Β το Llama2 της Meta ή το Falcon 180B. Το κλειστό GPT-3.5 που ήταν το ιστορικό σημείο καμπής είχε 175δις παραμέτρους, ενώ το GPT-4 φέρεται να έχει 1.5τρις!
Στην περίπτωση του δημοφιλούς ChatGPT, και παρόλο το παραπλανητικό του ονόματος της OpenAI, τίποτα δεν είναι ανοικτό. Υπάρχουν όμως άλλα μοντέλα τα οποία κινούνται στο φάσμα της ανοιχτότητας. Όπως το Llama2 το οποίο είναι “τύποις ανοικτά” υπό την έννοια ότι το οι τελικές παράμετροι είναι διαθέσιμες για οποιονδήποτε να της χρησιμοποιήσει, ο πηγαίος κώδικάς όμως που χρησιμοποιήθηκε για την παραγωγή των παραμέτρων δεν είναι διαθέσιμος. Και αυτό οδηγεί σε μερικούς ιδιαίτερους περιορισμούς. Για παράδειγμα, η άδεια χρήσης του Llama2 αναφέρει ρητά πως επιτρέπεται η χρήση του από παρόχους για να εξυπηρετήσουν μέχρι 700εκατομμύρια χρήστες το μήνα. Ένας ξεκάθαρος τρόπος να αποκλειστούν ανταγωνιστές της Meta απο τη χρήση του.
Γιατί όμως είναι επιθυμητά τα ανοικτά μοντέλα; Πρώτο και βασικότερο αποτρέπουν τη δημιουργία μονοπωλίων. Δε χρειαζόμαστε μια νέα πανίσχυρη Βρετανική Εταιρεία Ανατολικών Ινδιών που αντί για μπαχαρικά και μετάξι θα εμπορεύεται τεχνητή νοημοσύνη. Μπορεί το ευρύ κοινό να έχει ταυτίσει την ΤΝ με την OpenAI και το ChatGPT, αλλά οι πρακτικοί χρήστες έχουμε στη διάθεσή μας μια πληθώρα από ανοιχτά μοντέλα τα οποία είναι πολλές φορές “αρκούντως καλά” για τις εφαρμογές μας. Τί κάνουμε σε αυτή την περίπτωση; Ανατρέχουμε στην παγκόσμια κατάταξη των μοντέλων (ναι υπάρχει Open LLM Leaderboard!) και παίρνουμε από το ράφι αυτή που μας εξυπηρετεί.
Τα ανοιχτά μοντέλα είναι πιο οικονομικά. Τα υπάρχοντα κλειστά μοντέλα εκπαιδεύτηκαν σε περιβάλλον χαμηλών επιτοκίων και εύκολα διαθέσιμων κεφαλαίων και αυτό τα κάνει να φαίνονται ακόμη φθηνά. Το κόστος τους όμως θα αυξηθεί και θα γίνει κριτήριο επιλογής. Σε αυτό το σενάριο τα ανοιχτά μοντέλα θα πρέπει να αποτελούν ρεαλιστική εναλλακτική. Και εδώ θα θέλαμε να τονίσουμε το ρόλο των κρατών – που θα είναι άλλωστε και από τους πρώτους μεγάλου πελάτες προϊόντων ΤΝ, άρα θα επηρεάσουν την πορεία της αγοράς γενικότερα.
Οφείλουν τα κράτη να πριμοδοτήσουν ή/και απαιτήσουν τη χρήση ανοιχτών μοντέλων από τους προμηθευτές τους. Να μην επαναληφθούν δηλαδή τα λάθη των προηγούμενων δεκαετιών όπου το δημόσιο χρήμα δαπανιόταν σε κλειστό λογισμικό μιας χρήσης και σε φαραωνικά έργα πολλών εκατομμυρίων, ενώ υπήρχαν δωρεάν και ανοιχτές επιλογές με πολύ μικρότερο κόστος.
Προωθούν την καινοτομία και τη συνεργασία. Ένα μοντέλο το οποίο πέρα από τις παραμέτρους, κάνει διαθέσιμο και τον πηγαίο κώδικά του, επιτρέπει σε κάποιον προγραμματιστή να το επεξεργαστεί τμηματικά, βελτιώνοντας για παράδειγμα τα αποτελέσματα για την ελληνική γλώσσα ή να το κάνει καλύτερο στοχεύοντας συγκεκριμένους γνωστικούς τομείς όπως την Ιατρική. Δίνεται έτσι ευκαιρία η καινοτομία των μοντέλων να επεκταθεί προς όλες τις κατευθύνσεις χωρίς να προτιμώνται πρόσκαιρα κερδοφόροι τομείς έναντι των υπολοίπων φερ’ειπείν η διαφήμιση έναντι των ανθρωπιστικών τομέων.
Τα ανοιχτά μοντέλα διασφαλίζουν τις ίσες ευκαιρίες και την ισότιμη πρόσβαση στη γνώση. Το κόστος την ΤΝ θα αυξηθεί μεν, θα αυξηθεί όμως και η χρήση τους σε πεδία όπως η εκπαίδευση, όπου κάθε μαθητής θα μπορεί ενδεχομένως να έχει τον δικό του προσωπικό δάσκαλο. Αν δεν έχουμε εξίσου ποιοτικά ανοιχτά μοντέλα διαθέσιμα, θα έχουμε μαθητές πολλαπλών ταχυτήτων όπου όποιος έχει καλύτερη οικονομική άνεση, θα εξασφαλίζει έναν καλύτερο προσωπικό δάσκαλο για το παιδί του.
Τα ανοιχτά μοντέλα προσφέρουν περισσότερη διαφάνεια. Το λεγόμενο “explainability” θα μας απασχολήσει έντονα τα επόμενα χρόνια. Από τώρα ακόμα, όταν ενδιαφερόμενα μέλη ρωτούν “γιατί το τάδε μοντέλο έβγαλε το δείνα αποτέλεσμα” η απάντηση είναι “δε γνωρίζουμε”, και αυτό διότι πλέον είναι τόσο περίπλοκα που η λογική τους δεν μπορεί να εξηγηθεί και να αποτυπωθεί σε ένα χαρτί, δυσχαιρένοντας τη λογοδοσία των υπευθύνων – τί σημαίνει άραγε ευθύνη σε αυτό το πλαίσιο; Με τα κλειστά γλωσσικά μοντέλα μάλιστα, στα οποία δε γνωρίζουμε ούτε καν τα δεδομένα με τα οποία εκπαιδεύτηκαν – πόσο μάλλον τις παραμέτρους τους – τότε η λογοδοσία και η διαφάνεια καθίσταται απλώς αδύνατη.
Τα ανοιχτά μοντέλα μπορούν να έχουν πιο ξεκάθαρο περιβαλλοντικό αποτύπωμα. Το ζήτημα αυτό δεν έχει αναδειχθεί όσο θα έπρεπε. Υποσυνείδητα ταυτίζουμε ένα ερώτημα στο ChatGPT με το άνοιγμα μιας καρτέλας στον browser μας, η πραγματικότητα όμως είναι διαφορετική. Η υπολογιστική ισχύς που απαιτείται για ένα απλό ερώτημα δεν είναι καθόλου αμελητέα, άρα και το περιβαλλοντικό του αποτύπωμα επίσης. Σταδιακά θα αναπτυχθούν μεθοδολογίες οι οποίες θα ποσοτικοποιούν αυτό το αποτύπωμα για τα ανοιχτά μοντέλα. Στην περίπτωση των κλειστών όμως, αυτό θα είναι αδύνατο.
Θα κλείσουμε τέλος με ένα ζήτημα που δε συζητείται ακόμα στην κοινή γνώμη. Η επόμενη κούρσα θα αφορά τα λεγόμενα, συνθετικά δεδομένα. Όταν εξαντληθούν τα διαθέσιμα δεδομένα για να εκπαιδεύσουν μοντέλα ΤΝ, θα χρειαστούν νέα. Σε αυτή την περίπτωση, τα μεγάλα γλωσσικά μοντέλα που – ω ναι, σωστά το κατάλαβες αγαπητέ αναγνώστη – θα χρησιμοποιούνται για να δημιουργήσουν νέα δεδομένα για να εκπαιδευτούν νέα μοντέλα. Θα μιλάμε ουσιαστικά για μια νέα μηχανή παραγωγής πλούτου. Σε αυτό το σενάριο, ας φανταστούμε πώς θα ήταν σήμερα ο κόσμος μας αν οι πετρελαιοπαραγωγές χώρες, είχαν τη δυνατότητα όχι μόνο να αντλούν και να πουλούν πετρέλαιο, αλλά και να το παράγουν κιόλας.
* Ο Φλόρεντς Τσελάι είναι μηχανικός δεδομένων.
naftemporiki.gr