Novel math could bring machine learning to the next level!

Μια ομάδα Ιταλών μαθηματικών, συμπεριλαμβανομένου ενός νευροεπιστήμονα από το Κέντρο Champalimaud για το Άγνωστο (CCU), στη Λισαβόνα της Πορτογαλίας, έδειξε ότι οι μηχανές τεχνητής όρασης μπορούν να μάθουν να αναγνωρίζουν σύνθετες εικόνες πιο γρήγορα χρησιμοποιώντας μια μαθηματική θεωρία που αναπτύχθηκε πριν από 25 χρόνια από έναν από τους συγγραφείς αυτής της νέας μελέτης. Τα αποτελέσματά τους έχουν δημοσιευθεί στο περιοδικό Nature Machine Intelligence.

Τις τελευταίες δεκαετίες, η απόδοση της μηχανικής όρασης έχει βελτιωθεί σημαντικά. Τα τεχνητά συστήματα μπορούν τώρα να μάθουν να αναγνωρίζουν σχεδόν οποιοδήποτε ανθρώπινο πρόσωπο ή να αναγνωρίζουν κάθε μεμονωμένο ψάρι που μετακινείται σε μια δεξαμενή.

Τέτοιες μηχανές είναι στην πραγματικότητα ηλεκτρονικά μοντέλα δικτύων βιολογικών νευρώνων και στόχος τους είναι να προσομοιώσουν τη λειτουργία του εγκεφάλου που υπερέχει σε αυτά τα οπτικά καθήκοντα χωρίς καμία συνειδητή προσπάθεια εκ μέρους μας.

Αλλά πώς πραγματικά μαθαίνουν αυτά τα τεχνητά νευρωνικά δίκτυα; Στην περίπτωση της αναγνώρισης προσώπου, για παράδειγμα, το κάνουν με την απόκτηση εμπειρίας σχετικά με τα ανθρώπινα πρόσωπα που μοιάζουν με τη μορφή μιας σειράς πορτρέτων. Πιο συγκεκριμένα, αφού ψηφιοποιηθεί σε μια μήτρα των τιμών των εικονοστοιχείων, κάθε εικόνα είναι “σπασμένο” μέσα στο νευρικό δίκτυο, το οποίο στη συνέχεια εξάγει γενικά, σημαντικά χαρακτηριστικά από το σύνολο των δειγμάτων (όπως τα μάτια, το στόμα, τη μύτη κλπ.).

Αυτή η βαθιά εκμάθηση επιτρέπει στο μηχάνημα να φτύνει ένα άλλο σύνολο τιμών, το οποίο με τη σειρά του θα του επιτρέψει να εντοπίσει ένα πρόσωπο που δεν έχει ξαναδεί σε μια τράπεζα δεδομένων προσώπων (παρόμοια με μια βάση δεδομένων δακτυλικών αποτυπωμάτων) και επομένως να προβλέψει σε ποιον το πρόσωπο αυτό ανήκει με μεγάλη ακρίβεια.

 

Η ιστορία του Έξυπνου Χανς

Πριν όμως το νευρικό δίκτυο μπορεί να εκτελέσει αυτό το καλά, είναι τυπικά απαραίτητο να το παρουσιάσει με χιλιάδες πρόσωπα (δηλαδή μήτρες αριθμών). Επιπλέον, παρόλο που αυτά τα μηχανήματα έχουν όλο και μεγαλύτερη επιτυχία στην αναγνώριση προτύπων, το γεγονός είναι ότι κανείς δεν γνωρίζει πραγματικά τι συμβαίνει μέσα τους καθώς μαθαίνουν εργασίες. Είναι βασικά μαύρα κουτιά.

Αυτό σημαίνει ότι δεν είναι δυνατόν να προσδιοριστεί ποια ή πόσες λειτουργίες το μηχάνημα εξάγει πραγματικά από τα αρχικά δεδομένα – και ακόμη και πόσες από αυτές τις λειτουργίες έχουν ουσιαστική σημασία για την αναγνώριση προσώπου.

“Για να το δείξουμε αυτό, εξετάστε το πρότυπο του σοφού αλόγου”, λέει ο πρώτος συγγραφέας της μελέτης Mattia Bergomi, ο οποίος εργάζεται στο εργαστήριο Systems Neuroscience στην CCU. Η ιστορία, από τα πρώτα χρόνια του 20ού αιώνα, αφορά ένα άλογο στη Γερμανία που ονομάζεται Έξυπνος Χανς που ο αφεντικό του ισχυριζόταν ότι είχε μάθει να εκτελεί αριθμητική και να ανακοινώνει το αποτέλεσμα προσθηκών, αφαιρέσεων κλπ., Σφραγίζοντας μία από τις μπροστινές οπλές του στο έδαφος το σωστό αριθμό φορές. Πολλοί άνθρωποι ήταν πεπεισμένοι ότι μπορούσε να μετρήσει. το άλογο είχε ακόμη αναφερθεί από τους New York Times. Αλλά τότε, το 1907, ένας Γερμανός ψυχολόγος έδειξε ότι το άλογο, στην πραγματικότητα, σηκώνοντας ασυνείδητα συνθήματα στη γλώσσα του σώματος του πλοιάρχου του που του έλεγαν πότε πρέπει να σταματήσει να χτυπάει.

«Είναι το ίδιο με τη μηχανική μάθηση · δεν υπάρχει κανένας έλεγχος για το πώς λειτουργεί ή τι έχει μάθει κατά τη διάρκεια της κατάρτισης», εξηγεί η Bergomi. Το μηχάνημα, που δεν έχει εκ των προτέρων γνώση των προσώπων, κάνει με κάποιο τρόπο τα πράγματα του – και λειτουργεί.

Αυτό οδήγησε τους ερευνητές να ρωτήσουν αν μπορεί να υπάρξει ένας τρόπος για να εισάγουμε κάποια γνώση του πραγματικού κόσμου σχετικά με πρόσωπα ή άλλα αντικείμενα στο νευρικό δίκτυο πριν από την προπόνηση, ώστε να αναγκαστεί να διερευνήσει έναν πιο περιορισμένο χώρο των πιθανών χαρακτηριστικών αντί να τα εξετάσει όλα – συμπεριλαμβανομένων εκείνων που είναι αδύνατον στον πραγματικό κόσμο. «Θέλαμε να ελέγξουμε το χώρο των γνωστών χαρακτηριστικών», λέει ο Bergomi. “Είναι παρόμοια με τη διαφορά μεταξύ ενός μέτριου παίκτη σκακιού και ενός εμπειρογνώμονα: Ο πρώτος βλέπει όλες τις δυνατές κινήσεις, ενώ ο τελευταίος βλέπει μόνο τους καλούς”, προσθέτει.

Ένας άλλος τρόπος να το θέσω, λέει, λέει ότι “η μελέτη μας απευθύνεται στην ακόλουθη απλή ερώτηση: Όταν εκπαιδεύουμε ένα βαθύ νευρωνικό δίκτυο για να διακρίνουμε οδικά σήματα, πώς μπορούμε να πούμε στο δίκτυο ότι η δουλειά του θα είναι πολύ ευκολότερη εάν πρέπει να νοιάζεται για απλά γεωμετρικά σχήματα όπως κύκλους και τρίγωνα; “

Οι επιστήμονες υποστήριξαν ότι αυτή η προσέγγιση θα μείωνε σημαντικά το χρόνο εκπαίδευσης και, κυρίως, θα τους έδινε έναν υπαινιγμό για το τι μπορεί να κάνει η μηχανή για να αποκτήσει τα αποτελέσματά της. «Το να επιτρέψουμε στον άνθρωπο να οδηγήσει τη μαθησιακή διαδικασία των μαθησιακών μηχανών είναι θεμελιώδους σημασίας για να προχωρήσουμε προς μια πιο κατανοητή τεχνητή νοημοσύνη και να μειώσουμε το κόστος που εκτοξεύει στο χρόνο και τους πόρους που χρειάζονται τα τρέχοντα νευρωνικά δίκτυα για να εκπαιδεύσουν», λέει.

 

Τι έχει σχήμα;

Μια αφηρημένη μαθηματική θεωρία που ονομάζεται τοπολογική ανάλυση δεδομένων (TDA) ήταν καθοριστική. Τα πρώτα βήματα στην ανάπτυξη του TDA λήφθηκαν το 1992 από τον Ιταλό μαθηματικό Patrizio Frosini, συν-συγγραφέα της νέας μελέτης, που σήμερα είναι στο Πανεπιστήμιο της Μπολόνια. “Η τοπολογία είναι μία από τις πιο αγνές μορφές μαθηματικών”, λέει ο Bergomi. “Και μέχρι πρόσφατα, οι άνθρωποι πίστευαν ότι η τοπολογία δεν θα εφαρμοζόταν σε τίποτα συγκεκριμένο για μεγάλο χρονικό διάστημα, μέχρι το TDA έγινε γνωστό τα τελευταία χρόνια”.

Η τοπολογία είναι ένα είδος εκτεταμένης γεωμετρίας που, αντί να μετρά γραμμές και γωνίες σε άκαμπτα σχήματα (όπως τρίγωνα, τετράγωνα, κώνοι κλπ.), Επιδιώκει να ταξινομήσει πολύπλοκα αντικείμενα σύμφωνα με το σχήμα τους. Για έναν topologist, για παράδειγμα, ένα donut και μια κούπα είναι το ίδιο αντικείμενο: μπορεί κανείς να παραμορφωθεί στην άλλη με τέντωμα ή συμπίεση.

Τώρα, το πράγμα είναι ότι τα σημερινά νευρωνικά δίκτυα δεν είναι καλά στην τοπολογία. Για παράδειγμα, δεν αναγνωρίζουν περιστρεφόμενα αντικείμενα. Σε αυτά, το ίδιο αντικείμενο θα φαίνεται εντελώς διαφορετικό κάθε φορά που περιστρέφεται. Αυτός είναι ακριβώς ο λόγος για τον οποίο η μόνη λύση είναι να καταστήσει αυτά τα δίκτυα “να απομνημονεύσουν” κάθε διαμόρφωση ξεχωριστά – από τις χιλιάδες. Και ακριβώς αυτό που οι συγγραφείς σχεδίαζαν να αποφεύγουν χρησιμοποιώντας το TDA.

Σκεφτείτε το TDA ως ένα μαθηματικό εργαλείο για την εξεύρεση ουσιαστικής εσωτερικής δομής (τοπολογικά χαρακτηριστικά), σε οποιοδήποτε περίπλοκο αντικείμενο που μπορεί να εκπροσωπείται ως ένα τεράστιο σύνολο αριθμών. Αυτό επιτυγχάνεται εξετάζοντας τα δεδομένα μέσω ορισμένων καλά “επιλεγμένων” φακών ή φίλτρων. Τα ίδια τα δεδομένα μπορεί να αφορούν πρόσωπα, οικονομικές συναλλαγές ή ποσοστά επιβίωσης από καρκίνο. Το TDA καθιστά δυνατή τη διδασκαλία ενός νευρικού δικτύου για να αναγνωρίσει πρόσωπα χωρίς να χρειάζεται να το παρουσιάσει με κάθε έναν από τους διαφορετικούς προσανατολισμούς που μπορεί να υποθέσει το πρόσωπο στο διάστημα. Το μηχάνημα θα αναγνωρίσει τώρα όλα τα πρόσωπα ως πρόσωπο, ακόμη και σε διαφορετικές περιστρεφόμενες θέσεις.

Στη μελέτη τους, οι επιστήμονες εξέτασαν τα οφέλη του συνδυασμού μηχανικής μάθησης και TDA διδασκαλώντας ένα νευρικό δίκτυο για να αναγνωρίσει τα χειρόγραφα ψηφία. Τα αποτελέσματα μιλούν από μόνα τους.

Δεδομένου ότι αυτά τα δίκτυα είναι κακοί τοπιολόγοι και το χειρόγραφο μπορεί να είναι πολύ διφορούμενο, δύο διαφορετικά χειρόγραφα μπορούν να αποδειχθούν αδιάφορα για τις τρέχουσες μηχανές – και αντίστροφα, μπορούν να εντοπίσουν δύο περιπτώσεις του ίδιου χειρόγραφου ψηφίου διαφορετικά. Η εργασία απαιτεί την παρουσίαση του δικτύου, το οποίο δεν γνωρίζει τίποτα για τα ψηφία στον πραγματικό κόσμο, με χιλιάδες εικόνες από κάθε ένα από τα 10 ψηφία που έχουν γραφτεί με κάθε λογής κλίσεις, καλλιγραφικά, κλπ.

Για να εισαγάγει γνώση σχετικά με τα ψηφία, η ομάδα δημιούργησε ένα σύνολο χαρακτηριστικών a priori τα οποία θεωρούσαν σημαντικά – με άλλα λόγια ένα σύνολο “φακών” μέσω των οποίων το δίκτυο θα έβλεπε τα ψηφία – και ανάγκασε τη μηχανή να επιλέξει μεταξύ αυτών των φακών να κοιτάξουν στις εικόνες. Ο αριθμός των εικόνων (δηλαδή ο χρόνος) που απαιτούνται για το ενισχυμένο με TDA νευρωνικό δίκτυο για να μάθουν να διακρίνουν πέντε από επτάδες, όσο κακό γράφτηκε, διατηρώντας παράλληλα την προβλεπτική δύναμή του, μειώθηκε σε λιγότερο από 50.

“Αυτό που περιγράφουμε μαθηματικά στη μελέτη μας είναι πώς να επιβάλλουμε κάποιες συμμετρίες και αυτό παρέχει μια στρατηγική για την οικοδόμηση μηχανισμών μάθησης που μπορούν να μάθουν τα χαρακτηριστικά γνωρίσματα από μερικά παραδείγματα αξιοποιώντας τις γνώσεις που εισάγονται ως περιορισμοί», λέει ο Bergomi .

Μήπως αυτό σημαίνει ότι η εσωτερική λειτουργία των μαθησιακών μηχανών που μιμούνται τον εγκέφαλο θα γίνει πιο διαφανής στο μέλλον, επιτρέποντας νέες ιδέες για την εσωτερική λειτουργία του ίδιου του εγκεφάλου; Σε κάθε περίπτωση, αυτός είναι ένας από τους στόχους της Bergomi. “Η κατανόηση της τεχνητής νοημοσύνης είναι απαραίτητη για την αλληλεπίδραση και την ενσωμάτωσή της με τη βιολογική νοημοσύνη”, λέει. Αυτή τη στιγμή εργάζεται, σε συνεργασία με τον συνάδελφό του Pietro Vertechi, για την ανάπτυξη ενός νέου τύπου αρχιτεκτονικής νευρωνικών δικτύων που θα επιτρέψει στους ανθρώπους να εισάγουν γρήγορα υψηλού επιπέδου γνώση σε αυτά τα δίκτυα για τον έλεγχο και την επιτάχυνση της εκπαίδευσής τους.

Πατήστε εδώ για να συνεχίσετε

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Please enter your comment!
Please enter your name here