Τα ανθρωποειδή ρομπότ γίνονται όλο και πιο δύσκολο να ξεχωρίσουν από τους αληθινούς ανθρώπους και μια νέα μελέτη από την Κίνα εξηγεί έναν από τους λόγους που συμβαίνει αυτό. Ερευνητές ανέπτυξαν ένα μεγάλης κλίμακας τρισδιάστατο σύνολο δεδομένων προσώπου και ένα νέο μοντέλο τεχνητής νοημοσύνης που μπορεί να ανιχνεύσει χαρακτηριστικές εκφράσεις του προσώπου απευθείας από ακατέργαστα τρισδιάστατα δεδομένα, χωρίς να βασίζεται σε δισδιάστατες εικόνες ή ψηφιακά πρότυπα.
Η έρευνα αυτή στοχεύει σε μια βασική πρόκληση στην κατασκευή ρεαλιστικών ανδροειδών και εικονικών ανθρώπων: την ικανότητά τους να εκφράζουν συναισθήματα, να αναγνωρίζουν ταυτότητες και να αλληλεπιδρούν με φυσικό τρόπο. Ένα από τα βασικά τεχνικά στοιχεία πίσω από αυτή την ικανότητα είναι η ανίχνευση τρισδιάστατων σημείων-κλειδιών του προσώπου, η οποία χαρτογραφεί κρίσιμα σημεία στον τρισδιάστατο χώρο.
Τα περισσότερα υπάρχοντα συστήματα εξαρτώνται σε μεγάλο βαθμό από τη χαρτογράφηση δισδιάστατης υφής ή συνθετικά τρισδιάστατα πρόσωπα. Αυτή η προσέγγιση μπορεί να προκαλέσει σφάλματα, καθώς τα ψηφιακά μοντέλα συχνά διαφέρουν από την πραγματική γεωμετρία του ανθρώπινου προσώπου. Η νέα μελέτη στοχεύει να ξεπεράσει αυτούς τους περιορισμούς δουλεύοντας απευθείας με πραγματικές τρισδιάστατες σαρώσεις προσώπου.
Δημιουργία τεράστιων συνόλων δεδομένων 3D
Για την υποστήριξη αυτής της προσπάθειας, η ομάδα κατασκεύασε ένα προσαρμοσμένο σύστημα λήψης δεδομένων 3D και 4D. Συγκέντρωσαν μια βάση δεδομένων δηλαδή που περιέχει περίπου 200.000 τρισδιάστατες σαρώσεις προσώπου υψηλής πιστότητας. Η βάση δεδομένων περιλαμβάνει επίσης:
- Σύνολο δεδομένων 3D προσώπων με πολλαπλές εκφράσεις.
- Τυποποιημένο σύνολο δεδομένων οροσήμων (landmarks) προσώπου.
- Σύνολο δεδομένων ανθρώπινου σώματος υψηλής ακρίβειας.
Δυναμικό σύνολο δεδομένων εκφράσεων προσώπου 4D.
Αυτοί οι πόροι αποτελούν μία από τις μεγαλύτερες δομημένες συλλογές πραγματικών τρισδιάστατων δεδομένων ανθρώπινου προσώπου που έχουν αναφερθεί μέχρι σήμερα.
Τεχνολογική καινοτομία: Το δίκτυο CF-GAT
Αντί να τροφοδοτούν το σύστημα AI με εικόνες υφής, οι ερευνητές σχεδίασαν ένα δίκτυο προσοχής γραφημάτων με σύντηξη καμπυλότητας (Curvature-Fused Graph Attention Network ή CF-GAT) για την απευθείας επεξεργασία μη δομημένων «νεφών σημείων» (point clouds). Ένα νέφος σημείων αναπαριστά τη γεωμετρία ενός προσώπου ως μια συλλογή χωρικών σημείων, χωρίς επιφανειακές υφές. Αυτό επιτρέπει στο δίκτυο να εστιάζει σε ανεπαίσθητες τοπικές παραλλαγές του σχήματος, μοντελοποιώντας ταυτόχρονα τις συνολικές σχέσεις σε ολόκληρο το πρόσωπο.
Γεωμετρική επανάσταση στην Τεχνητή Νοημοσύνη
Μέσω της δομής του, το CF-GAT προβλέπει τις συντεταγμένες των τρισδιάστατων οροσήμων απευθείας από ακατέργαστα γεωμετρικά δεδομένα. Στις δοκιμές, το μοντέλο έδειξε:
- Μεγαλύτερη ανθεκτικότητα στον θόρυβο (noise).
- Καλύτερη γενίκευση σε διαφορετικά σχήματα προσώπου.
- Ακριβέστερο εντοπισμό λεπτομερών σημείων, τα οποία είναι κρίσιμα για ρεαλιστικές εκφράσεις.
Αυτή η πρόοδος θα μπορούσε να υποστηρίξει πιο αληθοφανή ανθρωποειδή ρομπότ, βελτιωμένα βιομετρικά συστήματα και πιο εκφραστικά εικονικά άβαταρ. Καθώς τα ανδροειδή εμφανίζονται όλο και περισσότερο στην ψυχαγωγία, την υγειονομική περίθαλψη και τις υπηρεσίες, αυτή η γεωμετρική νοημοσύνη μπορεί να καθορίσει το πόσο φυσικά θα φαίνονται στους ανθρώπους, όπως αναφέρει δημοσίευμα του ιστότοπου Interesting Engineering.














