Une nouvelle génération de transformateurs émerge

L’intelligence neuronale et l’intelligence artificielle transforment la façon dont le monde fonctionne

Mars 17, 2023

14 min. de lecture

Jaydeep Saha

Global Reporter, HCLTech

Mars 17, 2023

14 min. de lecture

Listen à article

30s Backward

0:00 0:00

30s Forward

À maintes reprises, chaque fois que le mot « transformers » apparaît, il évoque des souvenirs de Sentinel Prime et Optimus Prime — les Autobots. Les gens se souviennent de leurs actions héroïques, de leurs sacrifices, de la guerre civile contre les Decepticons de Megatron, de la perte du cube AllSpark composé de l’Energon — le liquide vital des transformers, de la destruction de leur planète Cybertron et de leur arrivée sur Terre où ils finissent par sauver l’humanité.

En réalité, ce n’est qu’en novembre 2022 qu’un autre transformer — le Transformer génératif pré-entraîné (ou ChatGPT ou GPT-3.5), présenté au monde par OpenAI — a été révélé comme un outil pouvant aider l’humanité à relever ses défis les plus pressants. Depuis sa sortie, cette technologie a donné un nouveau sens au mot transformer.

« La comparaison avec les personnages fictifs des transformers extraterrestres n’a rien de nouveau. Ces personnages sont si célèbres que des outils ont déjà été nommés d’après eux. Prenons par exemple le Auto Bot Builder qui exploite la puissance de GPT-3 pour construire automatiquement des agents conversationnels avancés adaptés aux besoins des entreprises », affirme Phil Hermsen, directeur Solutions, Science des données et IA, chez HCLTech.

Lancé mercredi, le dernier « Transformer », GPT-4, est « plus sophistiqué, plus créatif et collaboratif, et peut résoudre des problèmes difficiles avec plus de précision. »

L’entreprise a même affirmé que GPT-4 « surpasse les humains sur de nombreux tests standardisés » et produira moins de réponses factuellement incorrectes.

Grâce à ses capacités multimodales, le nouveau modèle peut répondre à des images, générer des légendes, des classifications et des analyses, effectuer des modifications et itérer avec les utilisateurs lors de tâches d’écriture créative et technique. Il est suffisamment puissant pour traiter 25 000 mots, permettant la création de contenu et des conversations prolongées, ainsi que la recherche et l’analyse documentaire.

« Nous avons passé 6 mois à aligner de façon itérative GPT-4 en utilisant les enseignements de notre programme de tests adversariaux ainsi que ChatGPT, ce qui a permis d’obtenir nos meilleurs résultats à ce jour (bien que loin d’être parfaits) en matière de véracité, de capacité d’adaptation et de refus de sortir du cadre prescrit », indiquait une publication sur le blogue d’OpenAI qui a aussi tweeté mardi.

Et il existe d’autres transformers, dont le BERT (Bidirectional Encoder Representations from Transformers) de Google et le T5 (Text-to-Text Transfer Transformer).

Mieux connus aujourd’hui sous le nom de modèles de fondation, ces transformers, avec l’IA générative, sont des sujets tendance depuis un certain temps et de nombreuses organisations travaillent sur leurs capacités. Dans cette course, ChatGPT a été une révolution ou un catalyseur.

La naissance d’un transformer

Ce qui a commencé dans le but de permettre la traduction automatique par un groupe de chercheurs chez Google et à l’Université de Toronto s’est finalement concrétisé par le développement d’un transformer — un nouveau type d’architecture de réseau neuronal — en 2017. Cela a révolutionné de nombreux domaines dans le monde de l’apprentissage machine (AM).

Grâce à la capacité d’entraîner des modèles très volumineux, ces transformers peuvent traiter d’énormes quantités de données distribuées et parallélisées, et non séquentielles comme dans les réseaux neuronaux récurrents (RNN) du passé.

Pourquoi ces transformers sont spéciaux

L’encodage positionnel, l’attention et l’auto-attention sont les trois concepts qui permettent à ces transformers de surpasser les RNN.

Construits de façon distribuée sur plusieurs processeurs, l’encodage positionnel exploite d’abord la massification du parallélisme, éliminant le besoin de traiter un mot d’une phrase à la fois.

L’attention est la deuxième étape de la traduction automatique où les modèles comptent. L’emplacement des mots dans les phrases d’entrée et de sortie, en formant un contenu qui reflète ou imite ensuite ces formes pour effectuer la traduction automatique de nouvelles phrases. En résumé, il s’agit de l’appariement position mot-phrase.

Dans le mécanisme final de l’auto-attention, des éléments comme les bords d’objet, les formes, les règles grammaticales, les parties du discours, les homonymes, les synonymes et antonymes issus de données non étiquetées, sont identifiés et utilisés dans le modèle pour mieux entraîner le réseau neuronal pour les traitements futurs. Ce concept est utilisé dans les problèmes de vision artificielle, les réseaux neuronaux convolutifs (CNN) et le traitement automatique du langage naturel (TALN).

Récemment, de nombreuses organisations ont créé de grands modèles de langage (LLM) qui permettent à ces transformers d’effectuer des tâches remarquables d’AM liées au TALN, basées sur ces concepts.

Comment fonctionnent ces transformers

Conçus pour remplacer les modèles spécifiques à une tâche, ces transformers sont le plus souvent des LLM qui subissent un pré-entraînement massif avec un affinement supplémentaire. Ils comportent un type d’architecture de réseau neuronal profond à partir des mots environnants et présentent une représentation numérique du texte, mettant l’accent sur les séquences de mots. Critiquement importants et applicables à une grande variété de cas d’usage en aval, ces transformers évoluent rapidement.

« Avec cette vague de transformers, ce qui a changé, c’est la reconnaissance du besoin d’une boucle de rétroaction qui peut les améliorer. Cette boucle existe à la fois de façon formelle et informelle : officiellement via des bêta-testeurs et des clients sélectionnés, informellement via les réseaux sociaux, qui mettent en lumière les cas où les transformers donnent des réponses “fausses” ou héritent de biais, en raison des données d’entraînement », ajoute Hermsen.

Alimenter des expériences réimaginées pour E.ON

Regarder la vidéo

L’intelligence neuronale et le réseau de neurones artificiels

Inspirée des réseaux de neurones biologiques qui constituent le cerveau animal, l’intelligence neuronale utilise des neurones qui effectuent uniquement des calculs simples.

Alors que l’IA crée des algorithmes capables d’effectuer certaines tâches en utilisant un mélange de probabilité, de statistiques, de mathématiques et de réseaux neuronaux, un réseau de neurones artificiels (RNA) — habituellement appelé « réseau neuronal » — est un système informatique basé sur un ensemble de nœuds connectés ou de neurones artificiels, qui modélisent sommairement les neurones du cerveau humain.

Sous-ensemble de l’AM et conçu pour imiter la puissance de traitement du cerveau humain, les RNA forment une architecture composée d’une couche d’entrée, de sortie et de couches cachées qui fonctionnent en faisant passer des données à travers les couches d’un neurone artificiel.

Les principaux composants d’une telle architecture sont : entrée, poids, fonction de transfert, fonction d’activation et biais.

« Il existe également un besoin de versions localisées des transformers. On dit souvent que les États-Unis et le Royaume-Uni sont deux pays séparés par une langue commune, mais ajoutons, par exemple, l’anglais australien et le besoin de versions localisées devient clair », déclare Hermsen.

Une nouvelle génération de transformers est en train d’émerger

« Nommé d’après le chef des Decepticons, Megatron-Turing Natural Language Generation (MT-NLG) est un modèle de langage basé sur les transformers comportant 530 milliards de paramètres, ce qui en fait le plus grand et le plus puissant de son genre, et il démontre une précision inégalée dans des tâches de langage naturel telles que la prédiction de complétion, le raisonnement de sens commun, la compréhension en lecture, l’inférence en langage naturel et la désambiguïsation du sens des mots », ajoute Hermsen.

Les réseaux neuronaux sont au cœur de l’apprentissage profond, qui évolue rapidement. Le marché mondial des réseaux neuronaux — évalué à 14,35 milliards $ en 2020 — devrait atteindre 152,61 milliards $ d’ici 2030, enregistrant un TCAC de croissance de 26,7 %.

Le facteur peur

Les RNA et ChatGPT ensemble ont le potentiel de révolutionner de nombreuses industries. Cependant, alors que la création de nouveaux emplois et d’opportunités est prédite par certains experts, d’autres craignent que l’automatisation ne provoque des pertes massives d’emplois existants et une réduction de la main-d’œuvre dans les secteurs des services à la clientèle, du transport et du développement de logiciels.

Afin de promouvoir l’équité et la justice pour leurs employés, les organisations doivent investir dans des programmes de reconversion et de perfectionnement pour aider les travailleurs à se reconvertir dans de nouveaux rôles. Forbes, dans un récent article, indiquait que les organisations peuvent aussi opter pour des horaires flexibles ou envisager la mise en place d’une semaine de travail de quatre jours pour atténuer l’impact des pertes d’emplois, veiller à ce que les algorithmes soient transparents, responsables et audités, en termes d’implications éthiques de l’adoption de ces technologies, et s’assurer que les données sont utilisées de façon éthique et avec le consentement adéquat.

Types d’architectures de réseaux neuronaux et leur application dans l’industrie

Pour résoudre des problèmes d’AM, les réseaux neuronaux offrent précision et exactitude dans les prédictions afin d’augmenter l’efficacité dans divers secteurs, dont la bourse, le transport, la météo, la sécurité, les médias sociaux, l’agriculture, l’aérospatiale, la défense, la santé, la banque et la finance.

Réseau neuronal transformer : Il n’a pas de notion de séquence temporelle et traite plusieurs entrées simultanément, permettant de traiter des données complexes et variées de façon plus efficace.

Cela a donné de bons résultats pour surveiller les cultures et les mauvaises herbes dans le secteur agricole grâce aux drones et aux modèles transformer visuels (ViT).

Réseau neuronal standard : Il consiste en un perceptron qui applique une valeur d’entrée et fournit une variable de sortie. Ensuite, il y a le réseau à propagation directe, un réseau neuronal multicouche où l’information circule vers l’avant. Le troisième est un réseau résiduel ou un réseau à propagation directe profond avec plusieurs couches.

Il fournit des solutions très précises et solides telles que la détection de fraude, l’analyse de déchéance et de désabonnement, l’analyse des risques et l’exploration de données dans les secteurs de la finance, de l’alimentation, de l’énergie, de la médecine et des soins de santé, des sciences et du génie, du transport et des communications, ainsi que dans les secteurs du marketing et de l’immobilier.

Réseau neuronal récurrent (RNN) : En se souvenant des dernières prévisions apprises, il prédit l’avenir avec précision. Il se compose d’un réseau mémoire à long terme et à court terme qui ajoute des portes à un RNN pour mieux mémoriser et relie de façon clairsemée les couches cachées du RNN dans un réseau à état d’écho.

La province de Sakarya, en Turquie, compte de nombreuses usines et est fortement industrialisée, ce qui détériore considérablement la qualité de l’air. L’analyse statistique ou des données du SO2 et du PM10 obtenues par un RNN, comparée aux niveaux mesurés normalement, a permis d’obtenir plus de précision et a mis en évidence une grande différence dans les relevés.
Pour améliorer les prévisions du prix d’action dans le secteur aérospatial, un modèle hybride de prédiction basé sur l’Analyse en composantes principales (ACP) et le RNN a démontré que l’ACP pouvait améliorer à la fois la précision et l’efficacité de la prévision.

Réseau neuronal convolutionnel (CNN) : Un type de réseau à propagation avant utilisé pour l’analyse d’images et le traitement du langage, les CNN détectent des motifs à l’aide de caractéristiques comme les bords, les formes et les textures.

Une application basée sur un CNN profond génère des caractéristiques puissantes et démontre d’excellents résultats de détection de défauts avec de faibles taux de fausse alarme dans le secteur manufacturier.

Réseaux antagonistes génératifs (GAN) : Principalement utilisés pour entraîner l’IA générative, il s’agit d’un type d’apprentissage non supervisé où des données synthétiques sont générées par un générateur à partir de modèles de données d’entrée, puis un discriminateur décide si la sortie est fausse ou authentique.

Ils ont été utilisés dans l’industrie de la mode, où la volonté de payer pour des produits générés par GAN était beaucoup plus élevée que pour des produits non issus de GAN. Ceci a été démontré dans une étude sur l’évaluation par les consommateurs de la valeur d’usage, des intentions d’achat et de la volonté de payer pour des produits de mode conçus par GAN.
Les GAN se sont également révélés utiles pour la génération d’objets 3D, la médecine, les pandémies, le traitement d’images, la détection des visages, le transfert de textures et la gestion de la circulation.

La percée

Des chercheurs du Jawaharlal Nehru Centre for Advanced Scientific Research (JNCASR) ont récemment développé l’informatique neuromorphique à l’aide d’un matériau semi-conducteur appelé nitrure de scandium, qui possède une excellente stabilité et une compatibilité CMOS (complementary metal-oxide-semiconductor).

Grâce à l’AM, le développement de cette synapse artificielle — la connexion entre deux neurones servant à la fois de processeur et d’unité de stockage de mémoire — marque une révolution dans le domaine de l’IA.

L’informatique neuromorphique fonctionne avec l’aide des RNA. Basés sur des réseaux neuronaux impulsionnels (SNN), qui font le lien entre l’AM et les neurosciences grâce à des neurones qui effectuent le calcul, les signaux sont transmis ici par ces neurones dans différentes couches.

Grâce à des décharges ou signaux électriques, les entrées sont alors converties en sorties, comme la reconnaissance visuelle et l’interprétation des données.

Les domaines d’application du calcul et de l’ingénierie neuromorphiques sont principalement la robotique, les voitures autonomes, l’olfaction et la chimiosensation, les capteurs d’événements visuels, l’audition neuromorphique, les systèmes biohybrides pour la réparation cérébrale, les dispositifs intégrés pour séries chronologiques neuromorphiques et les systèmes autonomes collaboratifs.

Tags:

Services financiers