Titre original de la vidéo : Demis Hassabis : Agents, AGI & La prochaine grande avancée scientifique
Source originale de la vidéo : Y Combinator
Traduction originale : Deep潮 TechFlow
Le PDG de Google DeepMind, lauréat du prix Nobel de chimie Demis Hassabis, invité chez Y Combinator, évoque les avancées clés vers l’AGI, donne des conseils aux entrepreneurs pour rester en tête, et discute de l’endroit où pourrait apparaître la prochaine grande percée scientifique.
La règle la plus pratique pour les entrepreneurs en deep tech est que, si vous lancez aujourd’hui un projet deep tech sur dix ans, vous devez intégrer l’émergence de l’AGI dans votre planification. Il a aussi révélé qu’Isomorphic Labs (une société pharmaceutique d’IA issue de DeepMind) aura bientôt une annonce majeure.
· « Ces composants technologiques existants seront presque certainement intégrés dans l’architecture finale de l’AGI. »
· « L’apprentissage continu, le raisonnement à long terme, certains aspects de la mémoire ne sont pas encore résolus, l’AGI doit tout maîtriser. »
· « Si votre calendrier pour l’AGI est autour de 2030, comme le mien, et que vous lancez un projet deep tech aujourd’hui, vous devez prévoir que l’AGI apparaîtra en cours de route. »
· « La fenêtre de contexte correspond à peu près à la mémoire de travail. La mémoire de travail humaine ne comporte en moyenne que sept chiffres, alors que nous disposons d’une fenêtre de contexte de millions voire de dizaines de millions de tokens. Mais le problème, c’est que nous y mettons tout, y compris des informations non importantes ou erronées, ce qui est une approche assez brutale. »
· « Si l’on veut traiter un flux vidéo en temps réel et y stocker tous les tokens, un million de tokens ne suffirait qu’à environ 20 minutes. »
· « J’aime jouer aux échecs avec Gemini. Parfois, il se rend compte que c’est un mauvais coup, mais ne trouve pas mieux, alors il tourne en rond et finit par le jouer. Un système de raisonnement précis ne devrait pas faire ça. »
· « Il peut résoudre des problèmes de niveau médaille d’or à l’IMO, mais poser la même question autrement lui fait faire des erreurs de mathématiques élémentaires. Il semble manquer quelque chose dans l’introspection de sa propre réflexion. »
· « Pour atteindre l’AGI, il faut un système capable de résoudre activement des problèmes pour vous. L’agent est la voie, je pense que nous ne faisons que commencer. »
· « Je n’ai pas encore vu de jeu AAA en tête des ventes utilisant la codification vibe. Avec l’effort actuel, c’est probablement possible, mais cela ne s’est pas encore produit. Il manque quelque chose dans les outils ou les processus. »
· « Notre hypothèse est qu’un modèle Pro de pointe, publié tous les six mois à un an, peut voir ses capacités compressées dans un modèle très petit, capable de fonctionner sur des appareils en périphérie. Nous n’avons pas encore atteint la limite théorique de densité d’information. »
· « Parfois, je l’appelle le « test d’Einstein », c’est-à-dire : peut-on entraîner un système avec les connaissances de 1901, puis le faire déduire de manière autonome les résultats qu’Einstein a obtenus en 1905, y compris la relativité restreinte ? Si c’est possible, ces systèmes ne sont pas loin d’inventer de nouvelles choses. »
· « Résoudre un problème du Millennium Prize est déjà une grande réussite. Mais plus difficile encore, c’est de proposer une nouvelle série de problèmes du Millennium, que les meilleurs mathématiciens considèrent comme tout aussi profonds et méritant une vie de recherche. »
· « Poursuivre des problèmes difficiles ou simples revient au même, la seule différence étant la difficulté de la méthode. La vie est courte, autant concentrer ses efforts sur ce qui n’a été fait par personne d’autre. »
Gary Tan : Tu réfléchis à l’AGI depuis presque plus longtemps que tout le monde. Selon le paradigme actuel, combien de structures finales d’AGI penses-tu que nous possédons déjà ? Qu’est-ce qui manque fondamentalement ?
Demis Hassabis : La pré-formation à grande échelle, RLHF, la chaîne de pensée, je suis convaincu qu’ils feront partie de l’architecture finale de l’AGI. Ces techniques ont déjà prouvé beaucoup de choses. Je ne peux pas imaginer qu’en deux ans, on découvrira que c’est une impasse, ça ne me paraît pas crédible. Mais il manque encore une ou deux choses par-dessus tout : l’apprentissage continu, le raisonnement à long terme, certains aspects de la mémoire. Il reste des problèmes à résoudre.
L’AGI doit tout maîtriser. Peut-être que les technologies existantes, avec quelques innovations progressives, suffiront à atteindre ce niveau, mais il se peut aussi qu’il reste un ou deux points clés à franchir. Je ne pense pas qu’il y en ait plus d’un ou deux. Mon estimation est que la probabilité qu’il y ait encore des énigmes majeures est d’environ 50/50. Chez DeepMind, nous avançons sur ces deux axes.
Gary Tan : Je travaille avec beaucoup de systèmes d’agents, et ce qui me surprend le plus, c’est que la base revient toujours à la même configuration de poids. La notion d’apprentissage continu est donc très intéressante, car aujourd’hui, on fait souvent du bricolage, comme ces « cycles de rêves nocturnes » par exemple.
Demis Hassabis : Exactement, ces cycles de rêves sont fascinants. Nous avons déjà réfléchi à cette question dans l’intégration de la mémoire situationnelle. Mon doctorat portait sur la façon dont l’hippocampe intègre élégamment de nouvelles connaissances dans un système de connaissances existant. Le cerveau gère cela très bien.
Il réalise ce processus pendant le sommeil, notamment lors du sommeil paradoxal (REM sleep), en rejouant ses expériences importantes pour apprendre. Notre premier programme Atari, DQN (DeepMind, 2013, réseau Q profond, premier à atteindre le niveau humain sur Atari grâce à l’apprentissage par renforcement profond), maîtrisait les jeux Atari en utilisant notamment la technique de la mémoire d’expérience (experience replay).
Ce que nous avons appris de la neuroscience, c’est de rejouer en boucle les chemins qui ont réussi. C’était en 2013, c’était très ancien dans le domaine de l’IA, mais c’était crucial à l’époque.
Je suis d’accord avec toi, aujourd’hui, on fait effectivement du bricolage. On met tout dans la fenêtre de contexte. Ça ne paraît pas très élégant. Même si l’on construit une machine, pas un cerveau biologique, en théorie, on pourrait avoir une fenêtre de contexte de millions ou de dizaines de millions de tokens, et une mémoire parfaite, mais la recherche et la récupération restent coûteuses. En situation de décision immédiate, trouver l’information vraiment pertinente n’est pas simple, même si on peut tout stocker. Je pense qu’il y a encore beaucoup d’innovation à faire dans le domaine de la mémoire.
Gary Tan : Franchement, une fenêtre de contexte de un million de tokens, c’est déjà bien plus que ce à quoi je m’attendais, et ça permet beaucoup de choses.
Demis Hassabis : Oui, pour la plupart des cas d’usage, c’est suffisant. Mais réfléchissez : la fenêtre de contexte correspond à peu près à la mémoire de travail. La mémoire de travail humaine ne comporte en moyenne que sept chiffres, alors que nous disposons d’une fenêtre de contexte de millions voire de dizaines de millions de tokens. Le problème, c’est que nous y mettons tout, y compris des informations non importantes ou erronées, ce qui est une approche assez brutale. Et si vous traitez un flux vidéo en temps réel, en enregistrant tous les tokens, un million ne suffirait qu’à environ 20 minutes. Mais si vous voulez que le système comprenne votre vie sur un ou deux mois, ce n’est pas encore assez.
Gary Tan : DeepMind a toujours misé sur l’apprentissage par renforcement et la recherche. Dans quelle mesure cette philosophie est-elle intégrée dans la construction de Gemini ? L’apprentissage par renforcement est-il encore sous-estimé ?
Demis Hassabis : Peut-être, oui. L’intérêt pour cette approche a connu des hauts et des bas. Depuis la création de DeepMind, nous travaillons sur les systèmes d’agents. Tout le travail sur Atari et AlphaGo, c’est essentiellement de l’apprentissage par renforcement avec agent autonome, capable de fixer ses objectifs, de prendre des décisions, de planifier. Au début, on s’est concentrés sur les jeux, parce que leur complexité est contrôlable, puis on a progressé vers des jeux plus complexes, comme AlphaStar après AlphaGo, en touchant à presque tout ce qui se joue dans ce domaine.
La question suivante est : peut-on généraliser ces modèles en modèles du monde ou en modèles de langage, et pas seulement en modèles de jeux ? Nous travaillons là-dessus depuis plusieurs années. Aujourd’hui, la façon dont les modèles de pointe pensent et raisonnent en chaîne est en gros une régression de ce qu’AlphaGo a initié.
Je pense que beaucoup de nos travaux passés sont très liés à ce que nous faisons aujourd’hui. Nous réexaminons ces idées anciennes, en utilisant des échelles plus grandes, de manière plus générale, avec des techniques comme la recherche par Monte Carlo (Monte Carlo tree search) et d’autres méthodes d’apprentissage par renforcement. Les idées d’AlphaGo et d’AlphaZero sont très proches des modèles fondamentaux d’aujourd’hui, et je pense que beaucoup de progrès dans les années à venir viendront de là.
Gary Tan : Aujourd’hui, pour être plus intelligent, il faut des modèles plus grands, mais la distillation progresse aussi, et les petits modèles deviennent très rapides. Vos modèles Flash sont très puissants, ils atteignent environ 95 % des performances des modèles de pointe, pour un dixième du prix. C’est ça ?
Demis Hassabis : Je pense que c’est l’un de nos principaux atouts. Il faut d’abord construire le plus grand modèle pour atteindre la pointe, puis on peut rapidement distiller ses capacités dans des modèles de plus en plus petits. La distillation, c’est une technique que nous avons inventée, et que nous maîtrisons toujours. Nous avons une forte motivation commerciale pour ça. Nous sommes probablement la plus grande plateforme d’applications IA au monde.
Avec AI Overviews, AI Mode, et Gemini, chaque produit de Google, y compris Maps, YouTube, intègre Gemini ou des technologies associées. Cela concerne des milliards d’utilisateurs, et plusieurs produits comptant des dizaines de milliards d’utilisateurs. Ils doivent être extrêmement rapides, efficaces, peu coûteux, avec une latence minimale. Cela nous pousse à optimiser au maximum nos modèles Flash et Flash-Lite, pour qu’ils soient très performants, afin de servir au mieux nos utilisateurs.
Gary Tan : Je suis curieux de savoir jusqu’où ces petits modèles peuvent devenir intelligents. La distillation a-t-elle une limite ? Les modèles de 50 milliards ou 400 milliards de paramètres peuvent-ils être aussi intelligents que les plus grands modèles actuels ?
Demis Hassabis : Je ne pense pas que nous ayons encore atteint la limite théorique en termes d’information, du moins personne ne le sait encore. Peut-être qu’un jour, on rencontrera un plafond en densité d’information, mais pour l’instant, notre hypothèse est qu’un modèle Pro de pointe, publié, pourra en six mois à un an, être compressé dans un modèle très petit, capable de fonctionner sur des appareils en périphérie.
Vous pouvez voir cela avec notre modèle Gemma : notre Gemma 4, qui performe très bien à la même échelle. Tout cela repose sur des techniques de distillation et d’optimisation de l’efficacité des petits modèles. Je ne vois pas de limite théorique à ce stade, nous sommes encore très loin de cette limite.
Gary Tan : Il y a une tendance très étonnante : la quantité de travail que peuvent faire les ingénieurs aujourd’hui est environ 500 à 1000 fois supérieure à il y a six mois. Certains ici réalisent en deux ans ce qu’un ingénieur Google aurait mis une décennie à faire dans les années 2000. Steve Yegge en a parlé.
Demis Hassabis : Je trouve ça passionnant. Les petits modèles ont de nombreuses applications. Leur faible coût et leur rapidité apportent aussi des bénéfices. En codant ou en effectuant d’autres tâches, on peut itérer plus vite, surtout en collaboration avec ces systèmes. Même si le système n’est pas à la pointe, disons à 90-95 %, cela suffit largement, et la vitesse d’itération compense largement cette différence.
Un autre axe majeur est de faire tourner ces modèles en périphérie, pas seulement pour l’efficacité, mais aussi pour la confidentialité et la sécurité. Imaginez tous ces appareils traitant des données très personnelles, ou des robots domestiques. Vous voudriez que votre robot chez vous fasse tourner un modèle puissant localement, et n’envoie les tâches vers le cloud que dans des cas précis. Le traitement audio et vidéo en local, avec des données stockées localement, pourrait devenir la norme ultime.
Gary Tan : Revenir à la mémoire et au contexte. Aujourd’hui, les modèles sont sans état. Si on leur donne la capacité d’apprentissage continu, à quoi ressemblerait l’expérience utilisateur ? Comment les guider ?
Demis Hassabis : C’est une question très intéressante. Le manque d’apprentissage continu est une limite majeure pour les agents actuels. Ils sont efficaces pour des tâches partielles, mais ne peuvent pas s’adapter à leur environnement spécifique. C’est pourquoi ils ne peuvent pas encore « partir en mission et ne plus revenir » : ils doivent apprendre leur contexte précis. Pour une intelligence vraiment générale, ce problème doit être résolu.
Gary Tan : Où en est le raisonnement ? La chaîne de pensée des modèles est très forte, mais ils font encore des erreurs que de jeunes étudiants en mathématiques éviteraient. Quelles améliorations prévois-tu ? Quelles avancées en raisonnement attends-tu ?
Demis Hassabis : Il y a encore beaucoup de place pour l’innovation dans la paradigme de la pensée. Ce que nous faisons reste assez rudimentaire, assez brutal. On peut améliorer beaucoup de choses, comme surveiller la chaîne de pensée, intervenir en cours de réflexion. Je pense que, qu’il s’agisse de nos systèmes ou de ceux de nos concurrents, ils ont tendance à trop réfléchir, à s’enliser dans des boucles.
J’aime souvent observer Gemini jouer aux échecs. Tous les grands modèles de base sont plutôt faibles dans ce domaine, ce qui est intéressant.
Regarder leur trajectoire de réflexion est précieux, car le jeu d’échecs est un domaine bien compris. Je peux rapidement voir s’ils s’écartent du bon chemin ou si leur raisonnement est efficace. Ce que je vois, c’est qu’ils considèrent parfois un coup, réalisent que c’est une erreur, mais ne trouvent pas mieux, et finissent par le jouer. Un système de raisonnement précis ne devrait pas faire ça.
Ce décalage énorme existe encore, mais le réparer ne demanderait qu’un ou deux ajustements. C’est pour ça qu’on parle de « l’intelligence en dents de scie » (jagged intelligence) : capable de résoudre des problèmes de niveau médaille d’or à l’IMO, mais commettant des erreurs de math élémentaires si on lui pose la question autrement. Il semble qu’il manque encore quelque chose dans l’introspection de ses processus de pensée.
Gary Tan : L’agent est un sujet vaste. Certains disent que c’est du marketing. Moi, je pense que c’est juste le début. Quelles sont, selon toi, les véritables capacités des agents chez DeepMind, et quelle différence avec la communication extérieure ?
Demis Hassabis : Je suis d’accord, on ne fait que commencer. Pour atteindre l’AGI, il faut un système capable de résoudre activement des problèmes pour vous. C’est la voie, je pense que nous n’en sommes qu’au début.
On explore encore comment faire collaborer au mieux ces agents avec le travail humain. Nous avons beaucoup expérimenté dans nos projets personnels, et beaucoup de gens ici aussi. Comment intégrer l’agent dans le flux de travail, pour qu’il ne soit pas juste un gadget, mais qu’il fasse vraiment avancer les choses ? Nous en sommes encore au stade expérimental. Ce n’est que récemment, ces deux ou trois derniers mois, que nous avons commencé à identifier des scénarios vraiment précieux. La technologie est à un stade où ce n’est plus une simple démonstration, mais un vrai apport en termes de temps et d’efficacité.
Je vois souvent des gens lancer une trentaine d’agents, les faire tourner pendant des dizaines d’heures, mais je ne suis pas sûr que le résultat justifie l’investissement.
Nous n’avons pas encore vu de jeu AAA en tête des ventes utilisant la codification vibe. J’en ai déjà écrit, beaucoup ici ont aussi réalisé de petits démos intéressants. Je peux faire un prototype de « Theme Park » en une demi-heure, alors qu’à 17 ans, j’avais mis six mois pour le faire.
J’ai le sentiment qu’en consacrant tout un été, on pourrait créer quelque chose d’incroyable. Mais cela demande aussi du savoir-faire, de la créativité humaine, du goût. Il faut que ces qualités soient intégrées dans tout ce qu’on construit. En réalité, aucun enfant n’a encore créé un jeu à plus de dix millions d’exemplaires, mais avec les outils actuels, cela devrait être possible. Il manque peut-être quelque chose dans le processus ou dans les outils. Je pense qu’on verra ce genre de succès dans les 6 à 12 prochains mois.
Gary Tan : Dans quelle mesure cela sera-t-il totalement automatisé ? Je ne pense pas que ce sera dès le départ. La voie probable, c’est que d’abord, on atteigne une productivité 1000 fois supérieure, puis que certains utilisent ces outils pour créer des applications ou jeux à succès, et que l’automatisation des autres étapes suive ensuite.
Demis Hassabis : Exactement, c’est ce que tu devrais voir en premier.
Gary Tan : Il y a aussi une part de vérité : certains le font déjà, mais ils ne veulent pas dire combien l’agent leur a vraiment aidés.
Demis Hassabis : Peut-être. Mais je veux parler de créativité. Je prends souvent l’exemple d’AlphaGo, notamment le coup 37 de la deuxième partie. Pour moi, j’attendais ce moment depuis longtemps, et c’est ce qui m’a poussé à lancer des projets comme AlphaFold. Dès le lendemain de leur victoire à Séoul, on a commencé à travailler sur AlphaFold, il y a dix ans. Je suis allé en Corée pour célébrer le dixième anniversaire d’AlphaGo.
Mais sortir simplement le coup 37 ne suffit pas. C’est impressionnant, utile, mais est-ce que ce système peut inventer le jeu lui-même ? Si on lui donne une description de haut niveau, par exemple : « un jeu élégant, qu’on peut apprendre en cinq minutes, mais qu’on ne maîtrise pas en une vie, et qu’on peut finir en un après-midi » — et que le système retourne le nom « go » — c’est ça qui manque aujourd’hui. Pourquoi ?
Gary Tan : Peut-être que certains ici peuvent y parvenir.
Demis Hassabis : Si quelqu’un y parvient, la réponse ne sera pas que le système manque de quelque chose, mais que notre façon de l’utiliser est incorrecte. Peut-être que le système a déjà cette capacité, mais qu’il faut un créateur exceptionnel pour le guider, lui insuffler une âme, un projet. Et que cette personne doit être très proche de l’outil, presque fusionnée avec lui. Si vous passez votre temps à manipuler ces outils, avec une créativité profonde, vous pourriez créer des choses incroyables.
Gary Tan : Changeons de sujet pour parler open source. La sortie de Gemma permet à des modèles très puissants de fonctionner localement. Qu’en penses-tu ? L’IA deviendra-t-elle quelque chose que l’utilisateur contrôle lui-même, plutôt que de rester principalement dans le cloud ? Cela changera-t-il qui peut construire des produits avec ces modèles ?
Demis Hassabis : Nous sommes de fervents supporters de l’open source et de la science ouverte. AlphaFold, par exemple, a été entièrement rendu gratuit. Nos travaux scientifiques sont toujours publiés dans des revues de premier plan. Pour Gemma, nous voulons créer des modèles de classe mondiale à l’échelle. Actuellement, Gemma a été téléchargé environ 40 millions de fois en deux semaines, depuis sa sortie.
Je pense aussi qu’il est crucial d’avoir une infrastructure open source dans la tech occidentale. Les modèles open source chinois sont excellents, ils dominent actuellement, mais nous pensons que Gemma est très compétitif à cette échelle.
Pour nous, il y a aussi une question de ressources : personne n’a assez de puissance de calcul pour entraîner deux modèles de pointe à taille réelle. Notre décision est donc d’utiliser des modèles en périphérie pour Android, lunettes, robots, etc., en faisant en sorte qu’ils soient ouverts, car une fois déployés sur l’appareil, ils sont exposés. Il vaut mieux tout ouvrir. Nous avons adopté une stratégie d’ouverture unifiée à l’échelle nanométrique, ce qui a du sens stratégiquement.
Gary Tan : Avant la présentation, je t’ai montré un OS IA que j’ai construit, avec lequel je peux interagir vocalement avec Gemini. Je suis un peu nerveux de faire cette démo, mais ça a marché. Gemini a été conçu dès le départ comme un modèle multimodal. J’ai testé beaucoup de modèles, et l’interaction vocale avec capacité d’appel d’outils, avec une compréhension contextuelle, est aujourd’hui inégalée.
Demis Hassabis : Exact. Un avantage peu reconnu de la série Gemini, c’est que nous l’avons construite dès le départ en mode multimodal. Cela a rendu le démarrage plus difficile que pour un simple texte, mais nous croyons que cela portera ses fruits à long terme, et on commence déjà à en voir les bénéfices.
Par exemple, dans le domaine des modèles du monde, nous avons construit Genie (un modèle d’interaction générative développé par DeepMind) sur Gemini. Dans la robotique aussi, Gemini Robotics s’appuiera sur des modèles multimodaux, ce qui constituera une barrière à l’entrée pour la concurrence. Nous utilisons aussi de plus en plus Gemini chez Waymo (filiale de Google spécialisée dans la conduite autonome).
Imaginez un assistant numérique qui vous accompagne dans le monde réel, sur votre téléphone ou vos lunettes, capable de comprendre votre environnement physique. Notre système est très fort dans ce domaine. Nous continuerons à investir dans cette voie, car notre avance dans ces questions est considérable.
Gary Tan : Le coût du raisonnement diminue rapidement. Si le raisonnement devient presque gratuit, qu’est-ce qui devient possible ? Vos priorités d’optimisation changent-elles ?
Demis Hassabis : Je ne suis pas sûr que le raisonnement devienne vraiment gratuit, le paradoxe de Jevons (Jevons’ Paradox, où l’amélioration de l’efficacité augmente la consommation totale) est là. Je pense que tout le monde finira par utiliser toute la puissance de calcul disponible.
On peut imaginer des millions d’agents collaborant, ou une petite équipe d’agents réfléchissant simultanément dans plusieurs directions, puis intégrant leurs résultats. Nous expérimentons ces approches, toutes consommeront des ressources de raisonnement.
En termes d’énergie, si nous résolvons la fusion contrôlée, la supraconductivité à température ambiante, ou les batteries optimales, je pense que grâce à la science des matériaux, le coût de l’énergie pourrait devenir quasi nul. Mais la fabrication physique des puces reste un goulot d’étranglement, au moins pour plusieurs décennies. Donc, la capacité de raisonnement restera limitée, et il faudra continuer à optimiser l’utilisation.
Gary Tan : Heureusement, les petits modèles deviennent de plus en plus intelligents. Beaucoup de fondateurs dans la biotechnologie et la biologie sont ici. AlphaFold 3 a déjà dépassé la protéine, en s’étendant à une gamme plus large de molécules biologiques. À quel point sommes-nous proches de modéliser un système cellulaire complet ? Est-ce une toute autre catégorie de difficulté ?
Demis Hassabis : Isomorphic Labs progresse très bien. AlphaFold n’est qu’une étape dans le processus de découverte de médicaments. Nous travaillons aussi sur la recherche en biochimie, la conception de composés avec les propriétés correctes, et nous aurons bientôt des annonces importantes.
Notre objectif ultime est de créer une cellule virtuelle complète, un simulateur de cellule fonctionnelle, où l’on pourrait appliquer des perturbations, et dont la sortie serait proche des résultats expérimentaux, avec une utilité concrète. On pourrait sauter de nombreuses étapes de recherche, générer des données synthétiques pour entraîner d’autres modèles, et prédire le comportement réel des cellules.
Je pense qu’il reste environ dix ans avant d’avoir une cellule virtuelle complète. Nous commençons par le noyau cellulaire, qui est relativement autonome. La clé est de découper une partie complexe, suffisamment auto-contenue, pour pouvoir faire une approximation raisonnable de ses entrées et sorties, et se concentrer sur ce sous-système. Le noyau cellulaire est un bon candidat.
Un autre problème est le manque de données. J’ai discuté avec des scientifiques spécialisés en microscopie électronique et autres techniques d’imagerie. Si on pouvait faire de l’imagerie de cellules vivantes sans les tuer, ce serait révolutionnaire. Cela permettrait de transformer le problème en une question visuelle, que nous savons comment résoudre.
Mais, à ma connaissance, aucune technologie ne permet encore d’imager des cellules vivantes à l’échelle nanométrique sans les endommager. On peut obtenir des images statiques très détaillées, mais pas encore une visualisation dynamique en temps réel. C’est une étape essentielle.
Il y a deux voies : hardware et collecte de données d’un côté, et construction de simulateurs plus intelligents pour modéliser ces systèmes dynamiques de l’autre.
Gary Tan : Tu ne te limites pas à la biologie. En science des matériaux, en découverte de médicaments, en modélisation climatique, en mathématiques, si tu devais classer, quels domaines seront le plus transformés dans cinq ans ?
Demis Hassabis : Chaque domaine est passionnant, c’est pour ça que je suis dans l’IA depuis plus de 30 ans. Je crois que l’IA sera l’outil ultime pour faire progresser la science, la médecine, et notre compréhension de l’univers.
Notre mission, initialement, se décompose en deux étapes : d’abord, résoudre l’intelligence, c’est-à-dire construire une AGI ; puis, utiliser cette AGI pour résoudre tous les autres problèmes. Nous avons dû reformuler cette mission, car certains demandaient si on voulait vraiment tout résoudre.
Mais c’est bien notre intention. Aujourd’hui, tout le monde commence à comprendre ce que cela implique. Concrètement, je parle de résoudre ce que j’appelle les « problèmes racines » en science, ces domaines dont la percée débloque de nouvelles branches de découvertes. AlphaFold est un exemple de ce que nous voulons faire.
Plus de trois millions de chercheurs dans le monde utilisent déjà AlphaFold, presque tous les biologistes. Des dirigeants de sociétés pharmaceutiques m’ont dit que presque tous les nouveaux médicaments à venir utiliseront AlphaFold à un moment ou un autre dans leur processus. Nous en sommes fiers, c’est l’impact que nous espérons que l’IA aura. Mais ce n’est que le début.
Je ne vois pas de domaine scientifique ou technique où l’IA ne pourrait pas aider. Les domaines que tu mentionnes sont encore à l’état de « AlphaFold 1 » : des résultats prometteurs, mais pas encore la grande percée. Dans deux ans, on aura beaucoup d’avancées dans ces secteurs, de la science des matériaux aux mathématiques.
Gary Tan : On dirait une sorte de Prométhée, donnant à l’humanité une capacité totalement nouvelle.
Demis Hassabis : Exact. Mais, comme dans le mythe, il faut aussi faire attention à comment cette capacité sera utilisée, à qui l’utilisera, et aux risques de mauvais usage.
Gary Tan : Beaucoup ici essaient de créer des entreprises utilisant l’IA pour la science. Selon toi, quelle est la différence entre une startup de pointe et celles qui se contentent de mettre une API sur un modèle de base, en se revendiquant « IA pour la science » ?
Demis Hassabis : Si je devais me mettre à votre place, en regardant Y Combinator, je me demanderais comment anticiper la direction de l’IA. C’est difficile. Mais je pense qu’il y a une énorme opportunité à croiser l’IA avec d’autres domaines de deep tech, comme la science des matériaux ou la médecine, surtout dans des secteurs impliquant l’atome. Il n’y a pas de raccourci dans ces domaines dans un avenir proche. La prochaine mise à jour majeure des modèles de base ne changera pas tout. Si tu veux une voie défensive, c’est celle-là que je recommande.
Je suis toujours passionné par la deep tech. La vraie valeur durable ne vient pas facilement. Depuis 2010, quand nous avons commencé, l’IA était une deep tech — les investisseurs disaient « on sait que ça ne marchera pas », et la communauté académique la considérait comme une niche des années 90, vouée à l’échec.
Mais si tu crois en ton idée — pourquoi cette fois serait différente ? Quelles sont tes compétences ou ton background qui te donnent un avantage ? Idéalement, tu es expert en machine learning et en application, ou tu peux constituer une équipe fondatrice de ce profil. Il y a un potentiel énorme à créer de la valeur.
Gary Tan : C’est une information précieuse. Une fois qu’un projet est réussi, cela paraît évident, mais avant, tout le monde te disait que tu avais tort.
Demis Hassabis : Bien sûr. Il faut faire ce qui te passionne vraiment. Pour moi, c’est l’IA, quoi qu’il arrive. Depuis tout petit, j’ai décidé que c’était la chose la plus impactante que je pouvais faire. Et ça s’est vérifié, même si ce n’est pas garanti. Peut-être que nous avons commencé 50 ans trop tôt.
C’est aussi ce qui me passionne le plus. Même si aujourd’hui, on est encore dans un petit garage, et que l’IA n’est pas encore là, je continuerai à chercher des moyens d’avancer. Peut-être que je retournerai dans le monde académique, mais je continuerai d’une façon ou d’une autre.
Gary Tan : AlphaFold est un exemple où tu as suivi une intuition et tu as eu raison. Qu’est-ce qui rend un domaine scientifique propice à une percée comme AlphaFold ? Y a-t-il des règles, comme une fonction objectif particulière ?
Demis Hassabis : Je devrais vraiment écrire tout ça un jour. Ce que j’ai appris avec AlphaGo, AlphaFold, et tous les projets Alpha, c’est que nos techniques fonctionnent le mieux quand :
Premièrement, le problème possède un espace de recherche combinatoire énorme, plus il est grand, mieux c’est, car aucune recherche exhaustive ou algorithme spécifique ne peut le résoudre. La configuration du jeu de go ou la structure des protéines dépassent largement le nombre d’atomes dans l’univers. Deuxièmement, il faut pouvoir définir clairement une fonction objectif, comme l’énergie libre d’une protéine ou la victoire au jeu, pour que le système puisse faire de la descente de gradient. Troisièmement, il faut suffisamment de données, ou un simulateur capable de générer beaucoup de données synthétiques dans la distribution.
Si ces trois conditions sont réunies, nos méthodes actuelles peuvent aller très loin, en trouvant la « aiguille dans la botte de foin ». La découverte de médicaments suit la même logique : il faut trouver une molécule qui traite une maladie sans effets secondaires, en respectant les lois physiques. AlphaFold a montré qu’on pouvait explorer efficacement ces espaces massifs pour repérer ces « aiguilles ».
Gary Tan : Je vais monter d’un cran. On parle de l’humain qui utilise ces méthodes pour faire AlphaFold, mais il y a aussi une dimension méta : l’humain utilise l’IA pour explorer l’espace hypothétique. À quel point sommes-nous proches d’un système capable de faire de la vraie science, pas seulement de la reconnaissance de patterns ?
Demis Hassabis : Je pense que c’est très proche. Nous travaillons sur des systèmes généralistes. Nous avons un « AI co-scientist », et des algorithmes comme AlphaEvolve, qui vont plus loin que Gemini. Tous les grands laboratoires explorent cette voie.
Mais, jusqu’à présent, je n’ai pas vu une seule découverte scientifique majeure faite par ces systèmes. Je pense que ça arrive bientôt. Cela pourrait être lié à la créativité, à la rupture des frontières connues. À ce niveau, ce ne sera plus de la simple reconnaissance de patterns, mais de la capacité à faire des raisonnements analogiques. Ces systèmes ne l’ont pas encore, ou nous ne savons pas encore comment les utiliser efficacement.
Je dis souvent en science : peuvent-ils proposer une hypothèse vraiment intéressante, pas seulement vérifier une hypothèse existante ? Vérifier une hypothèse peut aussi être une avancée majeure, comme prouver la conjecture de Riemann ou résoudre un problème du Millennium. Mais peut-être que dans quelques années, on sera capables de faire ça.
Ce qui est encore plus difficile, c’est de proposer une nouvelle série de problèmes du Millennium, que les meilleurs mathématiciens considèrent comme tout aussi profonds et méritant une vie de recherche. Je pense que c’est un niveau supérieur, et qu’on ne sait pas encore comment y parvenir. Mais je ne crois pas que ce soit de la magie. Je suis convaincu que ces systèmes finiront par y arriver, peut-être avec un ou deux ajustements.
On peut tester ça avec ce que j’appelle le « test d’Einstein » : entraîner un système avec les connaissances de 1901, puis lui demander de déduire de façon autonome les résultats qu’Einstein a obtenus en 1905, y compris la relativité restreinte. Je pense qu’on doit vraiment faire ce test, le répéter, et voir quand ça devient possible. Une fois que ce sera le cas, ces systèmes seront proches de l’invention de choses totalement nouvelles.
Gary Tan : Dernière question. Beaucoup ici ont une forte expérience en deep tech et veulent faire des choses à la hauteur de ce que vous faites. Vous êtes l’un des plus grands organismes de recherche en IA. En ayant parcouru le front de la recherche sur l’AGI, y a-t-il une chose que vous savez maintenant, mais que vous auriez aimé connaître à 25 ans ?
Demis Hassabis : On a déjà abordé une partie. La difficulté, c’est que poursuivre des problèmes difficiles ou simples revient au même, la seule différence étant la méthode. La vie est courte, il faut concentrer ses efforts sur ce qui n’a été fait par personne d’autre.
De plus, je pense que dans les années à venir, la combinaison interdisciplinaire sera de plus en plus courante, et l’IA facilitera cette transversalité.
Enfin, cela dépend aussi de ton calendrier pour l’AGI. Pour moi, c’est autour de 2030. Si tu lances un projet deep tech aujourd’hui, cela représente une décennie. Il faut donc prévoir que l’AGI pourrait apparaître en cours de route. Qu’est-ce que ça implique ? Ce n’est pas forcément négatif, mais il faut y penser. Ton projet pourra-t-il tirer parti de l’AGI ? Comment cette dernière interagira-t-elle avec ton projet ?
Revenant à l’exemple d’AlphaFold et des systèmes d’IA