ChatGPT et Claude vont-ils éliminer toute concurrence au travail ?

a16z associé Joe Schmidt IV a souligné que les laboratoires de grands modèles ne se concentrent que sur des tâches transversales, que les véritables opportunités d'application de l'IA se cachent dans des scénarios verticaux et des flux de travail complexes.
(Précédent : Altman retire sa prophétie « l'IA détruira l'humanité » : je suis heureux de m'être trompé, est-ce sincère ?)
(Contexte supplémentaire : Google investit dans la plateforme de routage IA OpenRouter, évaluée à 1,3 milliard de dollars, avec une croissance annuelle de 240 %)

Table des matières de cet article

Toggle

  • La route en briques jaunes
  • Autres régions du Pays d'Oz
  • Pourquoi d'autres régions du Pays d'Oz ne seront pas occupées par le sorcier
  • Cas dans le domaine de la vente — conseils pratiques du PDG d'11x
    • Se concentrer sur les résultats
    • Se concentrer sur les problèmes complexes
    • Les garde-fous ne servent pas seulement à prévenir les catastrophes, c'est la raison pour laquelle les clients paient
  • Cas dans le domaine de l'assurance — conseils pratiques du PDG de FurtherAI
  • Comment savoir si vous êtes dans une autre région du Pays d'Oz
  • Les deux peuvent (et vont) gagner

Les entrepreneurs et les employés potentiels me posent toujours la même question : Y a-t-il encore de l'espace pour construire des applications d'IA ? Ou OpenAI et Anthropic vont-ils tout éliminer ?

Cette question cache une forme particulière d'« anxiété IA ». Certains ont déjà conclu que pour éviter de rester en permanence au bas de l'échelle, la seule place durable est soit à l'intérieur de grands laboratoires, soit dans des domaines de pointe comme la robotique ou la technologie dure — en théorie, tout ce qui ne peut pas être « touché » par un laboratoire.

Si chaque logiciel va bientôt être avalé, que ce soit remplacé directement par Codex ou Claude, ou que les futurs modèles rendent tout ce que vous construisez inutile, alors fuyez vite !

Écoutez, je suis presque comme tout le monde un fervent de l'IA, mais je pense qu'ils n'ont raison qu'à moitié. Les laboratoires rongent effectivement une grande partie du territoire applicatif. Mais « la couche d'application » n'est pas une opportunité unique et homogène. La bonne façon de penser est : êtes-vous sur la « route en briques jaunes » (Yellow Brick Road), ou dans d'autres parties du Pays d'Oz (Oz) ?

La route en briques jaunes est notre nom pour le chemin emprunté par les laboratoires, qui y investissent des ressources énormes. La raison pour laquelle ils sont bien placés pour résoudre des problèmes comme la génération de code, l'écriture ou la création d'images, c'est que ces problèmes s'améliorent avec l'« aptitude brute » des modèles : chaque dollar investi dans le pré-entraînement et le post-entraînement améliore directement la qualité du produit.

Parallèlement, les autres régions du Pays d'Oz regorgent de problèmes plus complexes, souvent dans des domaines verticaux. Ces problèmes ne se résument pas à fournir aux entreprises un « outil universel » avec des outils standards et un accès informatique.

Leur valeur ne vient pas tant de la capacité brute du modèle (même si c'est important !), mais plutôt de la structure de support (scaffolding) qui l'entoure, cette architecture qui rend les sorties fiables, conformes et exploitables dans des secteurs spécifiques.

Nous voyons cette situation se jouer en temps réel : OpenAI et Anthropic communiquent en réalité un message au marché : ils ne peuvent pas résoudre tous les problèmes avec un seul assistant IA universel. Ils ont annoncé des plans de déploiement massif en coentreprise, autour de la configuration et de la personnalisation de modèles pour les entreprises. Si vous pensez qu'une nouvelle version du modèle suffira à tout régler, vous n'investirez pas des milliards de dollars dans ces projets.

Donc, si vous souhaitez faire fortune en développant des applications IA — évitez la route en briques jaunes, et explorez d'autres régions du Pays d'Oz. Voici ce que nous, ainsi que certains entrepreneurs de notre portefeuille, avons appris sur ce qui fonctionne réellement.

La route en briques jaunes

Si vous entreprenez, la route en briques jaunes est la voie la plus évidente, mais aussi la plus risquée. Prenez un modèle performant, ajoutez-y quelques connecteurs prêts à l'emploi (comme Google Drive, Slack, Salesforce, Notion, GitHub), puis déployez une couche d'orchestration d'agents (agents intelligents). C'est de la magie !

Le problème ici, c'est que c'est exactement ce que font les laboratoires avec Cowork et Codex. Évidemment, ils possèdent le modèle lui-même, ce qui leur donne une meilleure marge, un contrôle accru, et la capacité d'imposer des prix à tous les acteurs en aval.

Mais surtout, ils contrôlent aussi la « structure de décision » qui détermine quels problèmes leur modèle peut résoudre parfaitement. Jusqu'à présent, ils ont réfléchi en profondeur à la façon d'utiliser « les appels d'outils (tool calls) » avec le modèle, ce qui correspond à ce que la route en briques jaunes exige pour des tâches horizontales, à faible étape. Même si une startup parvient à dépasser Codex ou Claude Code, le laboratoire dispose d’un vaste réseau de distribution et de la marque la plus forte dans le domaine de l’IA.

Si vous êtes une startup d’applications IA, copier ce modèle, utiliser les mêmes connecteurs, sans sous-agents ni configurations avancées, ni réseau de distribution, vous conduira probablement dans une impasse.

Autres régions du Pays d'Oz

Pour les startups, ce n’est pas une fin en soi. En dehors de la route en briques jaunes, il existe d’énormes opportunités, avec une voie claire pour posséder ses clients et résoudre des problèmes complexes.

Ces entreprises construisent des expériences d’agents, intégrant modèles dans un réseau complexe d’outils, d’automatisations et d’intégrations (autrement dit : logiciels). La majorité de ces startups opèrent dans des domaines verticaux.

Elles peuvent se concentrer sur des workflows multi-étapes et multi-rôles, en créant des sous-agents (sub-agents) pour des tâches spécifiques à certains rôles ou secteurs, ce que ni Anthropic ni OpenAI ne peuvent faire avec leur plateforme universelle : collecter le contexte à travers plusieurs systèmes, puis le router à plusieurs intervenants nécessitant validation à différentes étapes.

Cela implique souvent des systèmes hérités (legacy), qui exigent des résultats déterministes (pas d’ambiguïté), et sont souvent liés à des résultats commerciaux à forte valeur : conformité réglementaire, gestion des risques, opérations critiques.

Les laboratoires savent à quel point ces enjeux ont de la valeur : c’est pour cela qu’ils créent leurs propres départements d’externalisation, et qu’une industrie de l’apprentissage renforcé (RL) haut de gamme existe pour répondre à ces besoins.

Pourquoi d’autres régions du Pays d'Oz ne seront pas occupées par le sorcier

Certains rétorquent que, jusqu’à présent, parier contre les modèles et les laboratoires a été une stratégie peu rentable. Ils continueront probablement à s’améliorer, et finiront par dominer ces marchés de l’application.

Les laboratoires continueront à progresser, mais je pense que les entreprises dans d’autres régions du Pays d'Oz peuvent se protéger de plusieurs façons avec le temps :

Le volant de données et d’apprentissage : La majorité de ce que vous internalisez n’est pas dans les jeux de données d’entraînement — ce sont les normes non écrites, les standards non documentés, et l’intelligence collective présente dans l’esprit des praticiens. Tout cela ne se trouve pas sur des sites publics. Plus de puissance de calcul d’entraînement ne peut pas remplacer ces « flux de travail » où ces connaissances existent réellement.

Il y a deux volants de rétroaction imbriqués : l’un est le volant inter-clients (plus vous voyez de variantes d’un même problème, plus le modèle s’améliore par effet de levier) ; l’autre est le volant interne au client (les raisons derrière chaque décision, les exceptions non exprimées, les règles tacites de l’entreprise, qui ne se révèlent qu’à travers une interaction réelle avec le système).

Une entreprise qui a fait passer son agent 100 fois sur la révision de clauses juridiques, 1000 fois sur des cycles d’assurance, ou 10 000 fois sur des campagnes marketing SDR, a internalisé la forme essentielle du problème — quelque chose qu’un nouveau venu ne pourra pas reproduire lors du lancement d’un nouvel agent. Les jeux d’évaluation (Eval sets), l’étiquetage des sorties, la classification des cas limites peuvent former un volant de données spécifique à un secteur vertical, alimentant le fine-tuning.

La variabilité et la complexité de la gestion des modèles : Les laboratoires font déjà du routage — en utilisant différents modèles pour différentes requêtes, en intégrant des ensembles (ensembles) à la base. Mais ils ne peuvent pas faire de « routage inter-fournisseurs », ni évaluer la performance de modèles concurrents pour une sous-tâche spécifique, ni utiliser des modèles open source pour le fine-tuning dans des segments précis. Les entreprises dans d’autres régions du Pays d'Oz choisiront le modèle le plus adapté pour chaque sous-tâche dans tout le marché.

À chaque nouvelle sortie de modèle, elles devront aussi gérer des tâches ingrates — relancer les évaluations lors des mises à jour, recalibrer prompts pour des cas limites, déployer sans perturber la production. Les laboratoires ne font pas cela pour leurs clients ; ils vendent simplement le prochain modèle, en laissant le client faire la migration lui-même. Les entreprises dans d’autres régions du Pays d'Oz absorbent ces coûts de migration.

Optimisation des coûts : Utiliser le dernier modèle de pointe pour chaque requête est la voie la plus rapide vers la perte de profit. Les meilleures entreprises d’application IA routent entre différents modèles : utiliser le modèle de pointe pour les tâches difficiles, un modèle intermédiaire pour la majorité des tâches courantes, et des modèles plus petits ou fine-tunés pour des cas spécifiques.

Les laboratoires fixent leurs prix en fonction de la ligne de fond : X dollars pour une intelligence minimale disponible. Les entreprises dans d’autres régions du Pays d'Oz, elles, proposent le niveau d’intelligence spécifique nécessaire à chaque flux de travail, au coût le plus bas en dollars. Cela n’est possible que si vous savez précisément ce dont chaque sous-tâche a besoin.

Gouvernance (Governance) : Disposer d’un tableau de bord (control plane) pour que le client contrôle l’IA dans un secteur vertical a une valeur énorme — c’est là que se concentrent les droits, l’audit, ce que l’agent peut faire ou non, et ce que l’on peut enregistrer.

Parce qu’ils possèdent de bout en bout outils, workflows et données accessibles par l’agent, ils peuvent fournir des résultats déterministes. Ils sont aussi la partie qui absorbe la complexité réglementaire pour le client — règles juridiques, HIPAA en santé, SEC et FINRA en finance, réglementations locales d’assurance, etc. Le directeur informatique (CIO) veut un partenaire capable de déclarer dans le contrat : « ils gèrent la conformité pour l’agent fourni ».

Tout cela revient à une seule chose : la concentration. Cela peut être un secteur vertical (assurance, juridique, comptabilité), ou une fonction spécialisée (vente, support client, finance). Les laboratoires ne sont pas faits pour cela. Ils doivent être omniprésents, servir tout le monde, c’est pourquoi ils construisent leur propre route en briques jaunes. La même logique de compromis les empêche d’être partout et d’exceller dans un domaine précis : on ne peut pas faire les deux en même temps.

Cas dans le domaine de la vente — conseils pratiques du PDG d’11x

Comment penser concrètement cette problématique ? Voici quelques conseils pratiques du PDG d’11x, Prabhav Jain :

Se concentrer sur les résultats

La tactique pour bâtir une entreprise immunisée contre les laboratoires, c’est de partir directement des « résultats spécifiques » que les clients veulent vraiment. Pour nous, c’est aider les entreprises à construire plus de pipelines de vente.

Quelles activités doivent être pilotées par agent, et lesquelles pas ? Décomposez chaque workflow en tâches. Quand le flux comporte plusieurs étapes, des entrées confuses, des états difficiles à interpréter ou des contraintes du monde réel, un simple modèle amélioré ne suffit pas. C’est un travail d’ingénierie logicielle traditionnelle.

Par exemple, nos tâches incluent : le développement de prospects basé sur des signaux personnalisés, l’enrichissement de données, la recherche approfondie sur les comptes, la récupération du contexte CRM, la rédaction de messages pour des canaux spécifiques, l’agent de qualification des prospects, et le système de livraison des emails. Ce ne sont pas des tâches qu’on peut faire en une seule étape (one-shot), elles nécessitent une ingénierie solide. Environ la moitié de ces workflows dans la vraie vie ne sont pas agentifiés, et cette partie n’a aucun avantage pour les laboratoires.

Se concentrer sur les problèmes complexes

Ce sont les problèmes complexes qui détiennent la clé de la vraie valeur commerciale. Sinon, vous ne faites qu’un « habillage » superficiel (thin wrapper).

Voici un exemple dans le domaine du développement commercial (GTM), qui peut sembler insignifiant : si une entreprise est déjà cliente, vous ne devriez pas contacter un de ses contacts.

Mais la réalité est tout autre. Que faire si cette entreprise possède plusieurs filiales ? Si le CRM ne contient que le domaine de la société mère ? Si une ancienne correspondance dans le système a envoyé une proposition à un directeur commercial (CRO) d’un client existant ? Démêler ce chaos nécessite un agent dédié, spécifique à cette forme de problème, pas un copilote générique.

Les garde-fous ne servent pas seulement à prévenir les catastrophes, c’est la raison pour laquelle les clients paient

Les garde-fous sont gravement sous-estimés. La sécurité exigée par un client en services financiers réglementés est très différente de celle d’un SaaS pour PME. Ces garde-fous concernent la façon dont l’agent peut rédiger, qui il peut contacter, quels données il peut accéder, et comment chaque décision est enregistrée.

Face à cette diversité, un système unique est voué à l’échec. Les garde-fous doivent être construits en fonction du contexte d’usage, configurés pour chaque client, et soumis à une surveillance continue. C’est pour cela que nous avons des ingénieurs déployés en première ligne (FDE) et des stratèges en déploiement technique, qui adaptent chaque solution aux besoins spécifiques.

Cas dans le domaine de l’assurance — conseils pratiques du PDG de FurtherAI

La vente est un exemple. L’assurance en est un autre, illustrant la même idée sous un angle différent. Voici la vision du PDG de FurtherAI, Aman Gour :

« Quand nous déployons l’IA dans le vrai secteur de l’assurance, on entend souvent cette hypothèse : le modèle est l’intelligence, le workflow n’est qu’un cadre autour.

Plus on travaille avec des assureurs, plus on réalise que cette vision inverse la causalité. Dans l’assurance, une grande partie de l’intelligence réside dans le workflow lui-même.

Deux assureurs peuvent traiter une demande d’assurance de la même façon : soumission, examen, devis, souscription. Mais ce n’est que la partie simple. La différence réside dans tous les détails : quels risques doivent être signalés, quels signaux de perte sont cruciaux, comment trancher en cas de conflit entre deux règles d’appétit, quand une signature humaine est nécessaire, et comment enregistrer la décision finale. Ces logiques ne résident pas dans un moteur de règles propre, mais dispersées dans SOP, revues managériales, philosophies de souscription, et l’expérience opérationnelle accumulée.

C’est pour cela que nous construisons des workflows agentiques (agentic workflows). Un workflow doit être répétable, auditable, et maîtrisé en coût ; l’agent gère la variabilité et intervient en cas d’échec du chemin standard ; l’humain reste dans la boucle (human-in-the-loop) pour les décisions impliquant responsabilité.

Au fil du temps, le workflow ne sera plus une simple séquence de scripts, mais deviendra la mémoire opérationnelle (operating memory) de l’assureur. C’est une dimension que les laboratoires ont du mal à atteindre. Seule une exécution en production, des milliers de fois, permet d’en saisir la véritable nature. La première version du workflow n’est pas une barrière, c’est la boucle de rétroaction créée par l’usage en production qui devient un avantage durable. »

Comment savoir si vous êtes dans une autre région du Pays d'Oz ?

  • Test des outils et étapes (The tools-and-steps test) : Combien d’étapes cette tâche nécessite-t-elle ? Faut-il construire des outils très complexes pour la supporter ? Comparez : d’un côté, une recherche IA horizontale via Google Drive (outil unique, étape unique, tolérance aux erreurs élevée) ; de l’autre, une révision de clauses juridiques en plusieurs étapes, impliquant plusieurs outils, avec validation par un associé. Les deux semblent impliquer des agents, mais seul l’un d’eux nécessite un développement logiciel profond, sur plusieurs années.
  • Test du système (The system test) : Construisez-vous un « système » pour que le client exécute sa tâche, ou un « outil » intégré à ses systèmes existants ? Un système possède un workflow complet — collecte de données, gouvernance, enregistrement des résultats. Un outil ne fait qu’ajouter de l’intelligence à un workflow déjà en place. Un ACV élevé indique souvent un système, car il remplace une main-d’œuvre réelle. Demandez-vous : si un laboratoire lançait un produit concurrent, le client aurait-il encore besoin de votre outil ? Si oui, vous construisez un système.
  • Test de la couverture (The hedge fund / P&L test) : La performance d’un laboratoire est jugée par des benchmarks, celle des autres régions du Pays d'Oz par le P&L du client. Le client se fiche de la note du modèle sur un benchmark — ce qui compte, c’est si l’agent a permis de faire des transactions, ou si la révision de contrat est correcte. Les meilleurs agents doivent performer comme un hedge fund : en maximisant le « rendement excédentaire (Alpha) » mesuré par le P&L du client.

Deux peuvent (et vont) gagner

Nous verrons de grands gagnants à la fois sur la route en briques jaunes et en dehors. Les entreprises de modèles continueront à gagner, car elles possèdent le modèle lui-même, et leur canal de distribution de leurs outils universels.

Les entreprises dans d’autres régions du Pays d'Oz, si elles maîtrisent le système de travail (system of work) — c’est-à-dire la façon dont le travail est réellement effectué, et la capture des données qui en découle — pourront aussi réussir. À mesure que des workflows plus complexes dans des secteurs verticaux mûrissent, ils deviendront partie intégrante de l’expérience client essentielle. Les modèles bruts sont remplaçables, mais les systèmes de travail ne le sont pas.

La prochaine génération de logiciels d’entreprise naîtra en dehors de la route en briques jaunes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé