Mais que se passe-t-il avec DeepSeek ? ( Dr Giovanni Briganti )

DeepSeek, une entreprise chinoise spécialisée en intelligence artificielle, défie les géants du secteur avec son nouveau modèle R1, gratuit et open source. Conçu pour optimiser les ressources tout en garantissant des performances de pointe, ce modèle suscite autant d’enthousiasme que de controverses, notamment sur ses méthodes de développement et son impact économique.

DeepSeek, un acteur relativement nouveau venu de Chine, fait la une des journaux grâce à son nouveau modèle d’IA, R1, gratuit et open source. Derrière l’entreprise se trouve Liang Wenfeng, un expert en vision artificielle qui a également fondé le fonds spéculatif quantitatif High-Flyer. Son équipe est composée de jeunes chercheurs dynamiques issus de prestigieuses universités chinoises, comme celles de Pékin et Tsinghua. Parmi les membres clés figurent le linguiste informatique Luo Fuli de l'université de Pékin, Shao Zhihong, un expert en PNL de Microsoft Research, ainsi que plusieurs jeunes scientifiques.

C’est quoi DeepSeek R1 ?

DeepSeek R1 est la dernière version d’une suite de modèles de plus en plus performants développés par la société. Voici les précédentes étapes marquantes :

  • DeepSeek Coder : lancé en novembre 2023, il marquait leur première incursion dans l'IA open source, spécifiquement pour les tâches de codage.

  • DeepSeek LLM : un modèle de 67 milliards de paramètres.

  • DeepSeek-V2 : sorti en mai 2024, il a déclenché une guerre des prix dans le secteur de l'IA en Chine grâce à sa remarquable rentabilité.

  • DeepSeek-V3 : doté de 671 milliards de paramètres et formé pour un budget de seulement 5,58 millions de dollars selon les développeurs. Il aurait surpassé des modèles phares comme Llama 3.1 de Meta et GPT-4o d'OpenAI, tout en nécessitant beaucoup moins de puissance de calcul.

  • DeepSeek-R1 : dévoilé en janvier 2025, il surpasserait les performances du modèle GPT-4o d'OpenAI, là encore à une fraction du coût. Il utilise la technique du « Mixture of Experts » (MoE), qui répartit les tâches sur plusieurs réseaux spécialisés, ou « experts », permettant une activation sélective et optimisée des ressources.

Avec ses 671 milliards de paramètres, seuls 37 milliards sont sollicités pour chaque calcul, garantissant une utilisation parcimonieuse mais hautement performante. Ce modèle repose sur un apprentissage par renforcement intégral, utilisant une méthodologie appelée Group Relative Policy Optimization (GRPO), qui remplace le modèle critique classique par des statistiques de groupe, permettant une auto-évaluation par comparaison entre actions similaires. Cette approche réduit la dépendance aux données étiquetées par des humains.

R1 gère sa mémoire via un système baptisé DeepSeekMLA (Multi-head Latent Attention), basé sur l’architecture des transformateurs et optimisant le processus d’attention. La combinaison d’une attention multi-tête et d’une compression latente garantit une gestion efficace des ressources mémorielles tout en préservant la qualité des calculs.

De plus, le concept DeepSeekMoE améliore le routage des données et l’équilibrage des charges entre les réseaux experts. Ces optimisations ont été pensées pour fonctionner avec des GPU H800, dont la bande passante mémoire est plus limitée que celle des H100, généralement considérés comme la norme pour la recherche en IA. Cela pourrait suggérer que les contraintes matérielles sont moins pénalisantes que prévu.

Les controverses

L’arrivée de DeepSeek R1 s’inscrit dans un contexte géopolitique complexe. Son développement démontre que la Chine, malgré les restrictions américaines sur les semi-conducteurs, conserve un potentiel notable en matière d’IA. L’utilisation de GPU H800, soumis à des restrictions moins sévères, pourrait indiquer que ces limitations ont un impact moindre que prévu.

Cependant, certains soupçonnent que DeepSeek ait utilisé des techniques de distillation de modèles provenant de systèmes concurrents, tels que GPT-4 ou Claude. Cette méthode, qui consiste à entraîner un modèle plus simple en reproduisant les résultats d’un modèle plus complexe, soulève des interrogations éthiques et juridiques sur la propriété intellectuelle.

Par ailleurs, le coût déclaré de 5,58 millions de dollars pour l’entraînement final semble étonnamment bas, ce qui suscite des doutes quant à la transparence sur les coûts réels de développement.

L’impact économique

DeepSeek R1 a eu un impact économique majeur. Après sa sortie, la valeur boursière de Nvidia a chuté de près de 600 milliards de dollars, reflétant les inquiétudes concernant les coûts de développement de l’IA. Le prix de l’API de DeepSeek R1, fixé à 0,55 $ par million de jetons d'entrée et 2,19 $ par million de jetons de sortie, contraste fortement avec celui des concurrents comme OpenAI, où des services similaires coûtent respectivement 15 $ et 60 $. Cette différence pourrait permettre aux entreprises d'économiser des millions de dollars.

DeepSeek a déjà attiré plus de 10 millions d’utilisateurs vers son application AI Assistant, qui s’est hissée au sommet de l’App Store américain d’Apple.

Les perspectives

Les interrogations sur les méthodes de développement et les coûts réels demeurent. Toutefois, DeepSeek R1 pourrait bien être le précurseur d’une nouvelle ère où l’efficacité et l’ouverture deviendraient les nouveaux standards de l’innovation en IA.

La grande question reste : quel sera l’impact à court et moyen terme de ce nouveau modèle sur le développement de l’IA générative ? Les entreprises du secteur de la santé pourront-elles en tirer parti, et comment surmonter les doutes qui entourent ce modèle ?

Affaire à suivre.

Vous souhaitez commenter cet article ?

L'accès à la totalité des fonctionnalités est réservé aux professionnels de la santé.

Si vous êtes un professionnel de la santé vous devez vous connecter ou vous inscrire gratuitement sur notre site pour accéder à la totalité de notre contenu.
Si vous êtes journaliste ou si vous souhaitez nous informer écrivez-nous à redaction@rmnet.be.