DeepSeek : Le disruptif qui révolutionne le paysage de l'IA

GROUPE AIPU WATON

Introduction

L’anxiété persistante parmi les grands modèles concurrents, les fournisseurs de cloud en compétition pour les parts de marché et les fabricants de puces qui travaillent dur : l’effet DeepSeek persiste.

Alors que le Festival du Printemps touche à sa fin, l'engouement autour de DeepSeek reste fort. Ces dernières vacances ont mis en lumière un fort sentiment de concurrence au sein du secteur technologique, et de nombreux débats et analyses ont été lancés sur ce sujet. La Silicon Valley traverse une crise sans précédent : les défenseurs de l'open source reprennent la parole, et même OpenAI réévalue si sa stratégie de code source fermé était la meilleure option. Le nouveau paradigme de la baisse des coûts de calcul a déclenché une réaction en chaîne chez les géants des puces comme Nvidia, entraînant des pertes de valeur boursière record en une seule journée dans l'histoire de la bourse américaine, tandis que les agences gouvernementales enquêtent sur la conformité des puces utilisées par DeepSeek. Malgré des avis mitigés à l'étranger, DeepSeek connaît une croissance extraordinaire aux États-Unis. Après le lancement du modèle R1, l'application associée a connu une forte augmentation du trafic, ce qui indique que la croissance des secteurs d'application propulsera l'écosystème global de l'IA. Point positif : DeepSeek élargira les possibilités d'application, ce qui suggère que le recours à ChatGPT sera moins coûteux à l'avenir. Cette évolution s'est reflétée dans les activités récentes d'OpenAI, notamment la mise à disposition d'un modèle de raisonnement appelé o3-mini aux utilisateurs gratuits en réponse à DeepSeek R1, ainsi que les mises à jour ultérieures qui ont rendu publique la chaîne de pensée d'o3-mini. De nombreux utilisateurs étrangers ont exprimé leur gratitude à DeepSeek pour ces développements, bien que cette chaîne de pensée n'en constitue qu'un résumé.

Avec optimisme, il est évident que DeepSeek fédère les acteurs nationaux. En mettant l'accent sur la réduction des coûts de formation, divers fabricants de puces en amont, des fournisseurs de cloud intermédiaires et de nombreuses startups rejoignent activement l'écosystème, améliorant ainsi la rentabilité de l'utilisation du modèle DeepSeek. Selon les articles de DeepSeek, l'entraînement complet du modèle V3 ne nécessite que 2,788 millions d'heures GPU H800, et le processus d'entraînement est très stable. L'architecture MoE (Mixture of Experts) est essentielle pour réduire les coûts de pré-entraînement d'un facteur dix par rapport à Llama 3 avec ses 405 milliards de paramètres. Actuellement, V3 est le premier modèle publiquement reconnu à démontrer une telle parcimonie en MoE. De plus, le MLA (Multi Layer Attention) fonctionne en synergie, notamment pour les aspects de raisonnement. « Plus le MoE est clairsemé, plus la taille du lot nécessaire au raisonnement pour exploiter pleinement la puissance de calcul est importante. La taille du KVCache est le principal facteur limitant ; le MLA réduit considérablement la taille du KVCache », a souligné un chercheur de Chuanjing Technology dans une analyse pour AI Technology Review. Globalement, le succès de DeepSeek repose sur la combinaison de plusieurs technologies, et non d'une seule. Les experts du secteur saluent les capacités d'ingénierie de l'équipe DeepSeek, soulignant son excellence en matière d'entraînement parallèle et d'optimisation des opérateurs, obtenant des résultats révolutionnaires en peaufinant chaque détail. L'approche open source de DeepSeek favorise le développement global de modèles de grande taille, et l'on prévoit que si des modèles similaires s'étendent aux images, aux vidéos, etc., cela stimulera considérablement la demande dans l'ensemble du secteur.

Opportunités pour les services de raisonnement tiers

Les données indiquent que depuis sa sortie, DeepSeek a cumulé 22,15 millions d'utilisateurs actifs quotidiens (DAU) en seulement 21 jours, représentant 41,6 % de la base d'utilisateurs de ChatGPT et dépassant les 16,95 millions d'utilisateurs actifs quotidiens de Doubao. Elle est ainsi devenue l'application connaissant la croissance la plus rapide au monde, devançant l'App Store d'Apple dans 157 pays/régions. Cependant, malgré l'afflux massif d'utilisateurs, les pirates informatiques ont attaqué sans relâche l'application DeepSeek, mettant ses serveurs à rude épreuve. Les analystes du secteur estiment que cela est en partie dû au fait que DeepSeek utilise des cartes pour l'entraînement, sans pour autant disposer de la puissance de calcul nécessaire au raisonnement. Un expert du secteur a déclaré à AI Technology Review : « Les fréquents problèmes de serveur peuvent être facilement résolus en facturant des frais ou en finançant l'achat de machines supplémentaires ; en fin de compte, cela dépend des décisions de DeepSeek. » Il s'agit d'un compromis entre technologie et productisation. DeepSeek s'est largement appuyé sur la quantification quantique pour son autonomie, n'ayant reçu que peu de financements externes, ce qui a entraîné une pression de trésorerie relativement faible et un environnement technologique plus pur. Face aux problèmes mentionnés ci-dessus, certains utilisateurs exhortent DeepSeek sur les réseaux sociaux à relever les seuils d'utilisation ou à introduire des fonctionnalités payantes pour améliorer le confort d'utilisation. De plus, les développeurs ont commencé à utiliser l'API officielle ou des API tierces pour l'optimisation. Cependant, la plateforme ouverte de DeepSeek a récemment annoncé : « Les ressources serveur actuelles sont limitées et les recharges de services API ont été suspendues. »

 

Cela ouvre sans aucun doute de nouvelles opportunités pour les fournisseurs tiers dans le secteur des infrastructures d'IA. Récemment, de nombreux géants du cloud nationaux et internationaux ont lancé les API de modèle de DeepSeek ; les géants étrangers Microsoft et Amazon ont été parmi les premiers à les rejoindre fin janvier. Le leader national, Huawei Cloud, a fait le premier pas en lançant les services de raisonnement DeepSeek R1 et V3 en collaboration avec Flow, basé sur Silicon, le 1er février. Des rapports d'AI Technology Review indiquent que les services de Flow, basé sur Silicon, ont connu un afflux d'utilisateurs, provoquant un véritable crash de la plateforme. Les trois grandes entreprises technologiques – BAT (Baidu, Alibaba, Tencent) et ByteDance – ont également lancé des offres à bas prix et à durée limitée à partir du 3 février, rappelant la guerre des prix entre fournisseurs de cloud l'année dernière, déclenchée par le lancement du modèle V2 de DeepSeek, qui avait commencé à surnommer DeepSeek le « massacreur de prix ». L'activité effrénée des fournisseurs de cloud fait écho aux liens étroits qui unissaient Microsoft Azure et OpenAI. En 2019, Microsoft avait investi un milliard de dollars dans OpenAI et en avait tiré profit après le lancement de ChatGPT en 2023. Cependant, cette étroite collaboration a commencé à s'effriter après que Meta a ouvert le code source de Llama, permettant à d'autres fournisseurs extérieurs à l'écosystème Microsoft Azure de concurrencer leurs modèles de grande envergure. Dans ce cas précis, DeepSeek a non seulement surpassé ChatGPT en termes de popularité de produits, mais a également introduit des modèles open source après la sortie de o1, à l'instar de l'engouement suscité par la renaissance de GPT-3 par Llama.

 

En réalité, les fournisseurs de cloud se positionnent également comme des passerelles de trafic pour les applications d'IA, ce qui signifie que le renforcement des liens avec les développeurs se traduit par des avantages préemptifs. Des rapports indiquent que Baidu Smart Cloud comptait plus de 15 000 clients utilisant le modèle DeepSeek via la plateforme Qianfan le jour du lancement du modèle. Par ailleurs, plusieurs petites entreprises proposent des solutions, notamment Silicon-based Flow, Luchen Technology, Chuanjing Technology et divers fournisseurs d'infrastructures d'IA qui ont lancé la prise en charge des modèles DeepSeek. AI Technology Review a constaté que les opportunités d'optimisation actuelles pour les déploiements localisés de DeepSeek se situent principalement dans deux domaines : l'optimisation des caractéristiques de parcimonie du modèle MoE à l'aide d'une approche de raisonnement mixte pour déployer localement le modèle MoE à 671 milliards de paramètres, tout en utilisant l'inférence hybride GPU/CPU. De plus, l'optimisation du MLA est essentielle. Cependant, les deux modèles de DeepSeek rencontrent encore des difficultés d'optimisation du déploiement. « En raison de la taille du modèle et de ses nombreux paramètres, l'optimisation est complexe, notamment pour les déploiements locaux où il sera difficile d'atteindre un équilibre optimal entre performances et coûts », a déclaré un chercheur de Chuanjing Technology. Le principal obstacle réside dans le dépassement des limites de capacité mémoire. « Nous adoptons une approche collaborative hétérogène pour exploiter pleinement les CPU et autres ressources de calcul, en plaçant uniquement les parties non partagées de la matrice MoE creuse sur le CPU/DRAM pour un traitement utilisant des opérateurs CPU hautes performances, tandis que les parties denses restent sur le GPU », a-t-il ajouté. Des rapports indiquent que le framework open source KTransformers de Chuanjing injecte principalement diverses stratégies et opérateurs dans l'implémentation originale de Transformers via un modèle, améliorant ainsi considérablement la vitesse d'inférence grâce à des méthodes comme CUDAGraph. DeepSeek a créé des opportunités pour ces startups, car les bénéfices de croissance deviennent évidents ; de nombreuses entreprises ont signalé une croissance notable de leur clientèle après le lancement de l'API DeepSeek, recevant des demandes d'anciens clients en quête d'optimisations. Des experts du secteur ont souligné : « Par le passé, les groupes de clients relativement établis étaient souvent dépendants des services standardisés des grandes entreprises, étroitement liés par leurs avantages en termes de coûts liés à leur taille. Cependant, après le déploiement de DeepSeek-R1/V3 avant le Festival du Printemps, nous avons soudainement reçu des demandes de coopération de plusieurs clients renommés, et même des clients auparavant inactifs nous ont contactés pour présenter nos services DeepSeek. » Il semble actuellement que DeepSeek rende la performance d'inférence des modèles de plus en plus critique, et l'adoption généralisée des grands modèles continuera d'influencer significativement le développement du secteur des infrastructures d'IA. Un modèle de niveau DeepSeek, déployé localement à faible coût, contribuerait grandement à la transformation numérique des gouvernements et des entreprises. Cependant, des difficultés persistent, car certains clients peuvent avoir des attentes élevées quant aux capacités des grands modèles, ce qui rend plus évident l'équilibre entre performances et coûts dans un déploiement pratique. 

Pour évaluer si DeepSeek est supérieur à ChatGPT, il est essentiel de comprendre leurs principales différences, leurs points forts et leurs cas d'utilisation. Voici une comparaison complète :

Fonctionnalité/Aspect DeepSeek ChatGPT
Possession Développé par une entreprise chinoise Développé par OpenAI
Modèle source Open source Propriétaire
Coût Utilisation gratuite ; options d'accès API moins chères Tarification par abonnement ou à l'utilisation
Personnalisation Hautement personnalisable, permettant aux utilisateurs de le modifier et de le développer Personnalisation limitée disponible
Performance dans des tâches spécifiques Excelle dans certains domaines comme l'analyse de données et la recherche d'informations Polyvalent avec de solides performances dans l'écriture créative et les tâches conversationnelles
Support linguistique Forte concentration sur la langue et la culture chinoises Prise en charge linguistique étendue mais centrée sur les États-Unis
Coût de la formation Des coûts de formation réduits, optimisés pour l'efficacité Des coûts de formation plus élevés, nécessitant des ressources informatiques importantes
Variation de réponse Peut offrir des réponses différentes, éventuellement influencées par le contexte géopolitique Des réponses cohérentes basées sur les données de formation
Public cible Destiné aux développeurs et aux chercheurs souhaitant de la flexibilité Destiné aux utilisateurs généraux à la recherche de capacités conversationnelles
Cas d'utilisation Plus efficace pour la génération de code et les tâches rapides Idéal pour générer du texte, répondre à des questions et engager un dialogue

Une perspective critique sur la « perturbation de Nvidia »

Actuellement, outre Huawei, plusieurs fabricants de puces nationaux comme Moore Threads, Muxi, Biran Technology et Tianxu Zhixin s'adaptent également aux deux modèles de DeepSeek. Un fabricant de puces a déclaré à AI Technology Review : « La structure de DeepSeek est innovante, tout en restant un LLM. Notre adaptation à DeepSeek est principalement axée sur les applications de raisonnement, ce qui simplifie et accélère la mise en œuvre technique. » Cependant, l'approche MoE exige des exigences plus élevées en termes de stockage et de distribution, ainsi que la garantie de compatibilité lors du déploiement avec les puces nationales, ce qui pose de nombreux défis techniques à résoudre lors de l'adaptation. « Actuellement, la puissance de calcul nationale n'égale pas celle de Nvidia en termes de convivialité et de stabilité, ce qui nécessite l'intervention de l'usine d'origine pour la configuration de l'environnement logiciel, le dépannage et l'optimisation des performances fondamentales », a déclaré un professionnel du secteur, s'appuyant sur son expérience pratique. Simultanément, « En raison de la grande échelle de paramètres de DeepSeek R1, la puissance de calcul domestique nécessite davantage de nœuds pour la parallélisation. De plus, les spécifications matérielles domestiques sont encore un peu en retard ; par exemple, le Huawei 910B ne peut actuellement pas prendre en charge l'inférence FP8 introduite par DeepSeek. » L'un des points forts du modèle DeepSeek V3 est l'introduction d'un cadre d'entraînement de précision mixte FP8, validé efficacement sur un modèle extrêmement grand, ce qui constitue une avancée significative. Des acteurs majeurs comme Microsoft et Nvidia avaient précédemment suggéré des travaux similaires, mais des doutes subsistent au sein de l'industrie quant à sa faisabilité. Il est entendu que, par rapport à INT8, le principal avantage de FP8 réside dans sa quantification post-entraînement permettant d'atteindre une précision quasi-nulle tout en améliorant considérablement la vitesse d'inférence. Comparé à FP16, FP8 peut atteindre une accélération jusqu'à deux fois supérieure sur le H20 de Nvidia et plus de 1,5 fois supérieure sur le H100. Il est à noter qu'à mesure que les discussions autour de la tendance à la puissance de calcul nationale et aux modèles nationaux prennent de l'ampleur, les spéculations sur la possibilité d'une disruption de Nvidia et sur la possibilité de contourner l'avantage concurrentiel de CUDA se multiplient. Il est indéniable que DeepSeek a effectivement provoqué une baisse substantielle de la valeur boursière de Nvidia, mais cette évolution soulève des questions quant à l'intégrité de sa puissance de calcul haut de gamme. Les discours jusqu'alors admis concernant l'accumulation de calculs par le capital sont remis en question, mais il reste difficile pour Nvidia d'être totalement remplacé dans les scénarios d'entraînement. L'analyse de l'utilisation intensive de CUDA par DeepSeek montre que la flexibilité, comme l'utilisation de SM pour la communication ou la manipulation directe de cartes réseau, n'est pas envisageable pour les GPU classiques. Les points de vue de l'industrie soulignent que l'avantage concurrentiel de Nvidia englobe l'ensemble de l'écosystème CUDA, et non seulement CUDA lui-même, et que les instructions PTX (Parallel Thread Execution) employées par DeepSeek font toujours partie de l'écosystème CUDA. « À court terme, la puissance de calcul de Nvidia est incontournable, notamment en matière d'entraînement. Cependant, le déploiement de cartes nationales pour le raisonnement sera relativement plus facile, ce qui devrait accélérer les progrès. L'adaptation des cartes nationales se concentre principalement sur l'inférence ; personne n'a encore réussi à entraîner un modèle des performances de DeepSeek sur des cartes nationales à grande échelle », a déclaré un analyste du secteur à AI Technology Review. Globalement, du point de vue de l'inférence, la situation est encourageante pour les puces grand modèle nationales. Les opportunités pour les fabricants de puces nationaux dans le domaine de l'inférence sont plus évidentes en raison des exigences excessivement élevées de l'entraînement, qui freinent leur entrée. Les analystes affirment que la simple exploitation de cartes d'inférence nationales suffit ; si nécessaire, l'acquisition d'une machine supplémentaire est envisageable, tandis que les modèles d'entraînement posent des défis spécifiques : la gestion d'un nombre accru de machines peut devenir contraignante et des taux d'erreur élevés peuvent impacter négativement les résultats de l'entraînement. L'entraînement a également des exigences spécifiques en termes d'échelle des clusters, tandis que les exigences des clusters pour l'inférence sont moins strictes, ce qui allège les exigences des GPU. Actuellement, les performances de la carte H20 de Nvidia ne surpassent pas celles de Huawei ou de Cambrian ; sa force réside dans le clustering. Compte tenu de l'impact global sur le marché de la puissance de calcul, le fondateur de Luchen Technology, You Yang, a déclaré dans une interview accordée à AI Technology Review : « DeepSeek pourrait temporairement compromettre la mise en place et la location de clusters de calcul d'entraînement ultra-larges. À long terme, en réduisant considérablement les coûts associés à l'entraînement, au raisonnement et aux applications de modèles de grande taille, la demande du marché devrait exploser. Les itérations ultérieures de l'IA basées sur ce modèle stimuleront donc continuellement la demande sur le marché de la puissance de calcul. » De plus, « la demande accrue de DeepSeek en services de raisonnement et de réglage fin est plus compatible avec le paysage informatique national, où les capacités locales sont relativement faibles, ce qui contribue à limiter le gaspillage des ressources inutilisées après la mise en place d'un cluster ; cela crée des opportunités viables pour les fabricants à différents niveaux de l'écosystème informatique national. » Luchen Technology a collaboré avec Huawei Cloud pour lancer les API de raisonnement DeepSeek R1 et les services d'imagerie cloud basés sur la puissance de calcul nationale. You Yang a exprimé son optimisme quant à l'avenir : « DeepSeek inspire confiance dans les solutions produites au niveau national, encourageant un plus grand enthousiasme et un plus grand investissement dans les capacités informatiques nationales à l'avenir. »

微信图片_20240614024031.jpg1

Conclusion

La supériorité de DeepSeek sur ChatGPT dépend des besoins et objectifs spécifiques de l'utilisateur. Pour les tâches nécessitant flexibilité, faible coût et personnalisation, DeepSeek peut être supérieur. Pour la rédaction créative, les demandes générales et les interfaces conversationnelles conviviales, ChatGPT peut prendre le dessus. Chaque outil ayant des objectifs différents, le choix dépendra grandement du contexte d'utilisation.

Trouver une solution de câble ELV

Câbles de commande

Pour câble BMS, BUS, industriel, instrumentation.

Système de câblage structuré

Réseau et données, câble à fibre optique, cordon de raccordement, modules, plaque frontale

Bilan des expositions et événements 2024

Du 16 au 18 avril 2024, Forum Moyen-Orient-Énergie à Dubaï

Du 16 au 18 avril 2024, Securika à Moscou

9 mai 2024 ÉVÉNEMENT DE LANCEMENT DE NOUVEAUX PRODUITS ET TECHNOLOGIES à Shanghai

Du 22 au 25 octobre 2024, SECURITY CHINA à Pékin

19-20 novembre 2024 CONNECTED WORLD KSA


Date de publication : 10 février 2025