AMD Ryzen AI Max+ 395 : démocratiser les grands modèles IA en local

Depuis deux ans, une idée revient régulièrement dans l’écosystème IA : les meilleurs modèles finiront par s’exécuter localement plutôt que dans le cloud.

Jusqu’à récemment, cette vision se heurtait à une limite très simple : la mémoire.

Même les cartes graphiques grand public les plus puissantes embarquent relativement peu de VRAM. Une RTX 4090 dispose de 24 Go de mémoire vidéo ; une RTX 5090 atteint 32 Go. Suffisant pour de nombreux modèles, mais encore loin des besoins des modèles de langage les plus avancés.

C’est précisément là qu’intervient l’AMD Ryzen AI Max+ 395, connu sous le nom de code « Strix Halo ».

Pourquoi tout le monde parle de Strix Halo

À première vue, le Ryzen AI Max+ 395 ressemble à un processeur haut de gamme classique :

16 cœurs Zen 5
32 threads
GPU intégré Radeon 8060S
NPU dédié à l’IA
jusqu’à 128 Go de mémoire LPDDR5X

Mais la véritable innovation n’est pas sa puissance de calcul.

Elle réside dans son architecture mémoire unifiée.

Selon AMD, le système peut embarquer jusqu’à 128 Go de mémoire partagée, dont jusqu’à 112 Go peuvent être alloués au GPU pour les charges de travail IA. Cette approche rapproche davantage le PC du modèle utilisé par Apple Silicon que des architectures PC traditionnelles — où mémoire CPU et mémoire GPU sont des pools strictement séparés.

Concrètement : un modèle IA peut accéder à une quantité de mémoire bien supérieure à celle disponible sur la plupart des cartes graphiques grand public.

Le véritable problème des LLM n’est pas toujours la puissance de calcul

Lorsqu’on parle d’inférence IA locale, on pense immédiatement aux TFLOPS et au nombre de cœurs GPU.

Pourtant, le principal frein est souvent la capacité mémoire.

Un modèle de 70 milliards de paramètres quantifié nécessite généralement entre 40 et 50 Go de mémoire. Les modèles dépassant 100 milliards de paramètres peuvent facilement nécessiter plus de 70 Go.

C’est pourquoi de nombreux développeurs doivent aujourd’hui :

utiliser plusieurs GPU en parallèle,
louer des serveurs cloud, ou
investir dans des cartes professionnelles coûtant plusieurs milliers d’euros.

Avec 128 Go de mémoire unifiée, Strix Halo permet d’exécuter localement certains modèles qui étaient auparavant réservés à des infrastructures beaucoup plus coûteuses.

Est-ce vraiment un « server rack killer » ?

Pas exactement.

Certains articles et publications LinkedIn présentent déjà Strix Halo comme une machine capable de remplacer un rack de serveurs.

Cette affirmation mérite d’être nuancée.

La capacité mémoire est effectivement exceptionnelle pour une machine grand public. En revanche, la bande passante mémoire reste d’environ 256 Go/s. À titre de comparaison, une RTX 5090 dispose d’une bande passante proche de 1,8 To/s.

Autrement dit :

Strix Halo peut charger des modèles plus grands ;
une RTX 5090 exécutera généralement les modèles compatibles beaucoup plus vite.

Le compromis est donc clair : capacité contre vitesse.

Strix Halo n’est pas conçu pour rivaliser avec le hardware NVIDIA dédié en débit. Il est conçu pour faire tenir sur un seul poste compact et relativement silencieux des modèles qui en étaient jusqu’ici exclus.

Là où Strix Halo devient réellement intéressant

Chez ARGO, nous observons une tendance forte : les organisations cherchent de plus en plus à exécuter leurs modèles localement. Les motivations sont variées et convergentes.

Confidentialité des données

Certaines organisations ne souhaitent plus envoyer leurs données vers des API externes. Que ce soit pour des raisons légales, de confidentialité client, ou simplement de prudence stratégique, cette question arrive de plus en plus tôt dans les briefs.

Réduction des coûts

À grande échelle, les coûts d’appels API s’accumulent vite. Pour des pipelines à fort volume — matching de documents, traitement de catalogues, reconnaissance d’images — l’inférence locale peut changer sensiblement l’équation économique.

IA embarquée

Applications industrielles, vision par ordinateur, assistants métier et systèmes de guidage nécessitent parfois une exécution directement sur site — sans dépendance cloud dans la boucle.

Disponibilité

Une infrastructure locale continue de fonctionner même sans connexion internet. Pour des installations kiosque, des appareils terrain ou des environnements sensibles, c’est un facteur déterminant.

Dans tous ces scénarios, la possibilité de faire tourner un modèle de 70 milliards de paramètres sur un poste de travail compact devient particulièrement attractive.

Face à Apple et NVIDIA

Le Ryzen AI Max+ 395 ouvre une nouvelle catégorie de machines — et son positionnement par rapport aux écosystèmes existants mérite d’être compris.

Face à NVIDIA

NVIDIA conserve une avance importante en performance d’inférence brute. Pour les workloads nécessitant un débit maximal de tokens ou du fine-tuning intensif, les GPU dédiés restent largement devant.

Face à Apple

Apple a popularisé la mémoire unifiée à grande échelle avec les puces M-Series. AMD reprend ici une philosophie similaire, mais dans un environnement x86 compatible Windows et Linux — ce qui facilite l’intégration dans de nombreux workflows professionnels existants qui tournent déjà sur ces plateformes.

Pour les équipes qui construisent sur des toolchains établies, ce n’est pas un détail.

Ce que pensent les développeurs IA

Les discussions dans la communauté LocalLLaMA et chez les utilisateurs avancés convergent vers une même lecture :

Strix Halo n’est pas conçu pour battre les meilleures cartes NVIDIA en vitesse.

Il offre autre chose : une manière beaucoup plus accessible de faire tourner des modèles de très grande taille en local, sur une machine compacte et relativement économe en énergie. La conclusion qui émerge : si on a besoin du débit maximum, on se tourne vers NVIDIA. Si on a besoin de la taille de modèle maximale sur une seule machine, Strix Halo entre sérieusement en jeu.

Notre analyse

Le Ryzen AI Max+ 395 n’est probablement pas la machine qui remplacera les centres de données.

En revanche, il pourrait bien être la première plateforme x86 grand public à rendre réellement accessibles les modèles de 70 à 128 milliards de paramètres sur un poste de travail individuel.

Pour les développeurs IA, les équipes R&D, les projets de vision par ordinateur, les agents autonomes et les assistants métier privés, cela change considérablement l’équation économique.

Pendant des années, la question était :

« Combien de GPU faut-il pour faire tourner ce modèle ? »

Avec Strix Halo, la question devient :

« Peut-on désormais faire tourner ce modèle sur un simple poste de travail ? »

C’est, selon nous, là que se situe sa véritable signification.

Sources : AMD Developer Blog, juin 2025 · Spécifications AMD Ryzen AI Max+ 395 · Tom’s Hardware · Communauté LocalLLaMA