Guide Vertex AI : Déploiement de Llama 2 dans le Google Cloud

Vertex AI est un terme générique qui désigne tout ce qui, d'une manière ou d'une autre, est lié à l'informatique. IA ou des applications dans le Google Cloud. En réponse à la forte demande de services simples Apprentissage automatique Les applications et les outils - les mauvaises langues soupçonnent un "engouement" - le Google Cloud offre avec Vertex AI un service permettant de créer ses propres modèles, de visualiser des modèles préfabriqués ainsi que de profiter de leurs applications.

Similaire à Sagemaker en AWS Vertex AI est conçu pour aider les utilisateurs tout au long de leur vie. Flux de travail d'apprentissage automatique (ML)Les utilisateurs de Vertex ont besoin d'aide pour former, déployer et, de plus en plus, gérer leurs modèles. Pour ce faire, Vertex AI propose des ML Ops solutions, y compris Alerting et AI Experiments. Il existe également des modèles et des outils prédéfinis sur la plateforme, par exemple la reconnaissance d'images, que l'on peut entraîner avec ses propres données. Une entreprise peut par exemple entraîner un chatbot à partir de ses instructions afin qu'il puisse effectuer des actions précises et aider plus rapidement les utilisateurs à résoudre leurs problèmes.

Cela nous amène à cet article, car Llama 2 est un modèle qui peut être utilisé sous le capot d'un programme de chatbot.

Utiliser Llama 2 pour des applications "how to" (comment)

Si vous souhaitez exécuter Llama 2 pour votre application, cette application est certainement très simple. Pour les modèles très demandés dans les applications de production, il existe une collection de modèles prêts à l'emploi au sein de Vertex AI. Il s'agit de Jardin modèle. Cette collection contient des modèles clés en main de Google, de sociétés open source et de sociétés tierces.

Vous constaterez que vous pouvez déjà voir Lama 2 et qu'il est donc disponible dans le Model Garden. Il est donc facile de fournir un point final qui renvoie des requêtes Llama 2. Je suppose que vous avez déjà un projet Google Cloud avec un compte de facturation associé. Ensuite, vous pouvez aller dans ce projet Google Cloud et suivre les instructions :

Étape 1

Tout d'abord, vous devriez regarder et activer l'API Compute Engine. En effet, pour utiliser un modèle, vous avez besoin d'une machine virtuelle. L'API Compute Engine est responsable des machines virtuelles et des solutions dans le cloud de Google.

Pour les engager, il faut aller dans le menu APIs & Services de la plateforme. Là, vous pouvez cliquer sur le bouton Enable APIs and Services et rechercher l'API Compute Engine dans l'interface suivante. Si vous l'avez trouvée, cliquez ensuite sur le bouton bleu "Enable".

Compute Engine API Google Cloud Vertex AI

Compute Engine API Google Cloud Vertex AI 2
Compute Engine API Google Cloud Vertex AI 3

Compute Engine API Google Cloud Vertex AI 4

Étape 2

Dès que vous avez activé l'API Compute Engine, vous pouvez consulter le Model Garden. Vous pouvez y accéder en tant que sous-point de Vertex AI à partir du "menu burger" dans la console Google Cloud.

Transition vers le Model Garden Google Cloud Vertex AI

De là, vous pouvez chercher Llama 2 dans les solutions ou les modèles, si vous ne le voyez pas directement dans les tuiles comme ici sur la capture d'écran.

Transition vers le Model Garden Google Cloud Vertex AI 2

Si vous affichez les détails, vous pouvez alors fournir le modèle.

Transition vers le Model Garden Google Cloud Vertex AI 3

Étape 3

Le menu contextuel vous montre la configuration et les données de la machine virtuelle. Dans Machine type, vous reconnaissez g2-standard-96. C'est important, car la machine virtuelle choisie détermine les coûts. 

Configuration de la tarification pour le type de machine Google Cloud Vertex AI

Un coup d'œil sur l'information "Pricing" pour le type de machine "g2" dans la version "standard" avec le niveau de configuration "96" révèle que l'exploitation de cette machine vous coûte environ 10$ par heure. Ou 240$ par jour.

Ces frais seront débités de votre carte de crédit tant que la machine fonctionnera.

Il est donc préférable d'être prudent lorsque vous fournissez quelque chose. Il est absolument recommandé de savoir comment l'arrêter. Si vous ne parvenez pas à utiliser les applications décrites, vous pouvez à tout moment supprimer le projet Google Cloud et les données associées. En outre, il existe également une assistance par chat si vous n'êtes pas sûr de savoir comment arrêter la machine, si vous l'avez déjà mise à disposition.

Configuration de la tarification pour le type de machine Google Cloud Vertex AI 2

Étape 4

Comme vous l'avez vu, le processus est très accessible. Choisissez Llama 2 dans la liste et suivez les étapes de déploiement (vous devrez éventuellement activer l'API Vertex AI). Ce qui se passe ensuite : Une copie du Model Garden est faite dans votre environnement Vertex AI, appelé Model Registry - mais nous y reviendrons plus tard - et le modèle est mis à disposition avec une machine à un point final sur Internet. Vous pouvez voir ce point final depuis l'interface Vertex AI sous "Online Prediction".

Au cours du processus, il est nécessaire de démarrer une machine virtuelle via le Google Cloud sur laquelle se trouve le modèle.

Attention ici à ne pas se lancer dans des frais inutiles, car l'ordinateur continue de fonctionner pendant tout ce temps et les frais mentionnés ci-dessus sont dus pour cette durée.

Déployer des modèles AI dans le Google Cloud avec Vertex AI

Que vous souhaitiez utiliser un modèle prêt à l'emploi - comme dans le cas précédent - ou que vous ayez vos propres modèles comme solutions, il vaut la peine d'aller plus loin. Les outils de formation et de déploiement de Vertex AI, qui se distinguent par leurs degrés de liberté, servent de base.

  • Auto ML vous permet d'apporter vos propres données pour certains objectifs, par exemple la reconnaissance d'images, et de vous entraîner sur celles-ci. Vous n'avez pas besoin de connaissances en matière de codage ou de données spéciales.
  • L'autre extrême est Formation sur mesureVous pouvez tout faire vous-même. De la configuration de l'entraînement au réglage des hyperparamètres, tout est entre vos mains lors de la création.
  • Entre les deux se trouve le Model Garden, où vous pouvez choisir des modèles de Google, Open Source ou de tiers et les déployer directement vers un point final de votre choix dans Vertex AI.

Si vous ne savez pas quelle option est la meilleure pour vous (ou peut-être pour votre entreprise), Google a mis en place une Aperçu prêt.

Vertex AI - Processus de déploiement "how to" (comment)

Fort de ces connaissances, vous pouvez maintenant passer à l'étape suivante : La mise à disposition d'un modèle propre dans le Google Cloud via Vertex AI. Nous allons détailler pour vous les étapes respectives dans le graphique suivant. Les services issus de Google Cloud sont marqués du logo Google Cloud.

Processus de déploiement de Vertex AI

En général, Vertex AI fonctionne comme suit pour vos modèles :

Étape 1

En gros, vous devez placer vos artefacts de modèle, en général sous forme de distribution Python, sur Stockage sur le cloud Google télécharger des fichiers. Google Cloud Storage est la solution de stockage d'objets de Google Cloud. Une fois cette étape franchie, vous pouvez télécharger votre modèle dans la Registre des modèles Vertex AI importer. Vous avez ainsi introduit votre premier modèle dans la plateforme Google Cloud.

Étape 2

Une fois que vous pouvez voir votre modèle dans le Vertex AI Model Registry, vous êtes en mesure de sélectionner les ressources informatiques avec lesquelles vous souhaitez entraîner votre modèle - et entraîner votre modèle. Pour ce faire, soit vous apportez vos données vous-même, par exemple en tant que partie du modèle, soit vous les gérez dans des outils de stockage tels que Google Cloud. Dans ce dernier cas, il est judicieux de créer un tableau de BigQuery avec Vertex AI à un Feature Store ressource, et de créer des données. Vous pourriez ensuite vous servir de ces données dans le processus de formation. La procédure de formation dépend de votre Modèle Type à partir de

Étape 3

Vous avez maintenant intégré un modèle dans Vertex AI. Pour la partie libre, vous voudrez probablement créer, ou plutôt fournir, des prédictions. Il existe des prédictions par lots et des prédictions "en ligne" ou en direct. Les prédictions par lots peuvent être exécutées de la même manière qu'un travail de formation. Vous avez besoin de votre modèle et devez louer les ressources de calcul pour obtenir vos prédictions par lots. Les prédictions en ligne sont clairement plus pertinentes pour les modèles d'IA générative comme Lama 2. Si vous souhaitez mettre à disposition des prédictions en ligne, vous avez également besoin d'un conteneur de prédiction. Celui-ci est livré prêt à l'emploi avec les modèles AutoML de Googles ou les modèles du Model Garden.

Si, par contre, vous souhaitez des prédictions pour votre propre modèle, c'est-à-dire un modèle personnalisé, il est alors nécessaire de fournir vous-même le conteneur de prédiction. Celui-ci est soumis à certaines Exigences. Vous devez notamment veiller à ce que le point de terminaison que Vertex AI vous fournit ne soit qu'un point de terminaison. Schéma pour les requêtes et les réponses. En d'autres termes, votre conteneur de prédiction ne peut voir, prendre et générer que ces données d'entrée et de sortie.

Étape 4

Une fois que vous avez créé votre conteneur de prédiction et que vous avez réussi cette étape, vous pouvez vous préparer à le placer sur Vertex AI. Pour cela, placez votre premier coûteux service est prêt. Jusqu'à présent, tous les produits utilisés, s'ils n'étaient pas gratuits, étaient très avantageux.

A titre d'exemple : Le stockage en nuage sur lequel votre modèle est hébergé ne vous coûte que 2 cents par Go par mois. Votre modèle ne sera probablement pas assez grand pour que cela vous coûte vraiment cher.

En revanche, pour mettre à disposition votre modèle de prédiction, vous devez créer un Pool de ressources de déploiement créer. C'est un long mot pour désigner un - ou plusieurs - ordinateurs qui hébergent votre conteneur de prédiction. En fonction de la complexité et du nombre de requêtes adressées à votre modèle, cet ordinateur doit être suffisamment grand. Il se peut que vous souhaitiez ajouter un accélérateur. Cela signifie qu'en plus de l'ordinateur, vous louez éventuellement une carte graphique.

Ce qui est important pour cela : En fonction de vos paramètres de mise à l'échelle, cet ordinateur fonctionne tout le temps en arrière-plan.

Donc, si vous suivez ce tutoriel, n'oubliez pas de supprimer le pool de ressources de déploiement.

Conseil Le mieux est de choisir un ordinateur bon marché. C'est certainement la manière la plus efficace de procéder.

Résumé - Guide Vertex AI

Vous avez maintenant une meilleure compréhension de Vertex AI dans le Google Cloud. Vous avez acquis le savoir-faire nécessaire pour utiliser le Model Garden de cette plateforme afin de créer et de proposer en quelques clics un point final de prédiction out-of-the-box. En outre, vous savez qu'il existe différents types de modèles dans le Google Cloud, dont les données peuvent être différenciées en Auto ML et Custom Models.

Bonne continuation !

Vous avez des questions sur le déploiement de Llama 2 dans le Google Cloud avec Vertex AI ? Envoyez-moi un message :








    "
    "
    Avatar de Gregor Kondla

    Derniers articles