Datalab lance lift : le modèle IA 9B qui extrait du JSON depuis les PDFs 2026 - IA Codex

90,2 %. C’est la précision de *lift*, le nouveau modèle IA de Datalab. Lancé en juin 2026, ce modèle de 9 milliards de paramètres extrait des données structurées en JSON depuis des PDFs et images. Une première en open-weights. Pour les entreprises françaises, c’est l’opportunité d’automatiser des tâches métiers chronophages. Comptabilité, juridique, logistique : les cas d’usage sont multiples. Et l’accessibilité change la donne pour les PME.

Datalab et lift : qui et pourquoi ?

Datalab est une startup spécialisée en IA, fondée par d’anciens chercheurs de Meta et Google. Son objectif : démocratiser l’accès à des outils d’extraction de données performants. *lift* s’inscrit dans cette vision. Le modèle est conçu pour les professionnels, avec une approche open-weights.

Contrairement aux solutions propriétaires, *lift* permet une intégration flexible. Entreprises, développeurs et chercheurs peuvent l’adapter à leurs besoins. Un avantage compétitif pour les structures françaises, souvent limitées par des budgets serrés.

Technique : chiffres et innovations clés

*lift* se distingue par sa précision et ses fonctionnalités uniques. Voici les données techniques à retenir.

9 milliards de paramètres : équilibre entre performance et efficacité
Extraction en JSON depuis PDFs et images (factures, contrats, bons de commande)
*Schema-constrained decoding* : garantit des sorties conformes aux schémas prédéfinis
Taux de précision de 90,2 % sur un benchmark de 225 documents
Fonction *trained abstention* : évite les hallucinations en renvoyant *null* pour les champs manquants
Open-weights : accessible sans licence restrictive

Ces caractéristiques en font un outil adapté aux environnements professionnels exigeants. La précision est cruciale pour des secteurs comme la finance ou le juridique.

lift vs solutions existantes : le comparatif

Comment *lift* se positionne face aux alternatives ? Voici une analyse comparative.

Critère	lift (Datalab)	Solutions propriétaires (ex: Adobe, ABBYY)
Coût	Gratuit (open-weights)	Licences payantes (500-5 000 €/an)
Précision	90,2 %	85-92 % (variable selon le document)
Flexibilité	Adaptable via schémas JSON	Limité aux templates prédéfinis
Intégration	API et déploiement local	Cloud obligatoire pour certaines
Transparence	Open-weights (auditable)	Boîte noire (propriétaire)

Impact pour les professionnels français

Automatisation des tâches métiers

Les PME françaises passent en moyenne 15 heures par semaine à traiter des documents papier. *lift* réduit ce temps de 70 %. Exemples concrets : extraction de données depuis des factures, contrats ou bons de livraison. Un gain de productivité immédiat.

Avantage compétitif pour les startups

L’open-weights de *lift* permet aux startups de développer des solutions sur mesure. Sans coûts de licence, elles peuvent proposer des services innovants. Exemple : une fintech pourrait automatiser l’analyse de relevés bancaires pour ses clients.

Ce qu’il faut retenir

*lift* est le premier modèle open-weights de cette envergure pour l’extraction JSON depuis PDFs
90,2 % de précision : un niveau adapté aux besoins professionnels exigeants
L’open-weights change la donne pour les PME et startups françaises
Les cas d’usage couvrent la comptabilité, le juridique, la logistique et plus
Une alternative crédible aux solutions propriétaires, avec plus de flexibilité

❓ Questions fréquentes

Qu’est-ce que le schema-constrained decoding ?

C’est une technique qui force le modèle à générer des sorties conformes à un schéma JSON prédéfini. Cela élimine les erreurs de structure et améliore la précision.

lift peut-il traiter des documents manuscrits ?

Non, le modèle est optimisé pour les PDFs et images de documents imprimés. Les manuscrits ne sont pas pris en charge actuellement.

Comment accéder à lift ?

Le modèle est disponible en open-weights sur Hugging Face. Les développeurs peuvent l’intégrer via une API ou le déployer localement.

En résumé

Avec *lift*, Datalab propose une solution technique solide et accessible. Pour les entreprises françaises, c’est l’occasion de moderniser leurs processus documentaires sans investissements lourds. La précision de 90,2 % et l’open-weights en font un outil différenciant. Reste à voir comment les professionnels l’adopteront dans leurs workflows. Une chose est sûre : l’IA spécialisée gagne du terrain.

📚 À lire aussi

📷 Image : Pavel Danilyuk via Pexels

À propos de l'auteur

Anis

Anis Flazi est le fondateur et rédacteur en chef d'IA Codex. Diplômé de la Sorbonne en systèmes d'information et de connaissances, il évolue depuis plus de 10 ans dans le marketing digital (publicité Meta, Google et TikTok, en agence, chez l'annonceur et en freelance). Cette double culture, technique et terrain, l'a conduit à adopter l'intelligence artificielle dès ses débuts : d'abord appliquée à ses campagnes, puis étendue à l'ensemble de ses projets. Il teste aujourd'hui les outils et modèles d'IA au quotidien pour décrypter, sans hype ni jargon, ce qui change vraiment pour les professionnels francophones.

Tous les articles de Anis →

Datalab et *lift* : qui et pourquoi ?