Datalab lance lift : le modèle IA 9B qui extrait du JSON depuis les PDFs 2026

90,2 %. C’est la précision de *lift*, le nouveau modèle IA de Datalab. Lancé en juin 2026, ce modèle de 9 milliards de paramètres extrait des données structurées en JSON depuis des PDFs et images. Une première en open-weights. Pour les entreprises françaises, c’est l’opportunité d’automatiser des tâches métiers chronophages. Comptabilité, juridique, logistique : les cas d’usage sont multiples. Et l’accessibilité change la donne pour les PME.

Datalab et *lift* : qui et pourquoi ?

Datalab est une startup spécialisée en IA, fondée par d’anciens chercheurs de Meta et Google. Son objectif : démocratiser l’accès à des outils d’extraction de données performants. *lift* s’inscrit dans cette vision. Le modèle est conçu pour les professionnels, avec une approche open-weights.

Contrairement aux solutions propriétaires, *lift* permet une intégration flexible. Entreprises, développeurs et chercheurs peuvent l’adapter à leurs besoins. Un avantage compétitif pour les structures françaises, souvent limitées par des budgets serrés.

Technique : chiffres et innovations clés

*lift* se distingue par sa précision et ses fonctionnalités uniques. Voici les données techniques à retenir.

  • 9 milliards de paramètres : équilibre entre performance et efficacité
  • Extraction en JSON depuis PDFs et images (factures, contrats, bons de commande)
  • *Schema-constrained decoding* : garantit des sorties conformes aux schémas prédéfinis
  • Taux de précision de 90,2 % sur un benchmark de 225 documents
  • Fonction *trained abstention* : évite les hallucinations en renvoyant *null* pour les champs manquants
  • Open-weights : accessible sans licence restrictive

Ces caractéristiques en font un outil adapté aux environnements professionnels exigeants. La précision est cruciale pour des secteurs comme la finance ou le juridique.

*lift* vs solutions existantes : le comparatif

Comment *lift* se positionne face aux alternatives ? Voici une analyse comparative.

Critère*lift* (Datalab)Solutions propriétaires (ex: Adobe, ABBYY)
CoûtGratuit (open-weights)Licences payantes (500-5 000 €/an)
Précision90,2 %85-92 % (variable selon le document)
FlexibilitéAdaptable via schémas JSONLimité aux templates prédéfinis
IntégrationAPI et déploiement localCloud obligatoire pour certaines
TransparenceOpen-weights (auditable)Boîte noire (propriétaire)

Impact pour les professionnels français

Automatisation des tâches métiers

Les PME françaises passent en moyenne 15 heures par semaine à traiter des documents papier. *lift* réduit ce temps de 70 %. Exemples concrets : extraction de données depuis des factures, contrats ou bons de livraison. Un gain de productivité immédiat.

Avantage compétitif pour les startups

L’open-weights de *lift* permet aux startups de développer des solutions sur mesure. Sans coûts de licence, elles peuvent proposer des services innovants. Exemple : une fintech pourrait automatiser l’analyse de relevés bancaires pour ses clients.

Ce qu’il faut retenir

  • *lift* est le premier modèle open-weights de cette envergure pour l’extraction JSON depuis PDFs
  • 90,2 % de précision : un niveau adapté aux besoins professionnels exigeants
  • L’open-weights change la donne pour les PME et startups françaises
  • Les cas d’usage couvrent la comptabilité, le juridique, la logistique et plus
  • Une alternative crédible aux solutions propriétaires, avec plus de flexibilité

❓ Questions fréquentes

Qu’est-ce que le *schema-constrained decoding* ?

C’est une technique qui force le modèle à générer des sorties conformes à un schéma JSON prédéfini. Cela élimine les erreurs de structure et améliore la précision.

*lift* peut-il traiter des documents manuscrits ?

Non, le modèle est optimisé pour les PDFs et images de documents imprimés. Les manuscrits ne sont pas pris en charge actuellement.

Comment accéder à *lift* ?

Le modèle est disponible en open-weights sur Hugging Face. Les développeurs peuvent l’intégrer via une API ou le déployer localement.

En résumé

Avec *lift*, Datalab propose une solution technique solide et accessible. Pour les entreprises françaises, c’est l’occasion de moderniser leurs processus documentaires sans investissements lourds. La précision de 90,2 % et l’open-weights en font un outil différenciant. Reste à voir comment les professionnels l’adopteront dans leurs workflows. Une chose est sûre : l’IA spécialisée gagne du terrain.

📚 À lire aussi

📷 Image : Pavel Danilyuk via Pexels

Anis
À propos de l'auteur
Anis

Anis Flazi est le fondateur et rédacteur en chef d'IA Codex. Diplômé de la Sorbonne en systèmes d'information et de connaissances, il évolue depuis plus de 10 ans dans le marketing digital (publicité Meta, Google et TikTok, en agence, chez l'annonceur et en freelance). Cette double culture, technique et terrain, l'a conduit à adopter l'intelligence artificielle dès ses débuts : d'abord appliquée à ses campagnes, puis étendue à l'ensemble de ses projets. Il teste aujourd'hui les outils et modèles d'IA au quotidien pour décrypter, sans hype ni jargon, ce qui change vraiment pour les professionnels francophones.

Tous les articles de Anis →

Laisser un commentaire