L’éditeur met en open source sous licence Apache 2.0 les modèles LateOn et DenseOn.
Les deux modèles ont été testés sur le même socle (backbone) de 149 millions de paramètres, même régime d’entraînement, deux architectures. La comparaison contrôlée est l’essentiel. BEIR est le test standard du domaine pour l’extraction (retrieval) zéro-shot sur 18 jeux de données hétérogènes — biomédical, finance, juridique, scientifique. Contrairement à MS MARCO, les modèles ne peuvent pas être ajustés dessus ; BEIR est conçu pour révéler si un récupérateur généralise ou s’il ne fait que mémoriser.
LightOn a relancé BEIR après avoir supprimé chaque document apparu dans les données d’entraînement des modèles — la condition que présente réellement tout corpus d’entreprise, puisqu’aucun document client n’était dans le pré-entraînement de qui que ce soit. Les modèles à interaction tardive ont maintenu ou amélioré leur classement. Les modèles denses ont reculé. L’écart moyen s’est élargi de +3,55 points de NDCG pour le multi-vecteur, contre +2,01 pour le dense. Même socle, mêmes données — c’est l’architecture qui fait le travail. La recherche d’information est le socle sur lequel repose tout agent d’entreprise. Un modèle dense compresse un document en un seul vecteur et espère que la requête tombera à proximité. L’interaction tardive conserve intacte la structure du document au niveau des tokens et laisse chaque token de la requête interroger le document directement — l’expressivité mathématique d’une somme de max-similarités versus un seul produit scalaire. Sur des corpus non vus — dépôts réglementaires, tickets internes, recherche propriétaire — cette fidélité structurelle fait la différence entre un agent qui trouve la bonne clause et un agent qui cite avec assurance la mauvaise.
LateOn fonctionne déjà dans le pipeline de production de LightOn au sein d’une pile hybride — interaction tardive multi-vecteur, récupération dense et BM25 — exposée via l’API LightOn. Pour sa part DenseOn surpasse des modèles denses jusqu’à 4× plus grands que lui, dont Qwen3-Embedding-0.6B.
Réduire les coûts
Les modèles à interaction tardive offrent la meilleure précision zéro-shot « au prix d’un coût de calcul élevé. Le résultat à 149 millions de paramètres publié aujourd’hui retire cette question de coût.

