Embeddings

Semantic search and vector representations for AI applications

Modèles d'embeddings pour recherche sémantique, RAG et clustering

Les modèles d'embeddings transforment du texte — ou parfois des images, du code ou de l'audio — en un vecteur de nombres à virgule flottante de longueur fixe. Les entrées similaires atterrissent proches l'une de l'autre dans l'espace d'embedding, les entrées dissemblables atterrissent loin. On y a recours pour construire de la recherche sémantique, de la génération augmentée par retrieval (RAG), des recommandations ou du clustering.

Top embeddings picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Meilleur global
Text Embedding 3 Large

OpenAI's most powerful embedding model. 3072 dimensions for maximum accuracy.

Learn more
Le moins cher
Jina Embeddings v3 (Multilingual)

Jina's frontier multilingual embedding model. 570M params, 8192 ctx, 89 languages, Matryoshka dims 128-1024.

Learn more
Dimensions les plus hautes
Voyage AI voyage-3

Voyage's general-purpose embedding model. 1024 dims, 32k context, strong retrieval performance.

Learn more
Le plus rapide
Text Embedding 3 Small

OpenAI's compact embedding model. 1536 dimensions, great for semantic search and RAG.

Learn more

La tarification est au token, similaire à la génération de texte mais typiquement 10 à 100× moins chère. Les modèles phares (OpenAI text-embedding-3-large, Voyage 3, Cohere Embed v3) coûtent 0,05 à 0,15 € par million de tokens. Les options open-weights (Jina V3, BGE, MxBai) ne coûtent effectivement rien à exploiter sur sa propre infrastructure. Un corpus RAG typique de 10 millions de tokens (environ 20 000 documents) coûte 0,50 à 1,50 € à embedder une fois. Le re-embedding à chaque montée de version du modèle est le principal coût récurrent.

Le compromis est dimension, rappel et prix. Les embeddings de plus haute dimension (3 072 ou 4 096 dims) capturent plus de nuance mais coûtent plus à stocker et chercher. Les modèles de plus basse dimension (256 à 768 dims) coûtent dix fois moins et récupèrent quand même le bon document dans 90 à 95 % des cas sur la plupart des charges. Utilisez le phare haute dimension quand la qualité de retrieval est critique (recherche juridique, Q&R médical) ; utilisez un modèle économique quand vous pouvez tolérer un résultat manqué occasionnel.

Attention à la taille des chunks : la plupart des modèles d'embedding performent au mieux sur des chunks de 200 à 500 tokens. Embedder un document de 50 pages entier comme un seul vecteur perd le sens par section. Embedder trop petit (sous 50 tokens) rend les chunks individuels bruités. Choisissez un chunker qui respecte les frontières de paragraphe et ajoute un petit overlap (10 à 20 %) entre les chunks.

Attention au mismatch multilingue : tous les modèles d'embedding ne parlent pas toutes les langues à égalité. Si votre corpus est multilingue, choisissez un modèle dont les données d'entraînement couvrent vos langues — Jina V3, Cohere Multilingual et Voyage Multilingual sont les défauts sûrs.

Les top picks ci-dessus couvrent le phare au plus haut rappel, le modèle de production le moins cher, l'option de plus haute dimension et l'indexeur le plus rapide.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.