Question 1

Quel modèle d'embedding a le rappel le plus haut ?

Accepted Answer

Voyage 3 et OpenAI text-embedding-3-large mènent actuellement sur le benchmark MTEB pour la recherche anglaise généraliste. Cohere Embed v3 multilingual mène sur la recherche cross-lingue. Pour le code, Voyage Code 3 et CodeRankEmbed mènent. Lancez un test de rappel@k sur votre propre corpus avant de vous engager.

Question 2

Lequel est le moins cher ?

Accepted Answer

Les modèles open-weights (BGE, Jina V3, MxBai) ne coûtent effectivement rien en auto-hébergement. Sur infrastructure managée, comptez 0,02 à 0,05 € par million de tokens pour les tiers économiques et 0,10 à 0,15 € par million pour les phares. Embeddez le corpus une fois et amortissez sur des millions de requêtes.

Question 3

Quelle taille de chunk devrais-je utiliser ?

Accepted Answer

La plupart des modèles optimisent pour des chunks de 200 à 500 tokens. Utilisez un chunker qui respecte les frontières de paragraphe, avec 10 à 20 % d'overlap entre chunks adjacents. Pour des requêtes très courtes (phrases uniques), certains modèles d'embedding prennent aussi en charge un mode « query » vs « document » qui améliore la qualité du retrieval.

Question 4

Quelles dimensions sont disponibles ?

Accepted Answer

Les tailles standards sont 384, 768, 1 024, 1 536 et 3 072 dimensions. Les dimensions plus hautes capturent plus de nuance mais coûtent plus à stocker et chercher. Beaucoup de phares prennent maintenant en charge la représentation matriochka — embeddez à 3 072 puis tronquez à n'importe quelle taille plus petite sans ré-embedder.

Question 5

Fonctionnent-ils pour des langues autres que l'anglais ?

Accepted Answer

Les phares multilingues (Jina V3, Cohere Multilingual v3, Voyage Multilingual) couvrent 100+ langues avec un fort retrieval cross-lingue. Les modèles anglais seul perdent 30 à 60 % de rappel sur le texte non anglais. Choisissez toujours un modèle multilingue si votre corpus ou vos requêtes ne sont pas exclusivement en anglais.

Question 6

Puis-je embedder du code ?

Accepted Answer

Oui — les modèles d'embedding code dédiés (Voyage Code 3, CodeRankEmbed, Jina Code) surpassent les modèles généralistes de 15 à 30 % sur les benchmarks de recherche de code. Ils comprennent la syntaxe, le nommage d'identifiants et la similarité cross-langage. Utilisez-les quand vous construisez du « trouve du code similaire » ou de l'outillage de PR review.

Question 7

Puis-je embedder des images ?

Accepted Answer

Oui — les variantes CLIP et SigLIP embeddent images et texte dans un espace partagé, vous pouvez donc chercher des images par requête textuelle. Jina V3 livre aussi une variante multimodale. Pour la recherche pure image-image, les encodeurs vision dédiés comme DINOv2 surpassent CLIP.

Question 8

Quelle base de données vectorielle devrais-je utiliser ?

Accepted Answer

Pgvector pour les workflows natifs Postgres, Qdrant ou Weaviate pour le standalone à grande échelle, Pinecone pour la simplicité managée, Milvus pour le très grand on-prem. Les embeddings Railwail sont compatibles avec toutes — choisissez celle qui correspond à votre infrastructure existante.

Embeddings

Modèles d'embeddings pour recherche sémantique, RAG et clustering

BGE Large EN v1.5

BGE-M3 (Multilingual)

ESM-2 650M (Protein Embeddings)

Nomic Embed Text v1.5

OpenAI text-embedding-3-large

OpenAI text-embedding-3-small

PubMedBERT Embeddings (NeuML)

SPECTER (Scientific Paper Embeddings)

Voyage AI voyage-3

BioBERT v1.2 (Biomedical Embeddings)

BiomedBERT (PubMedBERT abstract)

Cohere embed-multilingual-v3

GTE Large EN v1.5

Jina Embeddings v3 (Multilingual)

Multilingual E5 Large

mxbai-embed-large-v1

SciBERT (scivocab uncased)

Voyage AI voyage-code-3

Top embeddings picks

Popular use cases

Related comparisons

Voyage 3 vs OpenAI text-embedding-3-large

Frequently asked questions

Start Building with AI