Revue de Recherche

DeepSeek-OCR : Compression de contexte avec la vision 2D

Par

Publié le 23 octobre 2025

Les grands modèles de langage (LLMs) sont aujourd’hui capables de raisonner, rédiger, coder et dialoguer avec une fluidité impressionnante, mais même les plus puissants d’entre eux butent sur une contrainte fondamentale, la longueur du contexte. Plus un texte est long, qu’il s’agisse d’un échange conversationnel, d’un code source ou d’un document, plus il nécessite de tokens pour être représenté, ce qui augmente la mémoire utilisée, ralentit le traitement et multiplie les coûts.

Face à cet obstacle, DeepSeek propose une réponse radicalement nouvelle avec DeepSeek-OCR. Plutôt que de chercher à étendre indéfiniment la fenêtre de contexte, une solution coûteuse en ressources, l’approche vise à compresser intelligemment l’information textuelle avant même qu’elle n’atteigne le modèle.

Table des matières

Longueur du contexte d’un LLM, qu’est-ce que c’est ?

La longueur du contexte ou fenêtre de contexte d’un grand modèle de langage (LLM) désigne le nombre maximal de tokens qu’il peut prendre en compte à la fois lorsqu’on lui soumet une entrée, que ce soit une question, un texte à compléter, un historique de conversation ou un document à analyser. Ce « contexte » est la mémoire immédiate du modèle, tout ce qui s’y trouve peut influencer sa réponse, tout ce qui dépasse cette limite est simplement ignoré.

Concrètement, chaque mot, ponctuation ou symbole est découpé en tokens (unités de base du traitement du langage). Par exemple, la phrase « Bonjour, comment ça va ? » peut être transformée en 6 à 8 tokens selon le modèle. Si un LLM a une fenêtre de contexte de 8 000 tokens, il ne pourra pas « voir » au-delà de ce seuil, même s’il reçoit un roman entier ou un long échange conversationnel.

Pourquoi la longueur du contexte pose problème ?

Même si un LLM peut théoriquement gérer des fenêtres de dizaines ou centaines de milliers de tokens, l’efficacité réelle diminue souvent avec la longueur. Le modèle accorde naturellement plus d’attention aux éléments situés au début ou à la fin du contexte, tandis que l’information placée au milieu risque d’être « noyée », un phénomène bien documenté appelé lost-in-the-middle [1]. Cela limite sa capacité à extraire des faits précis dans un long document ou à maintenir une cohérence sur des dialogues étendus.

Ce graphique montre comment la position du document contenant la réponse influence la précision des modèles de langage dans une tâche de question-réponse multi-documents. Les modèles obtiennent les meilleurs résultats lorsque l’information pertinente se trouve au tout début ou à la fin du contexte, mais leurs performances chutent nettement lorsque la réponse est placée au milieu du texte. Source figure [1]

Par ailleurs, étendre la fenêtre de contexte a un coût, chaque token supplémentaire augmente la mémoire requise, le temps de traitement et la facture énergétique. Ainsi, la contrainte ne vient pas seulement de la capacité maximale du modèle, mais de l’équilibre entre performance, précision et faisabilité opérationnelle. C’est dans ce contexte qu’émergent des solutions alternatives comme DeepSeek-OCR, qui ne cherchent pas à agrandir la fenêtre, plutôt, à rendre chaque token bien plus informatif.

DeepSeek introduit DeepSeek-OCR, un VLM révolutionnaire

Face aux limites structurelles des grands modèles de langage dans le traitement des longs contextes, DeepSeek propose une rupture conceptuelle avec DeepSeek-OCR, un modèle vision-langage (VLM) conçu non pas pour répondre à des questions sur des images, mais pour compresser efficacement du texte en le traitant comme une image. Plutôt que d’agrandir indéfiniment la fenêtre de contexte, DeepSeek-OCR encode l’information textuelle sous une forme visuelle compacte, qu’un décodeur spécialisé peut ensuite relire avec une précision remarquable. Cette approche transforme la vision en un outil d’efficacité computationnelle, ouvrant la voie à des LLMs capables de « mémoriser » des documents entiers sans surcharger leurs ressources.

DeepSeek a choisi l’OCR comme base de sa compression contextuelle

L’OCR (Reconnaissance Optique de Caractères) est une technologie qui permet de convertir du texte présent dans une image, comme un scan de document, une photo de tableau ou une capture d’écran, en texte numérique exploitable. Traditionnellement, l’OCR était un pipeline en deux étapes, d’abord détecter les zones de texte, puis reconnaître les caractères. Aujourd’hui, grâce aux progrès des modèles vision-langage (VLMs), cette tâche peut être réalisée de bout en bout par un seul modèle, qui « lit » une image comme le ferait un humain. Ce qui rend l’OCR particulièrement intéressante, c’est qu’elle établit un pont naturel entre la vision et le langage, une image de texte contient la même information qu’une séquence de tokens, mais sous une forme spatiale et compacte.

C’est précisément cette dualité qui a guidé le choix de DeepSeek. Plutôt que de traiter le texte uniquement comme une suite linéaire de symboles, l’équipe a vu dans l’OCR un banc d’essai idéal pour tester une nouvelle idée, utiliser la modalité visuelle non pas pour décrire des images, mais pour compresser du texte. En encodant un document sous forme d’image, on préserve sa structure tout en réduisant drastiquement le nombre de tokens nécessaires à sa représentation. L’OCR devient alors un mécanisme de compression contextuelle, où la « lecture » du texte par un modèle devient une opération de décodage visuel. Cette approche ouvre la voie à des systèmes capables de gérer des contextes très longs sans surcharger les ressources, un avantage décisif pour les futurs LLMs.

Architecture de DeepSeek-OCR

DeepSeek-OCR repose sur une architecture end-to-end simple mais ingénieuse, divisée en deux grandes étapes, un encodeur visuel (DeepEncoder) qui transforme le document en une représentation compacte, et un décodeur multimodal (DeepSeek3B-MoE-A570M) qui reconvertit cette représentation en texte. L’encodeur est conçu pour traiter des images haute résolution sans saturer la mémoire, grâce à une combinaison d’attention locale et globale, et à un module de compression convolutif qui réduit drastiquement le nombre de tokens visuels avant leur traitement final. Le décodeur, lui, utilise une architecture Mixture of Experts (MoE) pour lire efficacement ces tokens visuels et générer du texte avec une grande précision, même après une forte compression. Ce flux, permet au système de compresser l’information textuelle tout en conservant son essence, ouvrant la voie à des modèles plus légers et plus rapides.

Encodeur DeepEncoder, le cœur de DeepSeek-OCR

Le moteur de compression de DeepSeek-OCR est DeepEncoder. Son objectif est simple mais ambitieux, transformer un document, qu’il soit texte brut, PDF ou image scannée, en une représentation visuelle ultra-compacte, appelée vision tokens, tout en conservant l’essentiel de l’information. Pour y parvenir, il ne traite pas le texte comme une suite linéaire de mots, mais comme une image structurée, où la disposition des titres, paragraphes ou tableaux compte autant que le contenu lui-même.

L’architecture de DeepEncoder repose sur trois blocs clés, agencés en série. Il commence par SAM (Segment Anything Model)[3], un modèle spécialisé dans l’analyse fine des images, qui repère les zones pertinentes du document, texte, formules, graphiques avec une grande précision. Ces zones sont ensuite fortement compressées par un module convolutif 16×, composé de deux couches successives qui réduisent le nombre de tokens visuels par un facteur 16, passant par exemple de 4096 à 256 pour une image de 1024×1024 pixels.

Enfin, CLIP (Contrastive Language–Image Pre-training)[4], plus précisément CLIP-large (dont la couche d’embedding initiale a été retirée, puisqu’il ne reçoit plus des pixels mais des tokens visuels déjà structurés), prend ces fragments compressés et les transforme en une représentation vectorielle riche. C’est cette représentation vectorielle, compacte, mais expressive que le décodeur (DeepSeek3B-MoE) utilise ensuite comme entrée. Grâce à elle, le modèle peut reconstruire le texte d’origine avec une précision remarquable, même après une forte compression.

DeepSeek3B-MoE, le décodeur multimodal derrière DeepSeek-OCR

Le décodeur de DeepSeek-OCR est DeepSeek3B-MoE-A570M, un modèle de langage de 3 milliards de paramètres basé sur une architecture Mixture of Experts (MoE). Contrairement aux modèles denses classiques, ce système n’active qu’une partie de ses paramètres à la fois, soit 570 millions lors de l’inférence, ce qui lui confère une efficacité computationnelle remarquable tout en conservant une grande capacité expressive.

Spécialement entraîné pour la tâche d’OCR, il ne reçoit pas du texte brut, mais une représentation vectorielle compacte issue de DeepEncoder, une séquence de vision tokens qui encode le document sous forme visuelle compressée. Son rôle est de « relire » cette image mentale et de reconstruire fidèlement le texte d’origine, y compris sa structure et son contenu sémantique.

Grâce à cette conception, DeepSeek3B-MoE agit comme un pont entre vision et langage. Il ne fait pas que reconnaître des caractères, il comprend le contexte spatial, interprète des formules chimiques, décode des graphiques ou restitue du texte multilingue, le tout à partir d’une entrée ultra-condensée. Une fois les tokens visuels injectés dans le décodeur, celui-ci génère la réponse textuelle complète de façon autoregressive, token après token, exactement comme un LLM classique le ferait à partir d’un prompt textuel.

Deep Parsing, DeepSeek-OCR comprendre au-delà du texte

DeepSeek-OCR va au-delà de la simple reconnaissance optique de caractères grâce à une fonctionnalité appelée Deep Parsing. Lorsqu’on lui soumet un prompt spécifique, le modèle ne se contente plus de transcrire les mots visibles. Il analyse la structure sémantique de ce qu’il voit, puisl convertit alors ces éléments en formats structurés exploitables, comme des tableaux HTML, du Markdown, ou des notations spécialisées telles que SMILES pour les molécules.

DeepSeek-OCR peut être utilisé pour obtenir des résultats structurés à partir des graphiques présents dans les documents. Les graphiques constituent une forme essentielle de représentation des données en finance et dans les domaines scientifiques, et l’extraction structurée des graphiques est une capacité indispensable pour les futurs modèles d’OCR. Source [2]

Bien que DeepSeek-OCR soit principalement conçu pour la compression contextuelle et l’OCR avancée, les chercheurs lui ont aussi conféré une certaine capacité à comprendre des images générales, au-delà du simple texte. Comme le montre la figure ci-dessous, il sait par exemple identifier un « enseignant » dans une photo de classe, décrire les éléments d’un emballage alimentaire, ou même reconnaître une image avec un texte en chinois.

Les capacités de DeepSeek-OCR en matière de compréhension visuelle générale incluent principalement la description d’images, la détection d’objets, l’ancrage, etc. Source [2]

LLM capables de “lire” des documents entiers sans saturer leur mémoire ?

DeepSeek-OCR est une première pierre dans la construction d’une nouvelle génération de modèles de langage. En transformant le texte en une représentation visuelle compacte (via DeepEncoder), puis en le relisant avec précision grâce à un décodeur MoE, il prouve qu’il est possible de compresser jusqu’à 20 fois plus de contexte tout en conservant une grande partie de l’information. À 10× de compression, la précision atteint 97 %, même à 20×, elle reste autour de 60 %, un résultat remarquable pour un système aussi efficace.

La figure (a) montre le taux de compression) lors des tests sur le benchmark Fox, la figure (b) présente les comparaisons de performances sur OmniDocBench . DeepSeek-OCR atteint des performances de pointe parmi les modèles en utilisant le plus petit nombre de jetons visuels. Source [2]

Sur des benchmarks comme OmniDocBench, il dépasse des concurrents bien plus gourmands en tokens. C’est un changement de paradigme, où la vision devient un allié pour rendre les LLMs plus légers, plus rapides… et surtout, plus intelligents.

[1] Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). Lost in the Middle: How Language Models Use Long Contexts (arXiv preprint arXiv:2307.03172).

[2] Wei, H., Sun, Y., & Li, Y. (2025). DeepSeek-OCR: Contexts Optical Compression (arXiv preprint arXiv:2510.18234).

[3] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., Dollár, P., & Girshick, R. (2023). Segment Anything (arXiv preprint arXiv:2304.02643).

[4] Chen, H.-Y., Lai, Z., Zhang, H., Wang, X., Eichner, M., You, K., Cao, M., Zhang, B., Yang, Y., & Gan, Z. (2024). Contrastive Localized Language-Image Pre-Training (arXiv preprint arXiv:2410.02746).

Continuer la lecture

Franck da COSTA

Ingénieur en génie logiciel, j’aime transformer la complexité de l’IA et des algorithmes en savoirs accessibles. Curieux de toutes les avancées en recherche, je partage ici mes analyses, projets et idées. Je serai également ravi de collaborer sur des projets novateurs avec celles et ceux qui partagent la même passion.

Cliquez pour commenter

Algo Mania Blog

DeepSeek-OCR : Compression de contexte avec la vision 2D

Revue de Recherche

DeepSeek-OCR : Compression de contexte avec la vision 2D

Longueur du contexte d’un LLM, qu’est-ce que c’est ?

Pourquoi la longueur du contexte pose problème ?

DeepSeek introduit DeepSeek-OCR, un VLM révolutionnaire

DeepSeek a choisi l’OCR comme base de sa compression contextuelle

Architecture de DeepSeek-OCR

Encodeur DeepEncoder, le cœur de DeepSeek-OCR

DeepSeek3B-MoE, le décodeur multimodal derrière DeepSeek-OCR

Deep Parsing, DeepSeek-OCR comprendre au-delà du texte

LLM capables de “lire” des documents entiers sans saturer leur mémoire ?

Leave a Reply
Annuler la réponse

Leave a Reply

Plus en Revue de Recherche

Revue de Recherche

Qwen 3.5 : Modèles IA multimodaux open source avec architecture MoE et 201 langues

Revue de Recherche

PaperBanana : Outil pour la création de schémas scientifiques grâce à l’IA

Revue de Recherche

Qwen3 ASR : Reconnaissance vocale multilingue open source

Revue de Recherche

MedGemma 1.5 et MedASR : Google redéfinit l’IA médicale open source et multimodale

Revue de Recherche

RAG Anything : La Nouvelle Ère du RAG Multimodal

Tendance

Algorithme

Algorithme de Recherche : Dijkstra

Algorithme

Traitement de Langage Naturel (NLP) : Comment il fonctionne ?

Algorithme

Comprendre Regex : Les expressions régulère

Intelligence Artificielle

L’intelligence artificielle : Comprendre comme un pro

Intelligence Artificielle

Comprendre l’architecture Mixture of Experts (MoE)

Longueur du contexte d’un LLM, qu’est-ce que c’est ?

Pourquoi la longueur du contexte pose problème ?

DeepSeek introduit DeepSeek-OCR, un VLM révolutionnaire

DeepSeek a choisi l’OCR comme base de sa compression contextuelle

Architecture de DeepSeek-OCR

Encodeur DeepEncoder, le cœur de DeepSeek-OCR

DeepSeek3B-MoE, le décodeur multimodal derrière DeepSeek-OCR

Deep Parsing, DeepSeek-OCR comprendre au-delà du texte

LLM capables de “lire” des documents entiers sans saturer leur mémoire ?

Leave a Reply Annuler la réponse

Leave a Reply

Plus en Revue de Recherche

Revue de Recherche

Qwen 3.5 : Modèles IA multimodaux open source avec architecture MoE et 201 langues

Revue de Recherche

PaperBanana : Outil pour la création de schémas scientifiques grâce à l’IA

Revue de Recherche

Qwen3 ASR : Reconnaissance vocale multilingue open source

Revue de Recherche

MedGemma 1.5 et MedASR : Google redéfinit l’IA médicale open source et multimodale

Revue de Recherche

RAG Anything : La Nouvelle Ère du RAG Multimodal

Tendance

Algorithme

Algorithme de Recherche : Dijkstra

Algorithme

Traitement de Langage Naturel (NLP) : Comment il fonctionne ?

Algorithme

Comprendre Regex : Les expressions régulère

Intelligence Artificielle

L’intelligence artificielle : Comprendre comme un pro

Intelligence Artificielle

Comprendre l’architecture Mixture of Experts (MoE)

Leave a Reply
Annuler la réponse