
Numa abordagem que promete redefinir a forma como os grandes modelos de linguagem processam informação, a DeepSeek revelou o seu novo modelo, o DeepSeek-OCR. Em vez de alimentar o texto como uma sequência de "tokens", o método tradicional, esta nova IA converte o texto em imagens, comprimindo a informação de uma forma radicalmente mais eficiente.
O resultado desta abordagem é um aumento de eficiência que pode chegar a ser 10 vezes superior, abrindo as portas para "janelas de contexto" muito maiores. A janela de contexto define a quantidade de informação que um modelo de IA consegue analisar ativamente de uma só vez para gerar uma resposta. Esta inovação pode traduzir-se numa forma completamente nova e mais económica para as empresas aproveitarem o poder da inteligência artificial (IA).
Uma imagem vale mais que dez mil tokens?
Os testes iniciais do DeepSeek-OCR demonstram resultados impressionantes. De acordo com o artigo técnico publicado pelos investigadores, para cada 10 tokens de texto, o modelo necessita apenas de um "token de visão" para representar a mesma informação com uma precisão de 97%. Mesmo quando a compressão atinge um rácio de 20 para 1, a precisão mantém-se nos 60%. Na prática, isto significa que o modelo consegue armazenar e processar 10 vezes mais informação no mesmo espaço, tornando-o ideal para lidar com documentos longos ou para permitir que a IA compreenda conjuntos de dados massivos de uma só vez.
A investigação já captou a atenção de figuras proeminentes no mundo da IA, como Andrej Karpathy, cofundador da OpenAI, que sugeriu que todas as entradas para os modelos de linguagem poderiam, no futuro, ser imagens.
"A parte mais interessante para mim... é se os píxeis são melhores entradas para os LLMs do que o texto. [...] Talvez faça mais sentido que todas as entradas para os LLMs sejam apenas imagens. Mesmo que se tenha uma entrada de texto puro, talvez seja preferível renderizá-la e depois alimentá-la [ao modelo]", escreveu Karpathy numa publicação no X, onde destacou outras vantagens desta abordagem.
O que muda para as empresas e para o futuro da IA
Esta inovação pode ter implicações profundas na forma como as empresas utilizam a IA. Atualmente, os modelos de linguagem estão limitados pelo número de tokens que conseguem processar, mas comprimir texto em imagens poderá permitir o processamento de bases de conhecimento muito maiores. O processo é automático: o modelo da DeepSeek renderiza internamente o texto como imagens 2D, processa-as através do seu codificador de visão e trabalha com essa representação visual comprimida.
Em vez de pedir a uma ferramenta de IA para pesquisar ficheiro a ficheiro, uma empresa poderia carregar toda a sua base de dados de documentos ou o seu código-fonte completo para a "memória" da IA de uma só vez. O modelo DeepSeek-OCR está disponível publicamente e é de código aberto, o que já está a incentivar a experimentação por parte dos programadores.
"O potencial de obter um LLM de ponta com uma janela de contexto de 10 ou 20 milhões de tokens é muito empolgante", afirmou Jeffrey Emanuel, ex-investidor quantitativo. "Basicamente, poderia colocar todos os documentos internos importantes de uma empresa num preâmbulo de prompt [...] e depois apenas adicionar a sua consulta específica por cima, sem ter de lidar com ferramentas de pesquisa, mantendo a rapidez e a economia."
A pesquisa abre também portas a possibilidades intrigantes sobre como os LLMs podem armazenar informação, talvez usando representações visuais de uma forma que ecoa os "palácios de memória" humanos.
Claro que existem ressalvas. O trabalho da DeepSeek foca-se principalmente na eficiência com que os dados podem ser armazenados e reconstruídos, e não se os modelos conseguem raciocinar sobre estes tokens visuais com a mesma eficácia com que o fazem com texto. Ainda assim, a ideia de que um modelo possa processar informação de forma mais eficiente ao "ver" o texto pode ser uma mudança fundamental na forma como os sistemas de IA lidam com o conhecimento. Afinal, uma imagem pode mesmo valer mais que dez mil palavras.











Nenhum comentário
Seja o primeiro!