Projetando para Latência: Quando a Velocidade da IA se Torna Experiência do Usuário
Um guia prático para projetar soluções que minimizem a latência da IA. Texto em fluxo contínuo, interfaces de usuário otimistas, divulgação progressiva, superfícies de raciocínio e agentes em segundo plano, com análises detalhadas de Claude.ai, Cursor, IA de Linear, Granola e Perplexity. Além dos cálculos da velocidade percebida.

A latência da IA é o problema de UX mais importante em produtos de IA e quase ninguém a trata como parte do trabalho de design. As equipes que entregam as melhores experiências de IA pararam de esperar por modelos mais rápidos e começaram a projetar levando em conta a espera.
Este é o guia. A matemática da velocidade percebida, os cinco padrões que funcionam, os quatro que falham, cinco análises detalhadas e uma lista de verificação pré-lançamento.
A latência da IA é um problema de design, não de engenharia
A maioria dos produtos de IA parece lenta porque trata a latência como um problema da engenharia. A engenharia entrega um modelo mais rápido e o produto ainda parece lento, porque o gargalo nunca foram os milissegundos. Foi a escolha de design que deixou o usuário olhando para um indicador de carregamento sem nada para ler.
O usuário não mede milissegundos. O usuário mede se algo está acontecendo. Quatro segundos de texto fluindo são lidos como rápidos. 1,5 segundo de atraso em um modal é lido como quebrado.
A matemática da velocidade percebida
Uma resposta de quatro segundos que flui é lida como rápida. Uma resposta de 1,5 segundos que bloqueia a leitura é considerada lenta. A velocidade percebida está relacionada à densidade de feedback, não ao tempo decorrido. Esse simples fato altera todas as decisões de latência em um produto de IA.

Os números que importam são o tempo até o primeiro token e os tokens por segundo, não o tempo total de resposta. Menos de 500 milissegundos até o primeiro token parece instantâneo. De 30 a 80 tokens por segundo são lidos na velocidade humana. Um orçamento total de cinco segundos é tolerável quando o fluxo começa com o primeiro token e inaceitável quando há bloqueio. Projete levando em consideração esses números e um modelo mais lento pode parecer mais rápido que a concorrência.
Os cinco padrões que funcionam
Texto em fluxo contínuo. Interface de usuário otimista. Divulgação progressiva. Superfícies de raciocínio. Agentes em segundo plano. Todo produto de IA lançado que se destaca em velocidade percebida se baseia em pelo menos três desses padrões, e os excelentes se baseiam nos cinco.
Os cinco se complementam. O texto em fluxo contínuo oferece ao usuário algo para ler. A interface de usuário otimista oferece algo para ver. A divulgação progressiva oferece algo para o usuário analisar. As interfaces de raciocínio fornecem algo em que confiar. Os agentes em segundo plano oferecem algo mais para fazer. Combinados, o modelo leva dez segundos e o produto ainda parece dinâmico.
O texto em fluxo contínuo transforma a espera em resposta
O primeiro padrão é a renderização token por token. O usuário lê enquanto o modelo escreve e a espera desaparece na saída. O tempo até o primeiro token se torna o único número que importa. Assim que o primeiro token chega, o usuário está lendo, não esperando.
O fluxo contínuo da Claude.ai é o exemplo mais limpo já lançado. O primeiro token chega em menos de um segundo e o restante é exibido em cascata na velocidade de leitura. O usuário está no meio da primeira frase do primeiro parágrafo antes que o modelo termine o segundo. O mesmo modelo, entregue como um bloco finalizado após quatro segundos, pareceria um produto diferente.
A interface otimista confirma a ação antes do modelo retornar
O segundo padrão é mostrar o resultado antes que o modelo termine e, em seguida, reconciliar quando a resposta chegar. O usuário não precisa da resposta correta ainda. Ele precisa que ela seja confirmada.

Linear A IA faz isso ao aceitar uma sugestão. O resultado é exibido imediatamente na issue com um estado de pendente discreto, e a reconciliação ocorre em segundo plano. Se o modelo chegar a um resultado diferente, a interface do usuário é atualizada instantaneamente. Se falhar, a interface reverte e exibe o erro. O usuário continua navegando de qualquer maneira.
Divulgação progressiva apresenta esqueleto, rascunho e versão final
O terceiro padrão é: primeiro o esqueleto, depois o rascunho parcial e, por último, a versão final. A estrutura é apresentada antes do conteúdo, o que reduz a sensação de espera, dando ao olhar algo para acompanhar.
A versão 0 apresenta isso em sua interface de prompt para aplicativo. Um esqueleto de layout aparece quase imediatamente, os componentes são preenchidos à medida que o modelo os gera e a pré-visualização estilizada final é exibida por último. O Lovable segue a mesma estratégia. Cada etapa é um ponto de verificação que o usuário pode ler enquanto a próxima é carregada.
Superfícies de raciocínio convertem tempo de espera em confiança
O quarto padrão consiste em mostrar o plano ou o processo de pensamento do modelo enquanto ele trabalha. Observar um agente raciocinar é muito melhor do que observar um indicador de carregamento. Isso também gera confiança, pois o usuário vê o que o modelo está tentando fazer antes mesmo de fazê-lo.
O modo agente do Cursor inclui uma superfície de plano. O usuário vê as etapas pretendidas antes da execução do primeiro comando. ChatGPT exibe os rastros de raciocínio dos modelos, com resumos de pensamento recolhíveis que se assemelham a um texto estruturado. Quinze segundos de raciocínio visível são melhores do que três segundos de caixa preta.
Agentes em segundo plano permitem que os usuários continuem trabalhando enquanto o modelo é executado
O quinto padrão consiste em mover o agente do primeiro plano para um painel lateral. O usuário nunca é bloqueado por uma única solicitação da IA. O agente é executado em um canto enquanto o usuário continua escrevendo, programando ou criando designs na tela principal.
Os agentes em segundo plano do Cursor são a versão mais limpa já lançada. O usuário inicia uma tarefa longa e continua editando em primeiro plano enquanto o agente trabalha em um painel lateral. O agente de codificação do GitHub Copilot faz o mesmo com tarefas no formato de pull requests. Esse padrão só funciona se o usuário tiver algo mais para fazer e, em qualquer fluxo de trabalho real, ele sempre tem.
Os quatro padrões que falham
A maioria dos produtos de IA que parecem lentos utiliza alguma combinação dos quatro padrões que falham. Apenas indicadores de carregamento. Loops de texto repetitivos. Diálogos modais bloqueando a execução. Nenhum sinal de progresso. Cada um deles reduz a velocidade percebida, mesmo quando a resposta é rápida.
Indicadores de carregamento escondem tudo o que o usuário precisa
Um indicador de carregamento sem sinal de progresso é uma caixa preta. O usuário não tem nada a que se concentrar e a espera parece mais lenta do que a mesma espera com um fluxo de tokens. Um indicador de carregamento diz ao usuário para desviar o olhar, o que é o oposto do que uma interface de IA deveria fazer.
Remova o indicador de carregamento. Utilize um fluxo de tokens, um esqueleto ou um rastreamento de raciocínio. Se a resposta for muito curta para ser transmitida em fluxo contínuo, envie um estado otimista. Se o modelo estiver realizando trabalho invisível, envie uma linha de status que o nomeie.
Loops de texto "Pensando" são ruído sem informação
Um loop de texto "Pensando" rotativo é pior do que um indicador de carregamento. Ele implica um progresso inexistente. Os usuários aprendem em duas sessões a ignorá-lo, o que prejudica a transmissão de qualquer status real que a interface possa enviar em seguida.

Substitua o loop por um status real. Buscando em três fontes. Lendo arquivo. Elaborando resposta. A linha de status é informação. O loop é ruído fingindo ser informação.
Diálogos modais que bloqueiam a interface transformam esperas em barreiras
Um modal que bloqueia o restante da interface enquanto o modelo é executado é o erro de latência mais custoso. Ele transforma uma espera em uma situação de refém. O usuário não pode rolar a tela, copiar uma resposta anterior, nem fazer qualquer outra coisa.
Exclua o modal. Envie a resposta diretamente na interface, em um painel lateral ou em uma notificação pop-up não bloqueante. O usuário nunca deve perder o acesso ao restante do produto porque uma solicitação de IA está em andamento.
A ausência de sinal de progresso leva o usuário a desistir
Uma interface de IA sem sinal de progresso leva o usuário a presumir que a solicitação falhou. Ele clica no botão Voltar antes da resposta chegar. No pior dos casos, ele atualiza a página e perde a solicitação.
Toda interface de IA que leva mais de 500 milissegundos precisa de um sinal de progresso. Texto em fluxo contínuo é a melhor opção. Um esboço é a segunda melhor. Um rastreamento de raciocínio funciona para esperas mais longas. Uma linha de status funciona para todas as outras situações. O sinal precisa existir.
Cinco exemplos reais de desmontagem de produtos
Cinco interfaces de IA que transformam latência em experiência do usuário.
Claude.ai, streaming como toda a interação
O streaming do Claude.ai é o exemplo mais claro de latência como recurso. O tempo até o primeiro token fica bem abaixo de um segundo em uma sessão ativa, o texto é exibido na velocidade de leitura e a espera desaparece na saída. A estratégia de design consiste em se comprometer totalmente com o fluxo de dados. Sem indicador de carregamento, sem texto explicativo, sem estrutura básica, apenas a resposta chegando um token por vez. O produto parece rápido durante os primeiros vinte segundos de geração porque o usuário passou dezenove segundos lendo.
Cursor, o loop de planejamento e execução
O Cursor transforma latência em confiança, mostrando primeiro o plano do agente, executando cada etapa com progresso visível e confirmando as diferenças à medida que são recebidas. Uma tarefa de vários minutos parece ter um propósito, pois o usuário pode ler o plano, observar cada etapa e revisar cada diferença conforme ela é confirmada.
A estratégia de design consiste em priorizar a espera. Planejar primeiro. Cada etapa como um ponto de verificação. Diferenças como saída final. Cada camada carrega informações, de modo que o usuário nunca fica olhando para uma caixa preta, mesmo que a tarefa seja executada por minutos.
⟦MARCA1⟧ IA, divulgação progressiva embutida
⟦MARCA2⟧ A IA implementa a divulgação progressiva dentro das superfícies existentes. A IA nunca controla o primeiro plano. Uma sugestão preliminar aparece diretamente no problema. Um resumo aparece diretamente no projeto. A espera nunca bloqueia o trabalho real do usuário, pois ele já está realizando o trabalho que a IA está aprimorando.
IA incorporada em um produto que o usuário já conhece nunca deve ser um modal ou uma intervenção repentina. A divulgação direta é o padrão correto, e o custo de latência fica oculto nas ações que o usuário já está realizando.
Deseja um produto de IA que pareça rápido mesmo quando o modelo é lento? Contrate ⟦MARCA0⟧. O UXBrainy oferece auditorias de latência e reformulações de interfaces de usuário para streaming, o AppBrainy oferece entrega completa de produtos de IA e o ClaudeBrainy oferece a camada de prompts e Skills que torna o streaming barato. Combine-o com padrões de design de interface do usuário para agentes de IA para que a camada de agentes seja entregue com o mesmo nível de qualidade.
Granola, a cascata de gravação para resumo
O Granola oculta minutos de trabalho do modelo por trás de uma cascata de quatro estágios. A gravação chega primeiro como forma de onda bruta. A transcrição chega em segundo lugar como texto rolável. As anotações preliminares aparecem em terceiro lugar, em formato de tópicos. O resumo final aparece por último, em prosa polida. Cada etapa é útil antes que a próxima esteja pronta.
Três minutos de trabalho com o modelo parecem trinta segundos porque o primeiro artefato útil aparece em menos de dez. A transcrição é valiosa por si só. As anotações são valiosas por si só. O resumo completa a experiência sem limitar o valor.
⟦MARCA3⟧, transmissão de fontes ao vivo
⟦MARCA4⟧ transmite suas fontes antes da resposta. A lista de citações aparece primeiro, sendo preenchida à medida que o modelo recupera e classifica cada fonte. A resposta é transmitida abaixo, enquanto o usuário já está lendo as fontes. A espera é percebida como pesquisa, não como carregamento.
A estratégia de design consiste em mostrar o trabalho antes do resultado. Um usuário que lê uma lista de fontes não está esperando. O mesmo tempo total de resposta, com as fontes ocultas até que a resposta esteja pronta, pareceria duas a três vezes mais lento. A densidade de informações da espera é toda a história da velocidade percebida.
Lista de verificação de latência pré-lançamento
Execute esta lista em qualquer interface de IA antes do lançamento. Doze verificações, todas mensuráveis.
-
Tempo até o primeiro token inferior a 500 milissegundos em uma sessão ativa.
-
O streaming mantém de 30 a 80 tokens por segundo no modelo alvo.
-
Toda espera superior a 500 milissegundos possui um sinal de progresso.
-
Nenhum indicador de carregamento (spinner) em qualquer lugar na interface de IA.
-
Nenhum loop de texto "Pensando" (Thinking) rotativo em qualquer lugar na interface de IA.
-
Nenhum diálogo modal bloqueando a execução do modelo.
-
A interface de usuário otimista executa a ação visível em até 100 milissegundos após a intenção.
-
Os esqueletos são renderizados antes do conteúdo para qualquer resposta com duração superior a dois segundos.
-
Os rastreamentos de raciocínio são expostos para qualquer tarefa com duração superior a dez segundos.
-
Os agentes de longa duração são executados em um painel lateral, não em primeiro plano.
-
O usuário pode rolar, copiar e ler a saída anterior enquanto uma solicitação está em andamento.
-
Cada resposta em várias etapas revela estágios intermediários que o usuário pode consumir.
A lista reside no modelo de revisão de design e fica mais rápida a cada execução.
Perguntas frequentes
Qual é o número de latência mais importante em um produto de IA?
Tempo até o primeiro token. O tempo total de resposta importa menos do que quanto tempo o usuário espera antes de ter algo para ler. Menos de 500 milissegundos é considerado instantâneo.
O streaming é sempre melhor do que o bloqueio?
Para texto, sim. Menos de 500 milissegundos, o bloqueio é aceitável porque a espera é invisível. Para qualquer tempo maior, o streaming supera o bloqueio em todas as métricas de velocidade percebida.
Quando devo usar a interface otimista em vez do streaming?
Streaming quando a saída é a resposta, como prosa, código ou geração estruturada. Interface otimista quando o modelo está tomando uma decisão que o usuário já espera, como um rascunho refinado ou uma sugestão aceita. Os dois se complementam.
Como mostrar o progresso de um agente que leva minutos?
Superfícies de raciocínio e fluxos de progresso no painel lateral. Mostre o plano primeiro, a etapa ativa em segundo lugar e a saída em execução em terceiro. O usuário lê o plano, observa as etapas avançarem e nunca se sente bloqueado.
Qual é o pior erro de latência em produtos de IA hoje?
O modal bloqueador com um indicador de carregamento. Ele combina todos os quatro padrões problemáticos em uma única tela e ensina ao usuário que IA é algo que precisa ser esperado, não algo que possa ser usado.
A mudança que o design para latência de IA realmente desbloqueia
Projetar para latência de IA não é uma solução paliativa para modelos lentos. É a estratégia de design que permite que um modelo mais lento, porém melhor, supere um modelo mais rápido, porém pior, em todas as métricas que o usuário realmente considera importantes.
As equipes que estão vencendo atualmente pararam de otimizar para velocidade bruta e começaram a projetar para velocidade percebida. Eles se comprometeram com o streaming, adicionaram uma interface de usuário otimista, criaram esqueletos de 200 ms e moveram os agentes para painéis laterais. Cada espera carrega informações.
Se sua interface de IA ainda apresenta um indicador de carregamento, um loop de "Pensando" ou um modal bloqueador, o gargalo não está no modelo, mas sim no design. Combine o trabalho com padrões de design de interface do usuário para agentes de IA, o playbook integração de produtos de IA, Design de produto nativo de IA e hierarquia visual para manter cada etapa facilmente compreensível.
Se você deseja um produto de IA que pareça rápido mesmo quando o modelo estiver lento, contratar ⟦MARCA0⟧. A UXBrainy oferece auditorias de latência e reformulações de interfaces de usuário para streaming, a AppBrainy oferece entrega completa de produtos de IA e a ClaudeBrainy oferece a camada de prompts e habilidades que torna o streaming acessível.
Want an AI product that feels fast even when the model is slow? Brainy ships UXBrainy as latency audits and streaming UI redesigns, AppBrainy as full AI product delivery, and ClaudeBrainy as the prompt and Skill layer that makes streaming and reasoning surfaces cheap to build.
Get Started

