LLM的响应是逐步生成的 (token by token)。为了获得更快的首包时间和更好的用户体验,服务端可以通过 Server-Sent Events (SSE) 或 WebSocket 将生成的文本块 (chunk) 流式传输给前端。
前端接收到这些文本块后,逐步累加并渲染到界面上,模拟打字机效果。