多模态

LinkZone 支持多模态 AI 交互，包括图片理解、音频处理和视频分析。

配置

json

{
  "multimodal": {
    "enabled": true,
    "enable_image": true,
    "enable_audio": true,
    "enable_video": false,
    "image_model": "",
    "max_image_size": 5120,
    "image_wait_seconds": 3
  }
}

图片理解

启用后，用户发送图片时智能体可以理解图片内容：

图片描述：描述图片内容
OCR：识别图片中的文字
图片分析：分析图表、截图等
视觉问答：基于图片内容回答问题

音频处理

语音识别：小智适配器内置 ASR（阿里云语音服务）
语音合成：智能体回复可通过 TTS 转换为语音

支持的模型

多模态功能需要使用支持视觉/音频的模型：

模型	图片	音频
GPT-4o	✅	✅
Claude 3.5 Sonnet	✅	❌
Gemini Pro Vision	✅	✅
Qwen-VL	✅	❌

多模态 ​

配置 ​

图片理解 ​

音频处理 ​

支持的模型 ​

多模态

配置

图片理解

音频处理

支持的模型