online服务调用
基于科讯飞麦克风实现声音文件的录制
asr技术
- 百度
- 科大讯飞
llm技术
- deepseek
- google gemini
- 百度千帆
- deepseek官方在线服务
- deepseek HIVEBOX 本地化部署70b服务
tts技术
- 百度
- 科大讯飞
修改记录
2025-03-07
1.支持调用百度云智能,科大讯飞在线服务完成文字转语音
2.支持调用百度云智能,科大讯飞在线服务完成语音转文字
3.支持自定义唤醒词
4.支持VAD声音活性检测自动停止
5.支持控制摄像头拍摄照片
2025-03-07
1.支持连续指令输入
2.支持超时5分钟进入休眠状态,需唤醒词唤醒
3.麦克风的工作模式从“单次唤醒-单次对话-休眠” 优化为 “单次唤醒-多次对话-定时休眠”
2025-03-10
1.支持控制机器人回到零位
2025-03-12
1.支持socket协议发布字符串数据,目前端口3377
2025-05-14
1.支持通过参数设置单次唤醒单次对话还是单次唤醒多次对话
2025-03-18
1.支持闲聊功能
2.修复百度千问回复json解析异常
3.支持调用lerobot服务
2025-03-20
1.支持LLM调用本地部署的deepseek70b服务
2.支持LLM动作指令预处理“叠毛巾”
3.支持打断功能
2025-03-24
1.增加音频流管理,补充任务打断功能
2.调整lerobot框架控制功能包名称及其控制逻辑
2025-03-31
1.支持google最新模型gemini-2.5-pro-exp-03-25
2025-04-01
1.支持离线调用ASR 和 LLM 以及 TTS服务