Skip to content

loveAtFirstSightA/asr_llm_tts_ros2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

31 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

asr_llm_tts_ros2

online服务调用

基于科讯飞麦克风实现声音文件的录制

asr技术

  1. 百度
  2. 科大讯飞

llm技术

  1. deepseek
  2. google gemini
  3. 百度千帆
  4. deepseek官方在线服务
  5. deepseek HIVEBOX 本地化部署70b服务

tts技术

  1. 百度
  2. 科大讯飞

修改记录
2025-03-07
1.支持调用百度云智能,科大讯飞在线服务完成文字转语音
2.支持调用百度云智能,科大讯飞在线服务完成语音转文字
3.支持自定义唤醒词
4.支持VAD声音活性检测自动停止
5.支持控制摄像头拍摄照片

2025-03-07
1.支持连续指令输入
2.支持超时5分钟进入休眠状态,需唤醒词唤醒
3.麦克风的工作模式从“单次唤醒-单次对话-休眠” 优化为 “单次唤醒-多次对话-定时休眠”

2025-03-10
1.支持控制机器人回到零位

2025-03-12
1.支持socket协议发布字符串数据,目前端口3377

2025-05-14
1.支持通过参数设置单次唤醒单次对话还是单次唤醒多次对话

2025-03-18
1.支持闲聊功能
2.修复百度千问回复json解析异常
3.支持调用lerobot服务

2025-03-20
1.支持LLM调用本地部署的deepseek70b服务
2.支持LLM动作指令预处理“叠毛巾”
3.支持打断功能

2025-03-24
1.增加音频流管理,补充任务打断功能
2.调整lerobot框架控制功能包名称及其控制逻辑

2025-03-31
1.支持google最新模型gemini-2.5-pro-exp-03-25

2025-04-01
1.支持离线调用ASR 和 LLM 以及 TTS服务

About

声音转文字,调用大语言模型完成动作编排,然后文字转声音

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published