一個革命性的語音驅動指令介面,將自然語言直接轉換為系統指令執行。
🎙️ Whisper (語音輸入) → 🧠 AI Shell (自然語言轉指令) → 🔊 XTTS (語音回覆)
- 🎤 高精度語音輸入 - 使用 OpenAI Whisper 進行語音識別
- 🧠 智能指令解析 - 創新的自然語言到系統指令轉換
- 🔊 自然語音回饋 - 使用 XTTS 提供高品質語音合成
- ⚡ 即時指令執行 - 快速響應並執行系統操作
- 🛡️ 安全指令過濾 - 多層安全檢查防止危險操作
- 🌍 多語言支援 - 支援中文、英文等多種語言
Windows
# 運行自動設置腳本
.\setup_env.batLinux/macOS
# 給腳本執行權限並運行
chmod +x setup_env.sh
./setup_env.shWindows PowerShell
# 建立虛擬環境
python -m venv voice_ai_env
# 啟動虛擬環境
.\voice_ai_env\Scripts\Activate.ps1
# 升級 pip
python -m pip install --upgrade pipLinux/macOS
# 建立虛擬環境
python -m venv voice_ai_env
# 啟動虛擬環境
source voice_ai_env/bin/activate
# 升級 pip
pip install --upgrade pippip install -r requirements.txt# 使用基礎需求檔案
pip install -r requirements-basic.txt注意:
- TTS 套件目前不支援 Python 3.12,使用備用語音引擎 pyttsx3
- 部分 NumPy 版本衝突警告不影響核心功能
- 建議使用
full_demo.py體驗完整功能
注意:確保虛擬環境已啟動(終端機提示符前會顯示 (voice_ai_env))
python full_demo.py- ✅ 使用文字輸入模擬語音
- ✅ 完整的 AI 解析 + 指令執行 + 語音回饋
- ✅ 所有核心功能都可體驗
python test_system.pypython simple_test.py在虛擬環境中運行程式後:
- 輸入自然語言指令,如:"建立一個叫做項目的資料夾"
- 輸入 'help' 查看更多指令範例
- 輸入 'test' 測試語音功能
- 輸入 'exit' 退出程式
結束後停用虛擬環境:
deactivate在 full_demo.py 中可以測試這些指令:
🔧 系統指令:
建立一個叫做測試的資料夾
顯示當前目錄的檔案
檢查系統磁碟使用情況
現在是什麼時間
📁 檔案操作:
列出所有的文字檔案
顯示資料夾大小
複製檔案到桌面
🆘 特殊指令:
help - 顯示所有可用指令
test - 測試語音功能
exit - 退出程式
- "建立一個叫做項目文檔的資料夾"
- "顯示目前資料夾的所有檔案"
- "複製這個檔案到桌面"
- "移動檔案到另一個資料夾"
- "檢查磁碟使用情況"
- "顯示系統資訊"
- "目前在哪個目錄"
- "現在是什麼時間"
- "尋找所有的文字檔案"
- "列出最近修改的檔案"
- "顯示資料夾大小"
- 指令白名單 - 僅允許安全的系統指令
- 危險指令阻擋 - 自動識別並阻止危險操作
- 參數檢查 - 檢查指令參數是否包含危險模式
- 執行確認 - 重要操作需要確認
Voice_AI_Shell/
├── main.py # 主程式入口
├── whisper_input.py # Whisper 語音輸入模組
├── ai_command_parser.py # AI 指令解析核心
├── command_executor.py # 系統指令執行器
├── xtts_output.py # XTTS 語音輸出模組
├── config.py # 設定檔
├── full_demo.py # 完整功能演示版
├── simple_test.py # 簡單測試腳本
├── test_system.py # 系統驗證工具
├── requirements.txt # 完整依賴套件
├── requirements-basic.txt # 基礎依賴套件 (Python 3.12)
├── setup_env.bat # Windows 虛擬環境設置腳本
├── setup_env.sh # Linux/macOS 虛擬環境設置腳本
├── README.md # 說明文件
└── temp/ # 臨時檔案目錄
編輯 config.py 可自訂各種參數:
# Whisper 設定
WHISPER_MODEL = "base" # 模型大小
RECORD_DURATION = 5 # 錄音時長
# XTTS 設定
XTTS_SPEAKER = "zh-cn-female-1" # 語音說話者
# 安全設定
ENABLE_SAFETY_CHECK = True # 啟用安全檢查A: 虛擬環境可以:
- 避免與系統 Python 套件衝突
- 隔離專案依賴,防止版本衝突
- 讓專案更穩定和可重現
- 方便管理不同專案的依賴
A: 終端機提示符前會顯示 (voice_ai_env),如:
(voice_ai_env) PS F:\VS_PJ\Python\Voice_AI_Shell>
A: 執行以下命令允許腳本執行:
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUserA: TTS 不支援 Python 3.12,使用基礎安裝方法:
pip install -r requirements-basic.txt系統會自動使用 pyttsx3 作為備用語音引擎。
A: 確保有足夠的記憶體和網路連線下載模型。
A: 系統會自動切換到備用 TTS 引擎(pyttsx3)。
A: 檢查麥克風權限和音訊設備設定。
A: 檢查指令是否在安全白名單中,查看日誌了解詳細錯誤。
A: 出現 "A module that was compiled using NumPy 1.x cannot be run in NumPy 2.2.6" 警告時:
# 降級 NumPy 到 1.x 版本(可選)
pip install "numpy<2.0"
# 或者忽略警告,不影響核心功能這些警告不影響核心功能,程式仍能正常運行。
A: 檢查:
- 確保在正確的目錄下運行
- 嘗試使用
py full_demo.py而不是python full_demo.py - 查看終端是否有錯誤訊息
- Python: 3.9+ (推薦 3.9-3.11 完整功能,3.12 基礎功能)
- 記憶體: 4GB RAM
- 儲存: 5GB 可用空間
- 音訊: 麥克風和喇叭
- Python: 3.9-3.11 (完整 XTTS 支援)
- 記憶體: 8GB+ RAM
- GPU: NVIDIA GPU(加速語音處理)
- 網路: 穩定網路連線(初次下載模型)
- Python 3.12: 支援基礎功能,使用 pyttsx3 替代 XTTS
- Python 3.9-3.11: 完整功能支援,包含 XTTS 高品質語音合成
- ✅ 基礎語音輸入和指令執行
- ✅ 安全指令過濾
- ✅ XTTS 語音合成
- 🔄 更多指令類型支援
- 🔄 學習模式(記住常用指令)
- 🔄 指令歷史和復原
- 🔄 GUI 介面選項
- 🔄 雲端 AI 整合選項
- 🔄 多使用者支援
- 🔄 插件系統
- 🔄 跨平台支援
歡迎提交 Issues 和 Pull Requests!
- Fork 專案
- 建立功能分支
- 提交變更
- 發起 Pull Request
MIT License - 詳見 LICENSE 檔案
- OpenAI Whisper - 語音識別
- Coqui TTS - 語音合成
- PyAudio - 音訊處理
⭐ 如果這個專案對您有幫助,請給我們一個星星!