Skip to content

kate-kohana/VoiceToTask

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

VoiceToTask - Инструкция по запуску

Описание проекта

VoiceToTask — это голосовой помощник для быстрого создания списка задач. Вы просто произносите вслух, что нужно сделать, а приложение автоматически распознаёт речь, извлекает задачи и сохраняет их в структурированном виде. ИИ-модели выделяют приоритеты, сроки и категории, превращая голосовой поток в готовый список дел. Идеально подходит для планирования дня, ведения заметок и быстрой фиксации идей без отвлечения на набор текста.

Системные требования

  • Python 3.10+ (скачать с python.org)
  • Windows 10/11 или macOS/Linux
  • Микрофон для голосового ввода
  • Оперативная память: минимум 8 ГБ (рекомендуется 16 ГБ)
  • Свободное место: ~5 ГБ для моделей ИИ

Установка

1. Скопируйте проект

Скопируйте папку pomr в удобное место на компьютере.

2. Создайте виртуальное окружение

Откройте терминал (cmd) в папке проекта:

cd путь\к\pomr
python -m venv .venv

3. Установите зависимости

.venv\Scripts\pip install -r requirements.txt

Установка может занять 10-20 минут — библиотеки torch и llama-cpp-python объёмные.

4. Первый запуск

При первом запуске автоматически скачаются модели:

  • Whisper (~1.5 ГБ) — для распознавания речи
  • Qwen 2.5 (~3 ГБ) — для анализа задач

Использование

Запуск приложения

.venv\Scripts\python main.py

Режимы работы

🎤 Голосовой ввод

  1. Нажмите Enter для начала записи
  2. Произнесите задачи (например: "Купить молоко, срочно")
  3. Нажмите Enter для завершения
  4. ИИ автоматически извлечёт задачи и сохранит их

📁 Обработка аудиофайла

  1. Поместите аудиофайл (.wav, .mp3) в папку проекта
  2. При запуске выберите пункт 2 и укажите путь к файлу

Структура проекта

pomr/
├── main.py              # Главный файл запуска
├── requirements.txt    # Зависимости
├── src/
│   ├── audio_input.py       # Запись с микрофона
│   ├── whisper_transcriber.py  # Распознавание речи
│   ├── llm_analyzer.py     # Анализ ИИ
│   ├── task_parser.py      # Парсинг задач
│   └── output_manager.py   # Сохранение результатов
├── models/              # Папка для ИИ-моделей
├── output/              # Результаты (.json файлы)
└── temp_audio/          # Временные аудиозаписи

Возможные проблемы

Ошибка "Module not found"

.venv\Scripts\pip install -r requirements.txt

Ошибка с CUDA/GPU

Приложение автоматически использует CPU, если GPU недоступен. Это нормально, но медленнее.

Долгая загрузка моделей

При первом запуске модели скачиваются из интернета. Убедитесь в стабильном соединении.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages