ứng dụng web giúp người dùng nhanh chóng chuyển đổi giọng nói thành văn bản bằng cách sử dụng mô hình Whisper của OpenAI chạy cục bộ. Ứng dụng hỗ trợ cả tiếng Anh và tiếng Việt.
- Ghi âm từ web trên màn hình laptop
- Chuyển đổi sang văn bản bằng mô hình Whisper của OpenAI (audio và transcript được lưu ở backend\storage theo định dạng YYYY-MM-DD (ví dụ: 2025-05-10))
- Hỗ trợ tiếng Anh và tiếng Việt
- Chọn các kích thước mô hình Whisper khác nhau để cân bằng giữa độ chính xác và tốc độ
- Tự động lưu các bản ghi âm và bản chuyển đổi trong cấu trúc thư mục có tổ chức
- Sao chép bản chuyển đổi vào clipboard chỉ với một cú nhấp chuột
- RAM và sức mạnh xử lý đủ để chạy các mô hình Whisper:
- Đề xuất: 16GB RAM, GPU hỗ trợ CUDA (cho các mô hình trung bình/lớn)
- Tối thiểu: 8GB RAM (cho các mô hình nhỏ/cơ bản)
-
Sao chép kho lưu trữ này:
git clone <repository-url> cd speech-to-text-app -
Tạo một môi trường ảo Python và kích hoạt nó:
python -m venv venv # Trên Windows venv\Scripts\activate # Trên macOS/Linux source venv/bin/activate -
Cài đặt các gói Python cần thiết:
pip install -r backend/requirements.txt -
tải ffmpeg về hệ thống:
# on Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # on Arch Linux sudo pacman -S ffmpeg # on MacOS using Homebrew (https://brew.sh/) brew install ffmpeg # on Windows using Chocolatey (https://chocolatey.org/) choco install ffmpeg # on Windows using Scoop (https://scoop.sh/) scoop install ffmpeg -
Khởi động ứng dụng:
python backend/main.py -
Mở trình duyệt web của bạn và điều hướng đến:
http://localhost:8000/app/
speech-to-text-app/
├── backend/ # Backend Python FastAPI
│ ├── main.py # Ứng dụng FastAPI chính
│ ├── transcription.py # Mô-đun chuyển đổi Whisper
│ └── requirements.txt # Các phụ thuộc Python
├── frontend/ # Giao diện web
│ ├── index.html # Trang HTML chính
│ ├── css/ # Các kiểu CSS
│ │ └── style.css
│ └── js/ # JavaScript
│ └── app.js
├── storage/ # Lưu trữ bản ghi âm và bản chuyển đổi
│ └── YYYY-MM-DD/ # Thư mục theo ngày
│ └── HHMMSS/ # Thư mục theo phiên
│ ├── audio.webm # Ghi âm
│ └── transcription.txt # Văn bản chuyển đổi
└── README.md # Tài liệu dự án
- Backend: Python với FastAPI
- Frontend: HTML, CSS, JavaScript
- Chuyển Đổi Giọng Nói Thành Văn Bản: Mô hình Whisper của OpenAI (chạy cục bộ)
- Lưu Trữ Dữ Liệu: Hệ thống tệp cục bộ với cấu trúc thư mục có tổ chức
