Trang chủ/Giọng nói và Phiên âm

🎙️

Giọng nói và Phiên âm

(71)

🎖️Nổi bật

41,621

Mcporter

Mcporter: Sử dụng CLI mcporter để liệt kê, cấu hình, xác thực và gọi các máy chủ/công cụ MCP trực tiếp (HTTP hoặc stdio), bao gồm máy chủ tạm thời, chỉnh sửa cấu hình và tạo CLI/thuộc tính.

🎙️Giọng nói và Phiên âm/mcporter

🎖️Nổi bật

31,978

OpenClaw YouTube Transcript

OpenClaw YouTube Transcript: Chép lại video YouTube thành văn bản bằng cách trích xuất chú thích và phụ đề trực tiếp từ URL video sử dụng yt-dlp mà không cần xử lý âm thanh.

🎙️Giọng nói và Phiên âm/openclaw-youtube-transcript

🎖️Nổi bật

18,448

Sag

Sag: Công cụ text-to-speech của ElevenLabs với giao diện nói theo phong cách macOS.

🎙️Giọng nói và Phiên âm/sag

🎖️Nổi bật

15,590

YouTube Transcript

Dịch vụ bản dịch YouTube: Lấy và tóm tắt bản dịch video YouTube. Sử dụng khi được yêu cầu tóm tắt, ghi chép hoặc trích xuất nội dung từ video YouTube. Xử lý việc lấy bản dịch thông qua proxy IP dân cư để tránh chặn IP đám mây của YouTube.

🎙️Giọng nói và Phiên âm/youtube-transcript

Local Whisper

Whisper địa phương: Giao tiếp nói thành văn bản địa phương sử dụng OpenAI Whisper. Chạy hoàn toàn ngoại tuyến sau khi tải xuống mô hình. Ghi lại chất lượng cao với nhiều kích thước mô hình khác nhau.

🎙️Giọng nói và Phiên âm/local-whisper

elevenlabs-voices

Tạo giọng nói chất lượng cao với 18 nhân vật, 32.

🎙️Giọng nói và Phiên âm/elevenlabs-voices

faster-whisper

Ngôn ngữ nói địa phương sử dụng faster-whisper

🎙️Giọng nói và Phiên âm/faster-whisper

elevenlabs-tts

TTS của ElevenLabs - bộ tích hợp tốt nhất của ElevenLabs cho OpenClaw.

🎙️Giọng nói và Phiên âm/elevenlabs-tts

Voice Transcribe

Ghi lại giọng nói: Ghi lại tệp âm thanh sử dụng mô hình gpt-4o-mini-transcribe của OpenAI với gợi ý từ vựng và thay thế văn bản. Yêu cầu uv (https://docs.astral.sh/uv/).

🎙️Giọng nói và Phiên âm/voice-transcribe

jarvis-voice

Người mẫu giọng AI kim loại với TTS và phong cách bản dịch hình ảnh.

🎙️Giọng nói và Phiên âm/jarvis-voice

kokoro-tts

Tạo âm thanh nói từ văn bản sử dụng động cơ TTS địa phương Kokoro.

🎙️Giọng nói và Phiên âm/kokoro-tts

ElevenLabs Speech-to-Text

Ghi lại tệp âm thanh sử dụng ElevenLabs Speech-to-Text (Scribe v2)

🎙️Giọng nói và Phiên âm/elevenlabs-stt

Mlx Whisper

Mlx Whisper: Ngôn ngữ nói thành văn bản địa phương với Mlx Whisper (tối ưu hóa cho Apple Silicon, không cần API key)

🎙️Giọng nói và Phiên âm/mlx-whisper

Transcribe audio files via OpenRouter using audio-capable models

Chép lại tệp âm thanh thông qua OpenRouter bằng các mô hình có khả năng xử lý âm thanh: Chép lại tệp âm thanh thông qua OpenRouter bằng các mô hình có khả năng xử lý âm thanh (Gemini, GPT-4o-audio, v.v.)

🎙️Giọng nói và Phiên âm/openrouter-transcribe

Gemini STT

Chép ghi âm tệp âm thanh bằng API Gemini của Google hoặc Vertex AI

🎙️Giọng nói và Phiên âm/gemini-stt

Tts

Chuyển đổi văn bản thành giọng nói bằng API Hume AI (hoặc OpenAI). Sử dụng khi người dùng yêu cầu tin nhắn âm thanh, phản hồi bằng giọng nói hoặc để nghe điều gì đó 'của vive voix'.

🎙️Giọng nói và Phiên âm/tts

Local Whisper

Nói toại địa: Miễn phí dịch nói thành văn bản địa phương cho Telegram và WhatsApp bằng MLX Whisper trên Apple Silicon. Riêng tư, không có chi phí API.

🎙️Giọng nói và Phiên âm/whisper-mlx-local

Transcribe

Chép lại: Chép lại tệp âm thanh thành văn bản sử dụng Whisper (Docker) cục bộ. Sử dụng khi nhận tin nhắn giọng nói, tệp âm thanh (.mp3, .m4a, .ogg, .wav, .webm), hoặc khi được yêu cầu chép lại nội dung âm thanh.

🎙️Giọng nói và Phiên âm/transcribe

assemblyai-transcribe

Ghi lại âm thanh/video bằng AssemblyAI

🎙️Giọng nói và Phiên âm/assemblyai-transcribe

elevenlabs-agents

Tạo, quản lý và triển khai ElevenLabs.

🎙️Giọng nói và Phiên âm/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

STT cục bộ (Nvidia Parakeet + Whisper Support): STT cục bộ với khả năng chọn backend - Parakeet (tính chính xác cao nhất) hoặc Whisper (nhanh nhất, đa ngôn ngữ).

🎙️Giọng nói và Phiên âm/local-stt

audio-gen

Tạo sách nói, podcast hoặc nội dung âm thanh giáo dục

🎙️Giọng nói và Phiên âm/audio-gen

critical-article-writer

Tạo bản nháp bài viết và tóm tắt.

🎙️Giọng nói và Phiên âm/critical-article-writer

audio-reply

Tạo phản hồi âm thanh bằng TTS

🎙️Giọng nói và Phiên âm/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

Nó sẽ giúp bạn gửi tin nhắn giọng nói đến trợ lý AI của mình và cũng có thể làm cho nó nói: Text-to-Speech và Speech-to-Text sử dụng AI của ElevenLabs. Sử dụng khi người dùng muốn chuyển đổi văn bản thành giọng nói, chép lại tin nhắn giọng nói, hoặc làm việc với giọng nói bằng nhiều ngôn ngữ. Hỗ trợ giọng nói AI chất lượng cao và chép lại chính xác.

🎙️Giọng nói và Phiên âm/elevenlabs-voice

elevenlabs-transcribe

Chuyển đổi âm thanh thành văn bản sử dụng ElevenLabs.

🎙️Giọng nói và Phiên âm/elevenlabs-transcribe

Parakeet Stt

Parakeet Stt: Ngôn ngữ nói thành văn bản địa phương với NVIDIA Parakeet TDT 0.6B v3 (ONNX trên CPU). Nhanh gấp 30 lần so với Whisper, 25 ngôn ngữ, tự động phát hiện, API tương thích với OpenAI. Sử dụng khi chép lại tệp âm thanh, chuyển đổi giọng nói thành văn bản hoặc xử lý ghi âm địa phương mà không cần API đám mây.

🎙️Giọng nói và Phiên âm/parakeet-stt

deepgram

Giao diện dòng lệnh cho Deepgram từ lời nói thành văn bản.

🎙️Giọng nói và Phiên âm/deepgram

announcer

Chuyển văn bản qua loa AirPlay trong nhà bằng Airfoil +

🎙️Giọng nói và Phiên âm/announcer

Speech To Text

Chuyển đổi giọng nói thành văn bản: Ghi lại âm thanh thành văn bản với các mô hình Whisper thông qua CLI inference.sh. Mô hình: Fast Whisper Large V3, Whisper V3 Large. Tính năng: ghi lại, dịch,...

🎙️Giọng nói và Phiên âm/speech-to-text

Voice

Giọng nói: Chuyển đổi văn bản thành giọng nói sử dụng động cơ TTS của Microsoft Edge với giọng nói tùy chỉnh, phát lại trực tiếp và dọn sạch tệp tạm thời tự động.

🎙️Giọng nói và Phiên âm/voice

addis-assistant-stt

Cung cấp dịch vụ Nghe-nói (STT) và văn bản

🎙️Giọng nói và Phiên âm/addis-assistant-stt

Pocket Tts

Tạo giọng nói tiếng Anh chất lượng cao offline trên CPU bằng cách sử dụng 8 giọng đã cài đặt hoặc tạo giọng tùy chỉnh bằng mô hình Kyutai's Pocket TTS.

🎙️Giọng nói và Phiên âm/pocket-tts

inworld-tts

Text-to-speech thông qua API Inworld.ai

🎙️Giọng nói và Phiên âm/inworld-tts

Voicenotes

Synchron hóa và truy cập các ghi chú giọng nói từ Voicenotes.com. Sử dụng khi người dùng muốn lấy lại các bản ghi âm giọng nói, bản dịch và tóm tắt AI từ Voicenotes. Hỗ trợ lấy các ghi chú, đồng bộ hóa sang định dạng markdown và tìm kiếm bản dịch.

🎙️Giọng nói và Phiên âm/voicenotes

claw-voice

Bạn đã kết nối với phiên làm việc người dùng trực tiếp qua giọng nói

🎙️Giọng nói và Phiên âm/claw-voice

Transcribe Audio with Parakeet MLX

Ghi lại âm thanh với Parakeet MLX: Ghi lại giọng nói thành văn bản địa phương với Parakeet MLX (ASR) cho Apple Silicon (không cần khóa API).

🎙️Giọng nói và Phiên âm/parakeet-mlx

clonev

Sao chép bất kỳ giọng nói nào và tạo lời nói bằng cách sử dụng Coqui XTTS v2.

🎙️Giọng nói và Phiên âm/clonev

cult-of-carcinization

Cung cấp giọng nói và tai cho người đại diện của bạn.

🎙️Giọng nói và Phiên âm/cult-of-carcinization

deepdub-tts

Tạo âm thanh lời nói bằng Deepdub và đính kèm như là MEDIA.

🎙️Giọng nói và Phiên âm/deepdub-tts

chichi-speech

Dịch vụ RESTful cho chất lượng giọng nói từ văn bản cao bằng Qwen3

🎙️Giọng nói và Phiên âm/chichi-speech

lnbits

Quản lý ví Lightning LNbits (Số dư, Thanh toán, Hóa đơn).

🎙️Giọng nói và Phiên âm/lnbits

Voicenotes Official

Voicenotes Official: Đây là kỹ năng chính thức từ đội ngũ Voicenotes mang lại quyền truy cập vào các OpenClaw mới và khả năng tìm kiếm semantically, lấy lại bản ghi đầy đủ, lọc theo t...

🎙️Giọng nói và Phiên âm/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - Tóm tắt Video YouTube: Lấy bản dịch lời thoại của video YouTube và cung cấp các tóm tắt ngắn gọn nhấn mạnh các điểm chính, luận điểm và kết luận mà không cần xem toàn bộ video.

🎙️Giọng nói và Phiên âm/tldw

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Text-to-speech qua OpenAI Audio Speech API

🎙️Giọng nói và Phiên âm/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

Kỹ năng nhận diện giọng nói tổng quát. Hỗ trợ nhiều định dạng âm thanh (ogg/mp3/wav/m4a), sử dụng API SenseVoice di động dựa trên silicon để chuyển đổi giọng nói thành văn bản. Kỹ năng này sẽ được kích hoạt khi người dùng gửi tin nhắn giọng nói, tệp âm thanh hoặc cần chuyển đổi âm thanh thành văn bản.

🎙️Giọng nói và Phiên âm/speech-recognition

freshbooks-cli

CLI FreshBooks để quản lý hóa đơn, khách hàng và thanh toán

🎙️Giọng nói và Phiên âm/freshbooks-cli

Text To Speech

Chuyển đổi văn bản thành giọng nói tự nhiên với DIA TTS, Kokoro, Chatterbox và nhiều hơn nữa thông qua CLI inference.sh. Mô hình: DIA TTS (thảo luận), Kokoro TTS, Chatterbox, Hig...

🎙️Giọng nói và Phiên âm/text-to-speech

AssemblyAI Transcriber

Ghi lại âm thanh với phân tích người nói (ai nói khi nào). Hỗ trợ 100+ ngôn ngữ, phát hiện ngôn ngữ tự động và thời gian. Sử dụng cho các buổi họp, phỏng vấn, podcast hoặc tin nhắn thoại. Yêu cầu khóa API của AssemblyAI.

🎙️Giọng nói và Phiên âm/assemblyai-transcriber

Whisper Transcribe

Ghi lại âm thanh thành văn bản sử dụng OpenAI Whisper. Hỗ trợ chuyển đổi giọng nói thành văn bản với tự động phát hiện ngôn ngữ, nhiều định dạng đầu ra (txt, srt, vtt, ), xử lý lô, và chọn mô hình (tiny đến large). Sử dụng khi ghi lại các bản ghi âm, podcast, tin nhắn giọng nói, bài giảng, cuộc họp hoặc bất kỳ tệp âm thanh/video nào thành văn bản. Hỗ trợ định dạng mp3, wav, m4a, ogg, flac, webm, opus, aac.

🎙️Giọng nói và Phiên âm/whisper-transcribe