Trang chủ/Giọng nói và Phiên âm
🎙️

Giọng nói và Phiên âm

(71)
🎖️Nổi bật
41,621

Mcporter

Mcporter: Sử dụng CLI mcporter để liệt kê, cấu hình, xác thực và gọi các máy chủ/công cụ MCP trực tiếp (HTTP hoặc stdio), bao gồm máy chủ tạm thời, chỉnh sửa cấu hình và tạo CLI/thuộc tính.

🎖️Nổi bật
31,978

OpenClaw YouTube Transcript

OpenClaw YouTube Transcript: Chép lại video YouTube thành văn bản bằng cách trích xuất chú thích và phụ đề trực tiếp từ URL video sử dụng yt-dlp mà không cần xử lý âm thanh.

🎙️Giọng nói và Phiên âm/openclaw-youtube-transcript
🎖️Nổi bật
18,448

Sag

Sag: Công cụ text-to-speech của ElevenLabs với giao diện nói theo phong cách macOS.

🎖️Nổi bật
15,590

YouTube Transcript

Dịch vụ bản dịch YouTube: Lấy và tóm tắt bản dịch video YouTube. Sử dụng khi được yêu cầu tóm tắt, ghi chép hoặc trích xuất nội dung từ video YouTube. Xử lý việc lấy bản dịch thông qua proxy IP dân cư để tránh chặn IP đám mây của YouTube.

Local Whisper

Whisper địa phương: Giao tiếp nói thành văn bản địa phương sử dụng OpenAI Whisper. Chạy hoàn toàn ngoại tuyến sau khi tải xuống mô hình. Ghi lại chất lượng cao với nhiều kích thước mô hình khác nhau.

elevenlabs-voices

Tạo giọng nói chất lượng cao với 18 nhân vật, 32.

faster-whisper

Ngôn ngữ nói địa phương sử dụng faster-whisper

elevenlabs-tts

TTS của ElevenLabs - bộ tích hợp tốt nhất của ElevenLabs cho OpenClaw.

Voice Transcribe

Ghi lại giọng nói: Ghi lại tệp âm thanh sử dụng mô hình gpt-4o-mini-transcribe của OpenAI với gợi ý từ vựng và thay thế văn bản. Yêu cầu uv (https://docs.astral.sh/uv/).

jarvis-voice

Người mẫu giọng AI kim loại với TTS và phong cách bản dịch hình ảnh.

kokoro-tts

Tạo âm thanh nói từ văn bản sử dụng động cơ TTS địa phương Kokoro.

ElevenLabs Speech-to-Text

Ghi lại tệp âm thanh sử dụng ElevenLabs Speech-to-Text (Scribe v2)

Mlx Whisper

Mlx Whisper: Ngôn ngữ nói thành văn bản địa phương với Mlx Whisper (tối ưu hóa cho Apple Silicon, không cần API key)

Transcribe audio files via OpenRouter using audio-capable models

Chép lại tệp âm thanh thông qua OpenRouter bằng các mô hình có khả năng xử lý âm thanh: Chép lại tệp âm thanh thông qua OpenRouter bằng các mô hình có khả năng xử lý âm thanh (Gemini, GPT-4o-audio, v.v.)

Gemini STT

Chép ghi âm tệp âm thanh bằng API Gemini của Google hoặc Vertex AI

Tts

Chuyển đổi văn bản thành giọng nói bằng API Hume AI (hoặc OpenAI). Sử dụng khi người dùng yêu cầu tin nhắn âm thanh, phản hồi bằng giọng nói hoặc để nghe điều gì đó 'của vive voix'.

Local Whisper

Nói toại địa: Miễn phí dịch nói thành văn bản địa phương cho Telegram và WhatsApp bằng MLX Whisper trên Apple Silicon. Riêng tư, không có chi phí API.

Transcribe

Chép lại: Chép lại tệp âm thanh thành văn bản sử dụng Whisper (Docker) cục bộ. Sử dụng khi nhận tin nhắn giọng nói, tệp âm thanh (.mp3, .m4a, .ogg, .wav, .webm), hoặc khi được yêu cầu chép lại nội dung âm thanh.

assemblyai-transcribe

Ghi lại âm thanh/video bằng AssemblyAI

elevenlabs-agents

Tạo, quản lý và triển khai ElevenLabs.

Local STT (Nvidia Parakeet + Whisper Support)

STT cục bộ (Nvidia Parakeet + Whisper Support): STT cục bộ với khả năng chọn backend - Parakeet (tính chính xác cao nhất) hoặc Whisper (nhanh nhất, đa ngôn ngữ).

audio-gen

Tạo sách nói, podcast hoặc nội dung âm thanh giáo dục

critical-article-writer

Tạo bản nháp bài viết và tóm tắt.

🎙️Giọng nói và Phiên âm/critical-article-writer

audio-reply

Tạo phản hồi âm thanh bằng TTS

it will help you to send voice messages to your AI Assistant and also can make it talk

Nó sẽ giúp bạn gửi tin nhắn giọng nói đến trợ lý AI của mình và cũng có thể làm cho nó nói: Text-to-Speech và Speech-to-Text sử dụng AI của ElevenLabs. Sử dụng khi người dùng muốn chuyển đổi văn bản thành giọng nói, chép lại tin nhắn giọng nói, hoặc làm việc với giọng nói bằng nhiều ngôn ngữ. Hỗ trợ giọng nói AI chất lượng cao và chép lại chính xác.

elevenlabs-transcribe

Chuyển đổi âm thanh thành văn bản sử dụng ElevenLabs.

Parakeet Stt

Parakeet Stt: Ngôn ngữ nói thành văn bản địa phương với NVIDIA Parakeet TDT 0.6B v3 (ONNX trên CPU). Nhanh gấp 30 lần so với Whisper, 25 ngôn ngữ, tự động phát hiện, API tương thích với OpenAI. Sử dụng khi chép lại tệp âm thanh, chuyển đổi giọng nói thành văn bản hoặc xử lý ghi âm địa phương mà không cần API đám mây.

deepgram

Giao diện dòng lệnh cho Deepgram từ lời nói thành văn bản.

announcer

Chuyển văn bản qua loa AirPlay trong nhà bằng Airfoil +

Speech To Text

Chuyển đổi giọng nói thành văn bản: Ghi lại âm thanh thành văn bản với các mô hình Whisper thông qua CLI inference.sh. Mô hình: Fast Whisper Large V3, Whisper V3 Large. Tính năng: ghi lại, dịch,...

Voice

Giọng nói: Chuyển đổi văn bản thành giọng nói sử dụng động cơ TTS của Microsoft Edge với giọng nói tùy chỉnh, phát lại trực tiếp và dọn sạch tệp tạm thời tự động.

addis-assistant-stt

Cung cấp dịch vụ Nghe-nói (STT) và văn bản

Pocket Tts

Tạo giọng nói tiếng Anh chất lượng cao offline trên CPU bằng cách sử dụng 8 giọng đã cài đặt hoặc tạo giọng tùy chỉnh bằng mô hình Kyutai's Pocket TTS.

inworld-tts

Text-to-speech thông qua API Inworld.ai

Voicenotes

Synchron hóa và truy cập các ghi chú giọng nói từ Voicenotes.com. Sử dụng khi người dùng muốn lấy lại các bản ghi âm giọng nói, bản dịch và tóm tắt AI từ Voicenotes. Hỗ trợ lấy các ghi chú, đồng bộ hóa sang định dạng markdown và tìm kiếm bản dịch.

claw-voice

Bạn đã kết nối với phiên làm việc người dùng trực tiếp qua giọng nói

Transcribe Audio with Parakeet MLX

Ghi lại âm thanh với Parakeet MLX: Ghi lại giọng nói thành văn bản địa phương với Parakeet MLX (ASR) cho Apple Silicon (không cần khóa API).

clonev

Sao chép bất kỳ giọng nói nào và tạo lời nói bằng cách sử dụng Coqui XTTS v2.

cult-of-carcinization

Cung cấp giọng nói và tai cho người đại diện của bạn.

deepdub-tts

Tạo âm thanh lời nói bằng Deepdub và đính kèm như là MEDIA.

chichi-speech

Dịch vụ RESTful cho chất lượng giọng nói từ văn bản cao bằng Qwen3

lnbits

Quản lý ví Lightning LNbits (Số dư, Thanh toán, Hóa đơn).

Voicenotes Official

Voicenotes Official: Đây là kỹ năng chính thức từ đội ngũ Voicenotes mang lại quyền truy cập vào các OpenClaw mới và khả năng tìm kiếm semantically, lấy lại bản ghi đầy đủ, lọc theo t...

tl;dw - YouTube Video Summarizer

tl;dw - Tóm tắt Video YouTube: Lấy bản dịch lời thoại của video YouTube và cung cấp các tóm tắt ngắn gọn nhấn mạnh các điểm chính, luận điểm và kết luận mà không cần xem toàn bộ video.

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Text-to-speech qua OpenAI Audio Speech API

🎙️Giọng nói và Phiên âm/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

Kỹ năng nhận diện giọng nói tổng quát. Hỗ trợ nhiều định dạng âm thanh (ogg/mp3/wav/m4a), sử dụng API SenseVoice di động dựa trên silicon để chuyển đổi giọng nói thành văn bản. Kỹ năng này sẽ được kích hoạt khi người dùng gửi tin nhắn giọng nói, tệp âm thanh hoặc cần chuyển đổi âm thanh thành văn bản.

freshbooks-cli

CLI FreshBooks để quản lý hóa đơn, khách hàng và thanh toán

Text To Speech

Chuyển đổi văn bản thành giọng nói tự nhiên với DIA TTS, Kokoro, Chatterbox và nhiều hơn nữa thông qua CLI inference.sh. Mô hình: DIA TTS (thảo luận), Kokoro TTS, Chatterbox, Hig...

AssemblyAI Transcriber

Ghi lại âm thanh với phân tích người nói (ai nói khi nào). Hỗ trợ 100+ ngôn ngữ, phát hiện ngôn ngữ tự động và thời gian. Sử dụng cho các buổi họp, phỏng vấn, podcast hoặc tin nhắn thoại. Yêu cầu khóa API của AssemblyAI.

🎙️Giọng nói và Phiên âm/assemblyai-transcriber

Whisper Transcribe

Ghi lại âm thanh thành văn bản sử dụng OpenAI Whisper. Hỗ trợ chuyển đổi giọng nói thành văn bản với tự động phát hiện ngôn ngữ, nhiều định dạng đầu ra (txt, srt, vtt, ), xử lý lô, và chọn mô hình (tiny đến large). Sử dụng khi ghi lại các bản ghi âm, podcast, tin nhắn giọng nói, bài giảng, cuộc họp hoặc bất kỳ tệp âm thanh/video nào thành văn bản. Hỗ trợ định dạng mp3, wav, m4a, ogg, flac, webm, opus, aac.

eternal-haven-lore-pack

Bộ tri thức huyền thoại của Eternal Haven + gói nhân vật huyền thoại

🎙️Giọng nói và Phiên âm/eternal-haven-lore-pack

agent-voice

Platform blogging lệnh cho các agente AI

akaunting

Thực hiện tương tác với phần mềm kế toán mã nguồn mở Akaunting qua API REST

auto-whisper-safe

Ghi âm giọng nói an toàn với RAM, tự động chia đoạn — hoạt động trên máy 16GB mà không bị lỗi

brw-de-ai-ify

Loại bỏ từ vựng AI và khôi phục giọng nói con người thành văn bản

dellight-cro-revenue-ops

DELLIGHT.AI là một startup AI tại DIFC, Dubai.

🎙️Giọng nói và Phiên âm/dellight-cro-revenue-ops

documents-ai

API OCR và trích xuất dữ liệu thời gian thực bởi Veryfi.

doubao-api-open-tts

Dịch vụ Text-to-Speech sử dụng Doubao (Máy móc núi lửa).

duby

Chuyển đổi văn bản thành giọng nói sử dụng API Duby.so.

eachlabs-voice-audio

TTS, STT, chuyển đổi giọng nói sử dụng ElevenLabs, Whisper, RVC.

easyverein-api

Làm việc với API REST v2.0 của easyVerein.

elevenlabs-media

Tạo nhạc sử dụng ElevenLabs.

feishu-minutes

Lấy thông tin, thống kê, bản ghi và phương tiện truyền thông từ Feishu

gettr-transcribe-summarize

Tải xuống âm thanh từ bài đăng GETTR

🎙️Giọng nói và Phiên âm/gettr-transcribe-summarize

hebrew-nikud

Tham khảo nikud (điểm nguyên âm) Hebrew cho các đại lý AI

her-voice

Cung cấp giọng nói cho đại lý của bạn

miranda-sag

Text-to-Speech của ElevenLabs với UX nói theo phong cách Mac.

norman-categorize-transactions

Kiểm tra và phân loại các giao dịch ngân hàng chưa được phân loại, khớp chúng với hóa đơn và xác minh các ghi chép kế toán.

🎙️Giọng nói và Phiên âm/norman-categorize-transactions

norman-monthly-reconciliation

Thực hiện việc đối chiếu tài chính hàng tháng hoàn chỉnh - kiểm tra tất cả các giao dịch, khớp hóa đơn, kiểm tra số dư.

🎙️Giọng nói và Phiên âm/norman-monthly-reconciliation

ressemble

Tích hợp Text-to-Speech và Speech-to-Text sử dụng API HTTP của Resemble AI.

siliconflow-tts-gen

Text-to-Speech sử dụng API SiliconFlow (CosyVoice2).