/음성 및 전사
🎙️

음성 및 전사

(71)
🎖️추천
41,621

Mcporter

mcporter: mcporter CLI를 사용하여 MCP 서버/도구를 직접 목록화, 구성, 인증, 호출할 수 있습니다. HTTP 또는 stdio를 포함한 임시 서버, 구성 편집, CLI/타입 생성 등을 포함합니다.

🎖️추천
31,978

OpenClaw YouTube Transcript

OpenClaw YouTube 트랜스크립트: yt-dlp를 사용하여 비디오 URL에서 직접 캡션과字幕를 추출하여 오디오 처리 없이 유튜브 비디오를 텍스트로 변환합니다.

🎙️음성 및 전사/openclaw-youtube-transcript
🎖️추천
18,448

Sag

Sag: mac 스타일의 say UX를 갖춘 ElevenLabs 텍스트-to-스피치

🎖️추천
15,590

YouTube Transcript

YouTube 트랜스크립트: YouTube 비디오 트랜스크립트를 가져오고 요약합니다. 요약, 트랜스크립트, 또는 YouTube 비디오의 내용을 추출할 때 사용합니다. 주거 IP 프록시를 통해 YouTube의 클라우드 IP 블록을 피하여 트랜스크립트 가져오기를 처리합니다.

🎙️음성 및 전사/youtube-transcript

Local Whisper

로컬 위시어: OpenAI Whisper를 사용한 로컬 스피치 투 텍스트. 모델 다운로드 후 완전 오프라인으로 실행됩니다. 다양한 모델 크기의 고품질 트랜스크립션을 제공합니다.

elevenlabs-voices

elevenlabs-voices: 18개의 인격체와 함께高质量的语音合成, 32

🎙️음성 및 전사/elevenlabs-voices

faster-whisper

faster-whisper: faster-whisper를 사용한 로컬 스피치 투 텍스트

elevenlabs-tts

elevenlabs-tts: ElevenLabs TTS - OpenClaw의 최고의 ElevenLabs 통합

Voice Transcribe

Voice Transcribe: OpenAI의 gpt-4o-mini-transcribe 모델을 사용하여 단어 힌트와 텍스트 대체를 통해 오디오 파일을 트랜스크립트. uv(https://docs.astral.sh/uv/)가 필요합니다.

🎙️음성 및 전사/voice-transcribe

jarvis-voice

TTS와 시각적 트랜스크립트 스타일링을 가진 금속적인 AI 목소리 인물.

kokoro-tts

로컬 Kokoro TTS 엔진을 사용하여 텍스트에서 발화 오디오를 생성하세요.

ElevenLabs Speech-to-Text

ElevenLabs Speech-to-Text: ElevenLabs Speech-to-Text (Scribe v2)를 사용하여 오디오 파일을 트랜스크립트합니다.

Mlx Whisper

Mlx Whisper: MLX Whisper를 사용한 로컬 스피치 투 텍스트 (Apple Silicon 최적화, API 키 없음)

Transcribe audio files via OpenRouter using audio-capable models

OpenRouter를 사용하여 오디오 모델 (Gemini, GPT-4o-audio 등)을 통해 오디오 파일을 트랜스크립트합니다.

🎙️음성 및 전사/openrouter-transcribe

Gemini STT

Gemini STT: Google의 Gemini API 또는 Vertex AI를 사용하여 오디오 파일을 기록합니다.

Tts

Tts: Hume AI (또는 OpenAI) API를 사용하여 텍스트를 음성으로 변환합니다. 사용자가 오디오 메시지, 음성 답변을 요청하거나 'vive voix'로 들을 것이 필요할 때 사용합니다.

Local Whisper

로컬 위시퍼: Apple Silicon에서 MLX Whisper를 사용하여 Telegram과 WhatsApp의 무료 로컬 음성을 텍스트로 변환하세요. 개인적인 서비스, API 비용 없음.

🎙️음성 및 전사/whisper-mlx-local

Transcribe

Transcribe: 로컬 Whisper (Docker)을 사용하여 오디오 파일을 텍스트로 변환합니다. 음성 메시지를 받을 때, 오디오 파일(.mp3, .m4a, .ogg, .wav, .webm)이나 오디오 내용을 변환해야 할 때 사용합니다.

assemblyai-transcribe

AssemblyAI를 사용하여 오디오/비디오를 기록

🎙️음성 및 전사/assemblyai-transcribe

elevenlabs-agents

ElevenLabs를 생성, 관리, 배포

🎙️음성 및 전사/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

Local STT (Nvidia Parakeet + Whisper Support): 선택 가능한 백엔드를 갖춘 로컬 STT - Parakeet (최고 정확도) 또는 Whisper (가장 빠르고 다국어).

audio-gen

audiobook, 팟캐스트, 또는 교육 오디오 콘텐츠를 생성

critical-article-writer

critical-article-writer: 원고 기사, 개요를 생성합니다.

🎙️음성 및 전사/critical-article-writer

audio-reply

TTS를 사용하여 오디오 답변을 생성

🎙️음성 및 전사/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

AI 어시스턴트에게 음성 메시지를 보내고, 이를 통해 대화를 할 수 있습니다: ElevenLabs AI를 사용한 텍스트-톤스프리히와 스피치-톤스프리히. 사용자가 텍스트를 음성으로 변환하거나, 음성 메시지를 기록하거나, 다양한 언어에서 음��을 사용할 때 사용합니다. 고품질 AI 음성과 정확한 기록을 지원합니다.

🎙️음성 및 전사/elevenlabs-voice

elevenlabs-transcribe

ElevenLabs를 사용한 오디오를 텍스트로 변환

🎙️음성 및 전사/elevenlabs-transcribe

Parakeet Stt

파라키트 Stt: NVIDIA Parakeet TDT 0.6B v3 (ONNX on CPU)를 사용한 로컬 스피치-텍스트. Whisper보다 30배 빠르며, 25개 언어, 자동 감지, OpenAI 호환 API. 오디오 파일을 트랜스크립팅하거나 음성을 텍스트로 변환하거나 클라우드 API 없이 로컬에서 음성 녹음을 처리할 때 사용합니다.

deepgram

deepgram: Deepgram 스피치-투-텍스트의 명령행 인터페이스

announcer

AirPlay 스피커를 사용하여 Airfoil +를 통해 집 전체에 텍스트를 발표

Speech To Text

Speech To Text: inference.sh CLI를 통해 Whisper 모델을 사용하여 오디오를 텍스트로 변환합니다. 모델: Fast Whisper Large V3, Whisper V3 Large. 기능: 변환, 번역...

Voice

Voice: Microsoft Edge의 TTS 엔진을 사용하여 텍스트를 음성으로 변환합니다. 사용자 정의 가능한 목소리, 직접 재생, 자동 일시적인 파일 정리가 가능합니다.

addis-assistant-stt

음성을 텍스트로 변환하는 Speech-to-Text (STT) 및 텍스트 제공

🎙️음성 및 전사/addis-assistant-stt

Pocket Tts

Pocket Tts: Kyutai의 Pocket TTS 모델을 사용하여 CPU에서 오프라인으로 높은 품질의 영어 발음 생성. 8개의 내장된 목소리나 사용자 정의 목소리 클론을 사용합니다.

inworld-tts

Inworld.ai API를 통해 텍스트-투-스피치.

Voicenotes

Voicenotes: Voicenotes.com에서 음성 메모를 동기화하고 접근합니다. 사용자가 음성 녹음, 텍스트 변환, AI 요약을 Voicenotes에서检索할 때 사용합니다. 메모 가져오기, 마크다운으로 동기화, 텍스트 변환 검색을 지원합니다.

claw-voice

Claw-voice: 음성을 통해 실시간 사용자 세션에 연결됩니다.

Transcribe Audio with Parakeet MLX

Parakeet MLX를 사용한 오디오 기록: Apple Silicon용 Parakeet MLX (ASR)를 통해 로컬 음성-텍스트 변환 (API 키 없음).

clonev

clonev: Coqui XTTS v2를 사용하여 어떤 음성도 복제하고 말을 생성합니다.

cult-of-carcinization

cult-of-carcinization: 에이전트에 목소리와 귀를 주세요.

🎙️음성 및 전사/cult-of-carcinization

deepdub-tts

deepdub-tts: Deepdub를 사용하여 스피치 오디오를 생성하고 MEDIA로 첨부합니다.

chichi-speech

치치-말: Qwen3를 사용한 고품질 텍스트-투-스폰서 RESTful 서비스

lnbits

LNbits 라이트닝 지갑을 관리하세요. (잔액, 지불, 청구서)

Voicenotes Official

Voicenotes Official: Voicenotes 팀에서 제공하는 공식 Skill로 OpenClaw에 새로운 API에 접근할 수 있으며, 의미적으로 검색하고 전체 트랜스크립트를 가져오고, 필터링할 수 있는 기능을 제공합니다...

🎙️음성 및 전사/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - YouTube 비디오 요약기: 전체 비디오를 보지 않고도 주요 포인트, 논점 및 결론을 강조하는 YouTube 비디오 트랜스크립트를 추출합니다.

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Openai Tts.Bak 2026 01 28T18:01:23+10:30: OpenAI Audio Speech API를 통해 텍스트를 음성으로 변환합니다.

🎙️음성 및 전사/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

통합 음성 인식 Skill입니다.ogg/mp3/wav/m4a等多种 오디오 형식을 지원하며,硅基流动 SenseVoice API를 사용하여 음성을 텍스트로 변환합니다. 사용자가 음성 메시지, 오디오 파일을 보내거나 음성을 복사할 때 발생합니다.

🎙️음성 및 전사/speech-recognition

freshbooks-cli

freshbooks-cli: FreshBooks CLI를 통해 청구서, 고객, 청구 관리

Text To Speech

텍스트 투 스피치: inference.sh CLI를 통해 DIA TTS, Kokoro, Chatterbox, 등을 사용하여 텍스트를 자연스러운 말로 변환합니다. 모델: DIA TTS (대화형), Kokoro TTS, Chatterbox, Hig...

AssemblyAI Transcriber

AssemblyAI Transcriber: 오디오 파일을 발화자 분리(누가 언제 말하는지)로 기록합니다. 100개 이상의 언어를 지원하며, 자동 언어 인식과 타임스탬프를 제공합니다. 회의, 인터뷰, 팟캐스트, 음성 메시지에 사용하세요. AssemblyAI API 키가 필요합니다.

🎙️음성 및 전사/assemblyai-transcriber

Whisper Transcribe

Whisper Transcribe: OpenAI Whisper를 사용하여 오디오 파일을 텍스트로 변환합니다. 자동 언어 인식을 지원하며, 여러 출력 형식(txt, srt, vtt, ), 배치 처리, 모델 선택(작은 모델에서 큰 모델까지)을 지원합니다. 오디오 녹음, 팟캐스트, 음성 메시지, 강의, 회의, 어떤 오디오/비디오 파일을 텍스트로 변환할 때 사용합니다. mp3, wav, m4a, ogg, flac, webm, opus, aac 형식을 처리합니다.

🎙️음성 및 전사/whisper-transcribe

eternal-haven-lore-pack

eternal-haven-lore-pack: Eternal Haven Chronicles의 Lore + 신화 인격체 팩

🎙️음성 및 전사/eternal-haven-lore-pack

agent-voice

AI 에이전트를 위한 명령행 블로그 플랫폼

akaunting

REST API를 통해 Akaunting 오픈소스 회계 소프트웨어와 상호작용

auto-whisper-safe

RAM 안전한 자동 분할 기능을 포함한 자동 쉽싱 트랜스크립션 — 16GB 기기에서도 충돌 없이 작동

🎙️음성 및 전사/auto-whisper-safe

brw-de-ai-ify

AI 생성 키워드를 제거하고 인간 목소리를 텍스트로 복원

dellight-cro-revenue-ops

dellight-cro-revenue-ops: DELLIGHT.AI는 두빗(DIFC), 두바이의 AI 스타트업입니다.

🎙️음성 및 전사/dellight-cro-revenue-ops

documents-ai

Veryfi의 실시간 OCR 및 데이터 추출 API

doubao-api-open-tts

도발오(Volcano Engine)를 사용한 텍스트 대 톤 서비스

🎙️음성 및 전사/doubao-api-open-tts

duby

Duby.so API를 사용한 텍스트 대 오디오 변환

eachlabs-voice-audio

ElevenLabs, Whisper, RVC를 사용한 TTS, STT, 목소리 변환

🎙️음성 및 전사/eachlabs-voice-audio

easyverein-api

easyVerein v2.0 REST API와 작업

elevenlabs-media

ElevenLabs 음악 생성

🎙️음성 및 전사/elevenlabs-media

feishu-minutes

feishu-minutes: Feishu에서 정보, 통계, 기록, 미디어를 가져오기

gettr-transcribe-summarize

gettr-transcribe-summarize: GETTR 게시물에서 오디오 다운로드

🎙️음성 및 전사/gettr-transcribe-summarize

hebrew-nikud

hebrew-nikud: AI 에이전트를 위한 히브리어 nikud (모음 점) 참조

her-voice

에이전트에게 목소리를 주세요.

miranda-sag

mac 스타일의 say UX를 가진 ElevenLabs 텍스트-투-스피치.

norman-categorize-transactions

미분류된 은행 거래를 검토하고 분류하세요. 청구서와 일치시키고 회계 기록을 확인하세요.

🎙️음성 및 전사/norman-categorize-transactions

norman-monthly-reconciliation

완전한 월간 재정 재정산을 수행하세요. 모든 거래를 검토하고 청구서와 일치시키고 미결제를 확인하세요.

🎙️음성 및 전사/norman-monthly-reconciliation

ressemble

Resemble AI HTTP API를 사용하여 텍스트 대 텍스트 변환 및 음성 대 텍스트 변환 통합

siliconflow-tts-gen

SiliconFlow API (CosyVoice2)를 사용하여 텍스트 대 음성 변환

🎙️음성 및 전사/siliconflow-tts-gen