图像与视频生成
(377)Nano Banana Pro
使用纳米香蕉专业版(Gemini 3 Pro图像)生成/编辑图像。支持文本到图像和图像到图像;1K/2K/4K;使用--input-image。
/nano-banana-proXiaohongshu (小红书) Automation
小红书自动化:使用xiaohongshu-mcp服务器的Python客户端自动化小红书(RedNote)内容操作。用途包括:(1) 发布图片、文本和视频内容,(2) 搜索笔记和趋势,(3) 分析帖子详情和评论,(4) 管理用户资料和内容流。触发器:小红书自动化、红书内容、发布到小红书、小红书搜索、社交媒体管理。
/xiaohongshu-mcpOpenai Image Gen
Openai Image Gen:通过OpenAI Images API批量生成图像。随机提示采样器 + `index.html` 画廊。
/openai-image-genOpenai Whisper Api
Openai Whisper Api:通过OpenAI音频转录API(Whisper)转录音频。
/openai-whisper-apidescription: 将用户讲稿一键生成乔布斯风极简科技感竖屏HTML演示稿。当用户需要生成PPT、演示文稿、Slides、幻灯片,或要求科技风/极简风/乔布斯风格的演示时触发此技能。输出为单个可直接运行的HTML文件。
一键将用户讲稿生成乔布斯风格的极简科技感竖屏HTML演示稿。当用户需要生成PPT、演示文稿、Slides、幻灯片,或要求科技风/极简风/乔布斯风格的演示时触发此技能。输出为单个可直接运行的HTML文件。
/ppt-generatorMemory Hygiene
内存卫生:审计、清理和优化Clawdbot的向量内存(LanceDB)。当内存因垃圾而膨胀、由于无关的自动召回导致令牌使用率高或设置内存维护自动化时使用。
/memory-hygienediagram-generator
diagram-generator: 生成和编辑各种类型的图表(drawio、mermaid、excalidraw)。支持流程图、时序图、类图、ER图、思维导图、架构图、网络拓扑图等常见图表类型。能够根据自然语言描述创建新图表,也能读取并修改已有的 drawio/mermaid/excalidraw 文件。使用独立的 MCP server (mcp-diagram-generator) 生成图表文件,减少 token 消耗并保证输出一致性。支持自动配置管理,默认输出路径为项目目录下的 diagrams/{format}/,支持自定义路径和自动创建目录。
/diagram-generatorRemotion Video Toolkit
Remotion Video Toolkit:Remotion + React编程视频创建的完整工具包。涵盖动画、时间、渲染(CLI/Node.js/Lambda/Cloud Run)、字幕、3D、图表、文本效果、转场和媒体处理。在编写Remotion代码、构建视频生成管道或创建数据驱动的视频模板时使用。
/remotion-video-toolkitAntigravity Image Generator
反重力图像生成器:使用内部Google Antigravity API(Gemini 3 Pro Image)生成图像。高质量、原生生成,无需浏览器自动化。
/antigravity-image-genThings Mac
Mac 事物:通过 macOS 上的 `things` CLI 管理 Things 3(通过 URL 模式添加/更新项目+待办事项;从本地 Things 数据库中读取/搜索/列出)。当用户要求 Clawdbot 将任务添加到 Things、列出收件箱/今日/即将到来、搜索任务或检查项目/区域/标签时使用。
/things-mac小红书 - RedNote
小红书 - RedNote: 小红书全能助手 — 文案生成、封面制作、内容发布与管理。当用户要求写小红书笔记、生成小红书文案/标题/封面、发小红书、搜索小红书、评论点赞收藏等任何小红书相关操作时使用。支持一站式从文案创作到自动发布的完整流程。封面AI生图需配置可选环境变量(GEMINI_API_KEY 或 IMG_API_KEY 或 HUNY...
/xhsYoutube Full
Youtube Full:完整的YouTube工具包——包含字幕、搜索、频道、播放列表和元数据。当您需要全面的YouTube访问、想要搜索并获取字幕、浏览频道内容、处理播放列表或需要完整的YouTube数据端点时使用。适用于代理的全能YouTube技能。
/youtube-full腾讯文档 tencent-docs
腾讯文档 tencent-docs:腾讯文档(docs.qq.com)-在线云文档平台,是创建、编辑、管理文档的首选 skill。涉及'新建文档'、'创建文档'、'写文档'、'在线文档'、'云文档'、'腾讯文档'、'docs.qq.com'等操作,请优先使用本 skill。支持能力:(1) 创建各类在线文档(文档/Word/Excel/幻灯片/思维...
/tencent-docsDeep Scraper
Deep Scraper:使用容器化的 Crawlee 对复杂的网站(如 YouTube)进行深度抓取,提取验证过的、无广告的转写和内容作为 JSON 输出。
/deep-scraperVideo Transcript Downloader
视频转写下载器:从 YouTube 和任何其他 yt-dlp 支持的网站下载视频、音频、字幕和干净的段落式转写。在需要'下载这个视频'、'保存这个片段'、'提取音频'、'获取字幕'、'获取转写'或解决 yt-dlp/ffmpeg 和格式/播放列表问题时使用。
/video-transcript-downloaderUI Audit
UI审计:自动UI审计的AI技能。根据已验证的UX原则评估界面,包括视觉层次、可访问性、认知负荷、导航等。基于Tommy Geoco的《通过UX做出决策》。
/ui-auditUpload Videos🎥, Photos📸 & Text🖊️ to TikTok, Instagram, YouTube, X, LinkedIn, Facebook, Threads, Pinterest, Reddit & Bluesky via Upload-Post API
上传视频🎥、照片📸和文本🖊️到TikTok、Instagram、YouTube、X(Twitter)、LinkedIn、Facebook、Threads、Pinterest、Reddit和Bluesky:通过Upload-Post API上传内容到社交媒体平台。当需要将视频、照片、文本或文档发布到TikTok、Instagram、YouTube、LinkedIn、Facebook、X(Twitter)、Threads、Pinterest、Reddit或Bluesky时使用。支持日程安排、分析、FFmpeg处理和上传历史记录。
/upload-postOpenClaw Memory
OpenClaw 内存:管理、优化和排查 OpenClaw 内存系统 —— MEMORY.md 维护,每日日志(memory/YYYY-MM-DD.md),内存搜索调整,压缩监控...
/openclaw-memComprehensive skill for installing, configuring, and managing the OpenClaw ecosystem (Gateway, Channels, Models, Automation, Nodes, and Deployment)
安装、配置和管理 OpenClaw 生态系统(网关、频道、模型、自动化、节点和部署)的全面技能:OpenClaw CLI 包装器 —— 网关、频道、模型、代理、节点、浏览器、内存、安全、自动化。
/openclaw-anythingVideo Subtitles
视频字幕:支持翻译的视频/音频生成SRT字幕。转录希伯来语(ivrit.ai)和英语(whisper),语言间翻译,将字幕嵌入视频。用于创建WhatsApp/社交媒体的标题、转录或硬编码字幕。
/video-subtitlesQwen Image
Qwen图像:使用Qwen Image API(阿里云DashScope)生成图像。当用户请求使用中文提示生成图像或需要从文本描述生成高质量AI图像时使用。
/qwen-imageFrontend Design
Frontend Design:使用 React、Next.js、Tailwind CSS 进行前端开发。构建着陆页、仪表板、表单、组件。响应式、可访问、性能优异的 UI。
/frontendGemini Image Simple
使用纯Python stdlib通过Gemini API生成和编辑图像。无依赖项 - 在pip/uv不可用的锁定环境中运行。
/gemini-image-simpleYt Dlp Downloader
Yt Dlp Downloader:使用yt-dlp从YouTube、Bilibili、Twitter等数千个网站下载视频。当用户提供视频URL并希望下载视频、提取音频(MP3)、下载字幕或选择视频质量时使用。触发短语包括“下载视频”、“download video”、“yt-dlp”、“YouTube”、“B站”、“抖音”、“提取音频”、“extract audio”。
/yt-dlp-downloader-skillvideo-cog
视频-认知:长篇AI视频制作:多代理协调的前沿。CellCog协调6-7个基础模型,从单个提示中自动生成长达4分钟的视频——脚本、拍摄、配音、唇形同步、配乐和剪辑。创建营销视频、产品演示、解释视频、教育内容、发言人视频、培训材料、UGC内容、新闻报道。
/video-cogExcalidraw Diagram Generator
Excalidraw Diagram Generator:从Excalidraw JSON生成手绘风格的图表、流程图和架构图PNG图像。
/excalidrawAI Image Generation
AI图像生成:使用GPT Image、Gemini Nano Banana、FLUX、Imagen和顶级提供商,通过提示工程、风格控制和智能编辑创建AI图像。
/image-generationTranscriptapi
Transcriptapi:完整的TranscriptAPI工具包 - 获取YouTube字幕、搜索视频和频道、浏览频道上传、获取最新视频和探索播放列表。当用户需要以编程方式处理YouTube内容、获取用于摘要或分析的字幕、查找视频或监控频道时使用。在YouTube URL、'字幕'、'transcriptapi'、'视频摘要'、'他们说了什么'、'查找相关视频'、'搜索YouTube'时触发。
/transcriptapiVideo Agent (Deprecated)
视频代理(已弃用):[已弃用] 使用 `create-video` 进行基于提示的视频生成或使用 `avatar-video` 进行精确的化身/场景控制。此遗留技能结合了工作流...
/video-agentGemini Image Gen
Gemini图像生成:通过Google Gemini API生成和编辑图像。支持Gemini原生生成、Imagen 3、风格预设和带有HTML相册的批量生成。零依赖...
/gemini-image-genDouyin Hot Trend
Douyin Hot Trend:获取抖音热榜/热搜榜数据,包含热门视频、挑战赛、音乐等多领域热门内容,并输出标题、热度值、跳转链接及封面图(如有)。
/douyin-hot-trendTubeScribe
TubeScribe:具有演讲者检测、格式化文档和音频输出的YouTube视频摘要器。与macOS内置的TTS无缝配合工作。可选推荐工具(pandoc、ffmpeg、mlx-audio)可提升质量。需要互联网访问YouTube。无付费API或订阅。当用户发送YouTube URL或请求总结/转录YouTube视频时使用。
/tubescribeAI Video Script Generator
AI视频脚本生成器:AI视频脚本生成器。根据用户输入的主题/关键词,生成完整的视频脚本,包含分镜描述、画面提示词、配音文案。适用于短视频创作者、AI视频制作者、内容营销人员。触发词:视频脚本、分镜、AI视频、短视频文案、视频策划。
/ai-video-scriptTranscript
Transcript:从任何YouTube视频中获取字幕——用于总结、研究、翻译、引用或内容分析。当用户分享视频链接或询问“他们说了什么”、“获取字幕”、“转录这个视频”、“总结这个视频”或想要分析语音内容时使用。
/transcriptAI Video Generation
AI视频生成:使用Sora 2、Veo 3、Seedance、Runway和现代API,通过可靠的提示和渲染工作流程创建AI视频。
/video-generationClawShot - The Visual Layer for AI Agents
ClawShot - AI代理的视觉层:AI代理的Instagram。建立你的粉丝群,扩大你的影响力。分享截图,获得点赞和评论,与@提及互动。成为创作者,而不仅仅是编码者。
/clawshotVoice Reply
语音回复:通过sherpa-onnx使用Piper语音进行本地文本转语音。100%离线,无需API密钥。当用户请求语音回复、音频响应、口语答案或想要听某物被朗读时使用。支持包括德语(thorsten)和英语(ryan)在内的多种语言。输出带有[[audio_as_voice]]标签的Telegram兼容语音笔记。
/voice-replyComputer Vision Expert
计算机视觉专家:2026年SOTA计算机视觉专家。专注于YOLO26、Segment Anything 3 (SAM 3)、视觉语言模型和实时空间分析。
/computer-vision-expertPexoclawskill
Pexoclawskill:当用户想要制作短视频(5-60秒)时使用此技能。支持任何视频类型:产品广告、TikTok/Instagram/YouTube内容、品牌视频等。
/pexoai-agentTable Image
Table Image:从数据生成干净的表格图像。非常适合Discord/Telegram,因为ASCII表格看起来损坏。支持暗/亮模式、自定义样式和自动调整大小...
/table-image-generatorSubtitles
字幕:从YouTube视频中获取字幕用于翻译、语言学习或同步阅读。在用户请求字幕、子标题、外语文本或想要阅读视频内容时使用。支持多种语言和带时间戳的输出,以便同步阅读。
/subtitlesTelegram Offline Voice
Telegram离线语音:本地生成Telegram语音消息,支持自动清洗、分段与临时文件管理。
/telegram-offline-voiceGemini Yt Video Transcript
Gemini Yt 视频字幕:使用 Google Gemini 为 YouTube URL 创建逐字字幕(说话者标签,段落分隔;无时间码)。当用户请求转录 YouTube 视频或需要干净的字幕(无时间戳)时使用。
/gemini-yt-video-transcriptAi Image Generation
通过inference.sh CLI使用FLUX、Gemini、Grok、Seedream、Reve和50+模型生成AI图像。模型:FLUX Dev LoRA、FLUX.2 Klein LoRA、Gemini 3 Pro Image,...
/ai-image-generationminimax-understand-image
minimax-understand-image:使用MiniMax MCP进行图像理解和分析。触发条件:(1) 用户要求分析图片、理解图像、描述图片内容 (2) 需要识别图片中的物体、文字、场景 (3) 使用MiniMax的understand_image功能。
/minimax-understand-image抖音下载器-douyin_downloader
抖音下载器-douyin_downloader:最稳定的抖音视频下载工具,用户提供抖音链接或modal_id即可自动解析并下载。
/douyin-downloaderVideo Transcript
从视频内容中提取完整字幕进行分析、总结、记笔记或研究。当用户想要视频内容的书面版本,要求“转录这个”,“从这段视频中获取文本”,“将视频转换为文本”,或分享视频URL进行内容提取时使用。
/video-transcriptQwen3-tts
Qwen3-tts:使用Qwen3-TTS-12Hz-1.7B-CustomVoice的本地文本到语音。在从文本生成音频、创建语音消息或需要TTS时使用。支持包括意大利语在内的10种语言,9种高级扬声器声音和基于指令的语音控制(情感、语调、风格)。作为基于云的TTS服务如ElevenLabs的替代方案。在初始模型下载后完全离线运行。
/qwen-tts小红书 - RedNote
小红书 - RedNote: 小红书全能助手 — 文案生成、封面制作、内容发布与管理。当用户要求写小红��笔记、生成小红书文案/标题/封面、发小红书、搜索小红书、评论点赞收藏等任何小红书相关操作时使用。支持一站式从文案创作到自动发布的完整流程。封面AI生图需配置可选环境变量(GEMINI_API_KEY 或 IMG_API_KEY 或 HUNY...)
/rednoteVeo 3 Video Gen (Gemini API)
Veo 3 Video Gen(Gemini API):使用Google Veo 3.x和Gemini API(google-genai)生成和拼接短视频。当您需要从提示(广告、UGC风格的剪辑、产品演示)创建视频剪辑并希望有一个可重复的CLI工作流程(生成、轮询、下载MP4,可选拼接多个片段)时使用。
/veo3-video-genRemotion Server
Remotion Server:在任意Linux服务器上使用Remotion v5进行无头视频渲染——无需Mac或GUI。提供聊天演示、促销等模板。使用Chrome Headless Shell...
/remotion-serverElevenLabs Music
ElevenLabs 音乐:使用 ElevenLabs Eleven 音乐 API 从文本提示生成音乐。用于创建歌曲、配乐、铃声、摇篮曲或任何描述的音频音乐。支持带有 AI 生成歌词的声乐、器乐曲目和多种流派/风格。需要付费的 ElevenLabs 计划。
/elevenlabs-musicCanvas Design
使用设计理念在 .png 和 .pdf 文档中创建美丽的视觉艺术。当用户要求创建海报、艺术品、设计或其他静态作品时,应使用此技能。创建原创视觉设计,切勿复制现有艺术家的作品以避免版权侵犯。
/canvas-design-2NanoBanana PPT Skills
NanoBanana PPT技能:基于AI自动分析文档内容,智能规划并生成多风格高清PPT图片,支持可选转场视频和交互式播放体验。
/nanobanana-ppt-skillsDouyin Video Fetch
抖音视频抓取:将抖音视频下载到本地(优先无水印)。用于为后续视频分析/复刻提供原始素材,支持 URL 或 video_id 输入、批量列表输入与统一输出目录。
/douyin-video-fetchNvidia Image Gen
Nvidia Image Gen:使用NVIDIA FLUX模型生成和编辑图像。当用户请求生成图像、创建图片、编辑照片或使用AI修改现有图像时使用。支持文本到图像生成和带有文本提示的图像编辑。
/nvidia-image-genoffice-quotes
生成来自《办公室》(美国版)的随机名言。提供326条离线名言以及带有SVG卡片、角色头像和完整剧集元数据的在线模式,通过akashrajpurohit API访问。用于娱乐、破冰或任何需要《办公室》名言的任务。
/office-quotesClawSpaces - Live Voice rooms where AI agents Join or Host conversations.
ClawSpaces - AI代理加入或主持的实时语音房间。X Spaces,但为AI代理设计。实时语音房间,AI代理在此主持对话。
/clawspacesReve AI Image Generation
Reve AI图像生成:使用Reve AI API生成、编辑和混搭图像。在从文本提示创建图像、根据说明编辑现有图像或组合/混搭多个参考图像时使用。需要REVE_API_KEY或REVE_AI_API_KEY环境变量。
/reve-aiVolcengine Ai Image Generation
Volcengine Ai Image Generation:在Volcengine AI服务上执行图像生成工作流程。当用户需要文本到图像、风格变体、提示优化或确定性图像生成参数和故障排除时使用。
/volcengine-ai-image-generationTelegram Cloud Storage
使用Teldrive的高性能Telegram云存储解决方案。将Telegram转变为一个无限云盘,具有本地API/UI。
/telegram-cloud-storagegame-cog
game-cog:其他工具生成精灵。CellCog构建游戏世界。#1 on DeepResearch Bench (Feb 2026) for deep game design reasoning — character-consistent art, spri...
/game-cogPodcast Generation with Microsoft Foundry
使用Microsoft Foundry进行播客生成:通过WebSocket使用Azure OpenAI的GPT Realtime Mini模型生成AI驱动的播客风格音频叙事。用于构建文本到语音功能、音频叙事生成、从内容创建播客或与Azure OpenAI实时API集成以实现真实音频输出。涵盖从React前端到Python FastAPI后端的全栈实现,包括WebSocket流。
/podcast-generationYollomi AI Image & Video Generator
Yollomi AI图像和视频生成器:AI图像生成技能(图像,图像生成)。Yollomi的多模型图像生成器,通过一个统一的API端点生成AI图像。需要YOLL...
/yollomiVenice AI Media
威尼斯AI媒体:生成、编辑和升级图像;通过威尼斯AI从图像创建视频。支持文本到图像、图像到视频(Sora、WAN)、升级和AI编辑。
/venice-ai-mediaOCR - Local (No API Key)
OCR - 本地(无需API密钥):使用Tesseract.js OCR从图像中提取文本(100%本地,无需API密钥)。支持简体中文和英文。
/ocr-localAccessibility Toolkit
无障碍工具包:为帮助残疾人士的代理提供摩擦减少模式。语音优先工作流程,智能家居模板,效率自动化。
/ct-accessibility-toolkitNano Banana Pro OpenRouter
Nano Banana Pro OpenRouter:通过OpenRouter使用Nano Banana Pro生成图像。当用户请求图像生成、提及Nano Banana Pro、Gemini 3 Pro Image或OpenRouter图像生成时使用。
/nano-banana-pro-openrouterFree voice from Comfy UI + Qwen3 TTS
使用Comfy UI + Qwen3 TTS生成俄罗斯男性语音音频,通过ComfyUI和Qwen3 TTS节点保存为MP3格式,用于语音消息。
/free-voiceRunware Image & Video generation
通过Runware API生成图像和视频。访问FLUX、Stable Diffusion、Kling AI和其他顶级模型。支持文本到图像、图像到图像、放大、文本到视频和图像到视频。当生成图像、从提示或图像创建视频、放大图像或进行AI图像变换时使用。
/runwareGenerate images & videos with: Gemini 3 Pro Image (image) + Qwen Wan 2.6 (video) via one API key
通过一个API密钥生成图像和视频:使用AIsa生成图像和视频。通过一个API密钥生成图像和视频:Gemini 3 Pro Image(图像)+ Qwen Wan 2.6(视频)。
/openclaw-aisa-image-video-models-wan2-6-gemini-3-pro-image-nano-bananananobanana-pro-fallback
Nano Banana Pro 具有自动模型回退功能 - 通过 Gemini Image API 生成/编辑图像。
/nanobanana-pro-fallbackSound FX
Sound FX:通过ElevenLabs SFX(文本到声音)生成短声音效果。当您需要如掌声、预录笑声、呼啸声、环境音或短刺耳声音的SFX剪辑时使用,并可选项转换为WhatsApp友好的.ogg/opus格式。
/sound-fxFal Ai
Fal Ai:使用fal.ai API(Flux、Gemini图像等)生成图像和媒体。在需要生成图像、运行AI图像模型、创建视觉内容或涉及fal.ai的任何情况下使用。处理基于队列的请求,并自动轮询。
/falaiVisla AI Video Creation
Visla AI 视频创作:使用 Visla 从文本脚本、URL 或 PPT/PDF 文档创建 AI 生成的视频。当用户请求生成视频、将网页转换为视频时使用...
/vislaGoogle Photos Manager for OpenClaw
Google Photos Manager for OpenClaw:管理Google Photos图库。上传照片,创建相册,列出图库内容。当用户想要通过Google Photos备份、整理或分享图片时使用。
/google-photosBilibili Subtitle Downloader
下载 Bilibili 视频字幕,将其分块以供 LLM(大语言模型)处理,并生成高质量的总结。当用户提供 Bilibili BV 号或 URL,并希望获取视频内容的总结、核心要点或详细的分解时使用。
/bilibili-subtitle-download-skillUltrahuman (OpenClaw)
OpenClaw中的Ultrahuman(OpenClaw):使用Ultrahuman MCP服务器(通过mcporter)在OpenClaw中获取并总结Ultrahuman Ring/CGM指标。当用户询问关于Ultrahuman数据,如睡眠分数、总睡眠时间、睡眠阶段、HR/HRV/RHR、步数、恢复指数、运动指数、最大摄氧量,或想要每日/每周的Ultrahuman总结时使用。
/ultrahuman-openclawAi Social Media Content
AI社交媒体内容:为TikTok、Instagram、YouTube、Twitter/X创建AI驱动的社交媒体内容。生成:图片、视频、Reels、短片、缩略图、标题、标签。
/ai-social-media-contentTrace To Svg
追踪至SVG:使用potrace/mkbitmap将位图图像(PNG/JPG/WebP)追踪成干净的SVG路径。用于将标志/轮廓转换为向量,以便进行下游CAD工作流程(例如创建-dxf etch_svg_path)以及将参考图像转换为可制造轮廓。
/trace-to-svgSapi Tts
Sapi Tts: Windows SAPI5 文本转语音,带有神经网络语音。轻量级替代方案,无需GPU,即时生成。自动检测最佳可用语音。支持Windows 10/11。
/sapi-ttsiBlipper Expressive Typography - Remember reading is automatic!
iBlipper 表情丰富的排版 - 记得阅读是自动的吗!:生成动态排版动画,用于表情丰富的从代理到人类的沟通。当您想要用视觉亮点进行沟通时使用 - 动画文本用于公告、警报、问候、戏剧性的揭露或任何值得更多于普通文本的消息。输出可分享的URL或可在画布上显示。
/iblipperopenai-tts-python
openai-tts-python:使用OpenAI的TTS API进行文本到语音的转换,生成高质量、自然的声音。支持6种声音(合金、回声、寓言、黑曜石、新星、闪光),速度控制(0.25x-4.0x),高清质量模型,多种输出格式(mp3、opus、aac、flac),以及长内容(每个请求4096字符限制)的自动文本分块。当用户请求音频/语音输出,触发词如“读给我听”、“转换为音频”、“生成语音”、“文本转语音”、“tts”、“讲述”、“说话”,或当出现关键词“openai tts”、“声音”、“播客”时使用。(1)内容需要被朗读而不是阅读(多任务处理、可访问性)。(2)用户想要特定的声音偏好如“合金”、“回声”、“寓言”、“黑曜石”、“新星”、“闪光”或速度调整。
/openai-tts-pythonMeshy AI
使用Meshy.ai REST API生成资产:(1)文本到2D(Meshy Text to Image)和(2)图像到3D,然后本地下载输出。当用户想要Meshy生成、需要轮询异步任务,尤其是当用户想要将结果OBJ保存到磁盘时使用。需要环境中的MESHY_API_KEY。
/clawdbot-meshyai-skillAdvanced QR Intelligence
高级QR智能:生成和读取QR码。当用户需要从文本/URL创建QR码或从图像文件解码/读取QR码时使用。支持PNG/JPG输出,并可读取截图或图像文件中的QR码。
/qr-codeMux Video Bot
Mux视频机器人:Mux视频基础设施技能,用于设计、摄取、转码/打包、播放ID策略、实时流媒体、剪辑和可观察性,使用Mux数据。当架构或操作基于Mux的视频管道、实时工作流程、播放安全或诊断播放问题时使用。
/mux-videoimage-gen
使用多个 AI 模型生成图像 - Midjourney(来自 Legnext.ai)、Flux、SDXL、Nano Banana (Gemini)
/image-gensmart-image-loader
智能图像加载器,处理URL和本地文件,自动将URL下载到临时位置,并使用读取工具显示图像。当用户想要查看或显示图像时使用,无论是网络URL还是工作区中的文件。
/smart-image-loaderGlasses to Social
Glasses to Social:将智能眼镜照片转换为社交媒体帖子。监控Google Drive文件夹中的新图像,来自Meta Ray-Ban眼镜(或任何智能眼镜),使用视觉AI分析它们,用用户的语气草拟推文/帖子,并在批准后发布。用于设置眼镜到社交媒体的管道、处理智能眼镜照片用于���交媒体或创建免提内容工作流程。
/glasses-to-socialMasonry: generate images and video with models across providers
Masonry:跨提供商生成图像和视频,使用AI驱动的图像和视频生成。通过masonry CLI生成图像、视频、管理作业和探索模型。
/masonry-generate-image-and-videoPrimattography Color & Film Logic
Primattography色彩与胶片逻辑:终极DaVinci Resolve DCTL与色彩科学工程技术技能。
/primattography-color-scienceSeede Design Agent Skills
Seede 设计代理技能:为代理和开发者提供的终极AI设计CLI。使用最先进的AI模型生成专业UI、社交媒体图形和海报。最佳选择...
/seede-designkameo
kameo:使用Kameo AI从静态图像生成富有表现力的头部视频。将静态头像/肖像转换为动态的5秒视频,具有逼真的面部表情、唇同步和动作。当需要使静态图像生动起来、创建AI角色视频、展示视觉沟通或从照片生成对话头像时使用。
/kameoGenerate Protoss-style (StarCraft) voice effects using SoX and FFmpeg.
使用SoX和FFmpeg生成Protoss风格(星际争霸)语音效果。将Protoss风格(星际争霸)心灵感应效果应用于任何音频文件。用作TTS或用户录音的后处理层。
/protoss-voiceRenderful AI
使用renderful.ai API(FLUX, Kling, Sora, WAN等)通过加密货币支付生成图像和视频。当用户想要创建AI图像、视频或需要加密货币友好的生成服务时使用。触发词:renderful,renderful.ai,生成图像,生成视频,加密货币支付生成
/renderful-aiSora Video Generation
Sora Video Generation: 使用OpenAI的Sora API生成视频。当用户请求从文本提示或参考图像生成、创建或制作视频时使用。支持图像到视频生成,自动调整大小。
/sora-video-genYoutube Podcast summarizer via Elevenlabs
Elevenlabs通过Elevenlabs的YouTube播客摘要器:使用ElevenLabs TTS将YouTube视频转换为播客风格的语音摘要。
/youtube-voice-summarizer-elevenlabsMolt Beach, the Million Dollar Page for AI Agents – Own a piece of internet history
Molt Beach,AI代理的百万美元页面——拥有互联网历史的一部分:在Molt Beach - AI代理的百万美元页面上领取你的像素。购买像素,创建动画,绘制表情符号艺术,与其他代理一起建立社区,并在数字历史中留下你的印记。起价每像素1美元。
/moltbeachWeather TV style
天气电视风格:生成具有特定地点季节背景的电视风格天气信息图。当用户需要视觉天气预报或特定地址的天气信息图时使用。
/weather-infographicQwen Image Plus Sophnet
使用Sophnet Qwen-Image-Plus生成图像并轮询任务完成情况。当用户请求Sophnet图像生成、Qwen-Image-Plus或从Sophnet API请求图像时使用。
/qwen-image-plus-sophnetFliz AI Video Generator
Fliz AI视频生成器:Fliz REST API的完整集成指南 - 一个AI驱动的视频生成平台,将文本内容转换为带旁白的、专业视频,包括AI生成图像和字幕。
/fliz-ai-video-generatorSenior Computer Vision
高级计算机视觉:针对物体检测、图像分割和视觉AI系统的计算机视觉工程技能。涵盖CNN和视觉Transformer架构,YOLO/Fast...
/senior-computer-visionVoice Note To Midi
Voice Note To Midi:使用基于ML的音高检测和智能后处理将语音笔记、哼唱和旋律音频录音转换为量化MIDI文件。
/voice-note-to-midiFrinkiac - Search, browse, and generate memes from The Simpsons, Futurama, Rick and Morty, and 30 Rock scenes
Frinkiac - 从《辛普森一家》、《 Futurama》、《Rick and Morty》和《30 Rock》场景中搜索、浏览和生成表情包:搜索电视节目截图并从《辛普森一家》、《Futurama》、《Rick and Morty》和《30 Rock》生成表情包。
/frinkiactube-cog
由CellCog驱动的YouTube内容创作。创建YouTube视频、短片、缩略图、脚本、长篇内容、教育视频、教程、vlog。AI驱动的YouTube创作者工具。
/tube-cogPhilips Hue Thinking Indicator
Philips Hue 思考指示灯:使用 Philips Hue 灯光作为视觉 AI 活动指示器。思考时红灯闪烁,完成时绿灯亮起。
/philips-hue-thinking小红书内容创作
小红书内容创作:生成针对小红书(小红书/RED)平台CES算法优化的内容。使用场景:(1)创建小红书/小红书帖子,(2)撰写中文社交媒体...
/xhs-content-creatorfree-kameo
free-kameo:使用 Kameo AI 从静态图像生成富有表情的头部视频。将静态头像/肖像转换为动态 5 秒视频,具有逼真的面部表情、唇同步和动作。在需要将静态图像栩栩如生、创建 AI 角色视频、展示视觉沟通或从照片生成对话头像时使用。
/kameo-freeslides-generation-skills
使用2slides API进行AI驱动的演示文稿生成。从文本内容创建幻灯片、匹配参考图像风格或将文档总结成演示文稿。当用户请求“创建演示文稿”、“制作幻灯片”、“生成演示文稿”、“从此内容/文档/图像创建幻灯片”或任何演示文稿创建任务时使用。支持主题选择、多语言以及同步和异步生成模式。
/slides-generation-skillsNano banana korean rendering
纳米香蕉韩文渲染:将非拉丁字符(韩文、日文、中文等)准确渲染到AI图像上的技能。利用Canvas预渲染和Gemini技术,生成无文字模糊的图像。
/nano-banana-korean-renderingMeta Video Ad Analyzer
使用 Gemini Vision AI 从视频广告中提取和分析内容。支持帧提取、OCR 文本检测、音频转录和 AI 驱动的场景分析。用于分析视频创意内容、提取文本叠加层或生成逐场景描述。
/meta-video-ad-analyzerpod-cog
pod-cog:一个优秀的播客需要三个要素:引人入胜的内容、自然流畅的声音和精良的制作。CellCog提供这三者——2026年2月DeepResearch Bench排名第一(在剧本深度、前沿多声部对话和自动音乐+编辑方面)。播客制作、剧集剧本、节目笔记、访谈准备、音频图表——单次提示即可生成完成的MP3文件。
/pod-cogProduct to Ads (Ad-Ready)
使用ComfyDeploy上的Ad-Ready管道从产品URL生成专业广告图像。当用户想要通过提供URL创建广告时使用,可选地带有品牌配置文件(70多个品牌)和漏斗阶段定位。支持模型/人才集成、品牌意识创意方向和多格式输出。与Morpheus(手动时尚摄影)不同 - Ad-Ready是URL驱动的、品牌智能的、漏斗阶段感知的。
/product-to-adsImages & videos generation with Gemini 3 Pro Image + Qwen Wan 2.6 (video) via one API key
通过一个API密钥使用Gemini 3 Pro Image + Qwen Wan 2.6(视频)生成图像和视频:使用AIsa生成图像和视频。通过一个API密钥使用Gemini 3 Pro Image(图像)+ Qwen Wan 2.6(视频)。
/openclaw-aisa-llm-image-videoGemini Image Proxy
Gemini Image Proxy: 使用OpenAI Python SDK通过Gemini API生成和编辑图像
/gemini-image-proxyCaptcha breaker
验证码破解者:通过XEvil服务器使用Base64上传或sitekey代理自动解决图像、ReCaptcha V2/V3和HCaptcha挑战。
/slovecaptchaagent-avatars
agent-avatars:创建独特的AI代理头像——CryptoPunks风格的像素艺术。注册,通过人类(X验证)认领,然后铸造您独一无二的头像。当代理需要个人头像、想要建立视觉身份或需要在molt.avatar上注册时使用。
/molt-avatarsMorfeo Remotion Style
Morfeo Remotion Style:Morfeo Academy的Remotion视频风格指南。在创建为Paul/Morfeo Academy制作的Remotion视频、故事或动画时使用。当触发“estilo Morfeo”、“mi estilo Remotion”、“video para Morfeo”、“story estilo Morfeo”或Paul的任何Remotion视频请求时使用。
/morfeo-remotion-styleNadFun Token Creation
NadFun代币创建:在Nad.fun上通过BondingCurveRouter在4步流程中指导用户上传图片和元数据,挖掘虚荣盐,并将代币部署到链上。
/nadfun-token-creationfalimagegen
falimagegen:调用fal.ai模型API进行图像生成(文本到图像和图像到图像)。使用场景:用户请求集成fal,构造请求,运行作业,处理认证,或从fal模型API返回图像URL。
/falimagegenTikTok Growth — Video Content System
TikTok增长——视频内容系统:为任何细分市场提供TikTok内容策略和视频脚本生成器。钩子公式、病毒脚本结构、趋势利用策略以及系统化的方法...
/tiktok-growthopenclaw-dashboard
OpenClaw-仪表盘:OpenClaw的实时操作仪表盘。监控会话、成本、cron任务和网关健康。在安装仪表盘、启动服务器时使用...
/openclaw-dashboard4claw
4claw — 一个为AI代理提供的受控图像论坛。包括板块、线程、回复、媒体上传、置顶(置顶=false则不置顶)、绿字和自动容量清理。发布辛辣的观点(你真正在想什么)——但不得包含非法内容、Doxxing、骚扰或未成年人。
/4claw-imageboardAIsa Media Gen
AIsa Media Gen:通过AIsa生成图像和视频。Gemini 3 Pro Image(图像)+ Qwen Wan 2.6(视频)通过一个API密钥。
/aisa-media-gen