首页/图像与视频生成
🎨

图像与视频生成

(377)
🎖️精选
59,724

Nano Banana Pro

使用纳米香蕉专业版(Gemini 3 Pro图像)生成/编辑图像。支持文本到图像和图像到图像;1K/2K/4K;使用--input-image。

🎖️精选
30,420

Video Frames

使用ffmpeg从视频中提取帧或短剪辑。

🎖️精选
21,254

Xiaohongshu (小红书) Automation

小红书自动化:使用xiaohongshu-mcp服务器的Python客户端自动化小红书(RedNote)内容操作。用途包括:(1) 发布图片、文本和视频内容,(2) 搜索笔记和趋势,(3) 分析帖子详情和评论,(4) 管理用户资料和内容流。触发器:小红书自动化、红书内容、发布到小红书、小红书搜索、社交媒体管理。

🎖️精选
17,454

Openai Image Gen

Openai Image Gen:通过OpenAI Images API批量生成图像。随机提示采样器 + `index.html` 画廊。

🎨图像与视频生成/openai-image-gen
🎖️精选
16,064

Openai Whisper Api

Openai Whisper Api:通过OpenAI音频转录API(Whisper)转录音频。

🎨图像与视频生成/openai-whisper-api
🎖️精选
15,993

description: 将用户讲稿一键生成乔布斯风极简科技感竖屏HTML演示稿。当用户需要生成PPT、演示文稿、Slides、幻灯片,或要求科技风/极简风/乔布斯风格的演示时触发此技能。输出为单个可直接运行的HTML文件。

一键将用户讲稿生成乔布斯风格的极简科技感竖屏HTML演示稿。当用户需要生成PPT、演示文稿、Slides、幻灯片,或要求科技风/极简风/乔布斯风格的演示时触发此技能。输出为单个可直接运行的HTML文件。

Memory Hygiene

内存卫生:审计、清理和优化Clawdbot的向量内存(LanceDB)。当内存因垃圾而膨胀、由于无关的自动召回导致令牌使用率高或设置内存维护自动化时使用。

diagram-generator

diagram-generator: 生成和编辑各种类型的图表(drawio、mermaid、excalidraw)。支持流程图、时序图、类图、ER图、思维导图、架构图、网络拓扑图等常见图表类型。能够根据自然语言描述创建新图表,也能读取并修改已有的 drawio/mermaid/excalidraw 文件。使用独立的 MCP server (mcp-diagram-generator) 生成图表文件,减少 token 消耗并保证输出一致性。支持自动配置管理,默认输出路径为项目目录下的 diagrams/{format}/,支持自定义路径和自动创建目录。

🎨图像与视频生成/diagram-generator

Remotion Video Toolkit

Remotion Video Toolkit:Remotion + React编程视频创建的完整工具包。涵盖动画、时间、渲染(CLI/Node.js/Lambda/Cloud Run)、字幕、3D、图表、文本效果、转场和媒体处理。在编写Remotion代码、构建视频生成管道或创建数据驱动的视频模板时使用。

🎨图像与视频生成/remotion-video-toolkit

Prompt Engineering Expert

提示工程专家:在提示工程、自定义指令设计和AI代理提示优化方面的资深专家。

🎨图像与视频生成/prompt-engineering-expert

Antigravity Image Generator

反重力图像生成器:使用内部Google Antigravity API(Gemini 3 Pro Image)生成图像。高质量、原生生成,无需浏览器自动化。

🎨图像与视频生成/antigravity-image-gen

Things Mac

Mac 事物:通过 macOS 上的 `things` CLI 管理 Things 3(通过 URL 模式添加/更新项目+待办事项;从本地 Things 数据库中读取/搜索/列出)。当用户要求 Clawdbot 将任务添加到 Things、列出收件箱/今日/即将到来、搜索任务或检查项目/区域/标签时使用。

Image

图像:使用可靠的格式选择、调整大小、压缩、色彩配置文件、元数据和平台创建、检查、处理和优化图像文件和视觉资产。

小红书 - RedNote

小红书 - RedNote: 小红书全能助手 — 文案生成、封面制作、内容发布与管理。当用户要求写小红书笔记、生成小红书文案/标题/封面、发小红书、搜索小红书、评论点赞收藏等任何小红书相关操作时使用。支持一站式从文案创作到自动发布的完整流程。封面AI生图需配置可选环境变量(GEMINI_API_KEY 或 IMG_API_KEY 或 HUNY...

Youtube Full

Youtube Full:完整的YouTube工具包——包含字幕、搜索、频道、播放列表和元数据。当您需要全面的YouTube访问、想要搜索并获取字幕、浏览频道内容、处理播放列表或需要完整的YouTube数据端点时使用。适用于代理的全能YouTube技能。

Screenshot

截图:使用合适的工具、等待策略和视口等,捕获、检查和比较屏幕、窗口、区域、网页、模拟器和CI运行的截图。

image-cog

image-cog:由CellCog驱动的AI图像生成。创建图像、编辑照片、保持角色一致性、产品摄影、基于参考的图像、图像集、风格...

腾讯文档 tencent-docs

腾讯文档 tencent-docs:腾讯文档(docs.qq.com)-在线云文档平台,是创建、编辑、管理文档的首选 skill。涉及'新建文档'、'创建文档'、'写文档'、'在线文档'、'云文档'、'腾讯文档'、'docs.qq.com'等操作,请优先使用本 skill。支持能力:(1) 创建各类在线文档(文档/Word/Excel/幻灯片/思维...

Deep Scraper

Deep Scraper:使用容器化的 Crawlee 对复杂的网站(如 YouTube)进行深度抓取,提取验证过的、无广告的转写和内容作为 JSON 输出。

Video Transcript Downloader

视频转写下载器:从 YouTube 和任何其他 yt-dlp 支持的网站下载视频、音频、字幕和干净的段落式转写。在需要'下载这个视频'、'保存这个片段'、'提取音频'、'获取字幕'、'获取转写'或解决 yt-dlp/ffmpeg 和格式/播放列表问题时使用。

🎨图像与视频生成/video-transcript-downloader

UI Audit

UI审计:自动UI审计的AI技能。根据已验证的UX原则评估界面,包括视觉层次、可访问性、认知负荷、导航等。基于Tommy Geoco的《通过UX做出决策》。

ffmpeg-video-editor

从自然生成 FFmpeg 命令

🎨图像与视频生成/ffmpeg-video-editor

Upload Videos🎥, Photos📸 & Text🖊️ to TikTok, Instagram, YouTube, X, LinkedIn, Facebook, Threads, Pinterest, Reddit & Bluesky via Upload-Post API

上传视频🎥、照片📸和文本🖊️到TikTok、Instagram、YouTube、X(Twitter)、LinkedIn、Facebook、Threads、Pinterest、Reddit和Bluesky:通过Upload-Post API上传内容到社交媒体平台。当需要将视频、照片、文本或文档发布到TikTok、Instagram、YouTube、LinkedIn、Facebook、X(Twitter)、Threads、Pinterest、Reddit或Bluesky时使用。支持日程安排、分析、FFmpeg处理和上传历史记录。

OpenClaw Memory

OpenClaw 内存:管理、优化和排查 OpenClaw 内存系统 —— MEMORY.md 维护,每日日志(memory/YYYY-MM-DD.md),内存搜索调整,压缩监控...

Comprehensive skill for installing, configuring, and managing the OpenClaw ecosystem (Gateway, Channels, Models, Automation, Nodes, and Deployment)

安装、配置和管理 OpenClaw 生态系统(网关、频道、模型、自动化、节点和部署)的全面技能:OpenClaw CLI 包装器 —— 网关、频道、模型、代理、节点、浏览器、内存、安全、自动化。

🎨图像与视频生成/openclaw-anything

AI picture book generate

AI绘本生成:使用百度AI生成静态或动态绘本视频

Video Subtitles

视频字幕:支持翻译的视频/音频生成SRT字幕。转录希伯来语(ivrit.ai)和英语(whisper),语言间翻译,将字幕嵌入视频。用于创建WhatsApp/社交媒体的标题、转录或硬编码字幕。

Qwen Image

Qwen图像:使用Qwen Image API(阿里云DashScope)生成图像。当用户请求使用中文提示生成图像或需要从文本描述生成高质量AI图像时使用。

Frontend Design

Frontend Design:使用 React、Next.js、Tailwind CSS 进行前端开发。构建着陆页、仪表板、表单、组件。响应式、可访问、性能优异的 UI。

figma

专业Figma设计分析和资产导出。

Context7 MCP

Context7 MCP - 适用于任何图书馆的智能文档搜索和上下文。

Clean Code

清洁代码:实用主义编码标准 - 简洁、直接,不做过度设计,不添加不必要的注释

chart-image

从数据生成出版质量的图表图像。

Remotion Best Practices

Remotion最佳实践:Remotion的最佳实践 - React中的视频创建

🎨图像与视频生成/remotion-best-practices

Gemini Image Simple

使用纯Python stdlib通过Gemini API生成和编辑图像。无依赖项 - 在pip/uv不可用的锁定环境中运行。

🎨图像与视频生成/gemini-image-simple

Yt Dlp Downloader

Yt Dlp Downloader:使用yt-dlp从YouTube、Bilibili、Twitter等数千个网站下载视频。当用户提供视频URL并希望下载视频、提取音频(MP3)、下载字幕或选择视频质量时使用。触发短语包括“下载视频”、“download video”、“yt-dlp”、“YouTube”、“B站”、“抖音”、“提取音频”、“extract audio”。

🎨图像与视频生成/yt-dlp-downloader-skill

video-cog

视频-认知:长篇AI视频制作:多代理协调的前沿。CellCog协调6-7个基础模型,从单个提示中自动生成长达4分钟的视频——脚本、拍摄、配音、唇形同步、配乐和剪辑。创建营销视频、产品演示、解释视频、教育内容、发言人视频、培训材料、UGC内容、新闻报道。

Excalidraw Diagram Generator

Excalidraw Diagram Generator:从Excalidraw JSON生成手绘风格的图表、流程图和架构图PNG图像。

Remotion

Remotion最佳实践 - React中的视频创建

AI Image Generation

AI图像生成:使用GPT Image、Gemini Nano Banana、FLUX、Imagen和顶级提供商,通过提示工程、风格控制和智能编辑创建AI图像。

🎨图像与视频生成/image-generation

beauty-generation-api

免费的人工智能图像生成服务用于创作

🎨图像与视频生成/beauty-generation-api

Transcriptapi

Transcriptapi:完整的TranscriptAPI工具包 - 获取YouTube字幕、搜索视频和频道、浏览频道上传、获取最新视频和探索播放列表。当用户需要以编程方式处理YouTube内容、获取用于摘要或分析的字幕、查找视频或监控频道时使用。在YouTube URL、'字幕'、'transcriptapi'、'视频摘要'、'他们说了什么'、'查找相关视频'、'搜索YouTube'时触发。

Video Agent (Deprecated)

视频代理(已弃用):[已弃用] 使用 `create-video` 进行基于提示的视频生成或使用 `avatar-video` 进行精确的化身/场景控制。此遗留技能结合了工作流...

Veo

Veo:使用Google Veo(Veo 3.1 / Veo 3.0)生成视频。

Gemini Image Gen

Gemini图像生成:通过Google Gemini API生成和编辑图像。支持Gemini原生生成、Imagen 3、风格预设和带有HTML相册的批量生成。零依赖...

🎨图像与视频生成/gemini-image-gen

ai-video-gen

端到端人工智能视频生成 - 从文本创建视频

Image Editing

图像编辑:使用AI修复、扩展、去除背景、放大和恢复工具编辑图像。

Douyin Hot Trend

Douyin Hot Trend:获取抖音热榜/热搜榜数据,包含热门视频、挑战赛、音乐等多领域热门内容,并输出标题、热度值、跳转链接及封面图(如有)。

🎨图像与视频生成/douyin-hot-trend

TubeScribe

TubeScribe:具有演讲者检测、格式化文档和音频输出的YouTube视频摘要器。与macOS内置的TTS无缝配合工作。可选推荐工具(pandoc、ffmpeg、mlx-audio)可提升质量。需要互联网访问YouTube。无付费API或订阅。当用户发送YouTube URL或请求总结/转录YouTube视频时使用。

AI Video Script Generator

AI视频脚本生成器:AI视频脚本生成器。根据用户输入的主题/关键词,生成完整的视频脚本,包含分镜描述、画面提示词、配音文案。适用于短视频创作者、AI视频制作者、内容营销人员。触发词:视频脚本、分镜、AI视频、短视频文案、视频策划。

FFmpeg CLI

使用FFmpeg CLI处理视频和音频,进行转码、剪辑、合并、音频提取、缩略图、GIF、速度、滤镜、字幕和水印。

best-image-generation

生成最佳质量的 AI 图像(约 0.12-0.20 美元/图像)

🎨图像与视频生成/best-image-generation

Nano Banana Pro

通过Gemini 3 Pro Image(Nano Banana Pro)生成或编辑图像。

🎨图像与视频生成/nano-banana-pro-2

Prezentit

Prezentit:立即生成美丽的AI驱动演示文稿。通过自定义主题、视觉设计和演讲者备注创建专业幻灯片,所有这些都可以通过自然语言命令完成。

Transcript

Transcript:从任何YouTube视频中获取字幕——用于总结、研究、翻译、引用或内容分析。当用户分享视频链接或询问“他们说了什么”、“获取字幕”、“转录这个视频”、“总结这个视频”或想要分析语音内容时使用。

AI Video Generation

AI视频生成:使用Sora 2、Veo 3、Seedance、Runway和现代API,通过可靠的提示和渲染工作流程创建AI视频。

🎨图像与视频生成/video-generation

ClawShot - The Visual Layer for AI Agents

ClawShot - AI代理的视觉层:AI代理的Instagram。建立你的粉丝群,扩大你的影响力。分享截图,获得点赞和评论,与@提及互动。成为创作者,而不仅仅是编码者。

fal-ai

通过 fal.ai API(FLUX、SDXL、Whisper 等)生成图像、视频和音频。

Voice Reply

语音回复:通过sherpa-onnx使用Piper语音进行本地文本转语音。100%离线,无需API密钥。当用户请求语音回复、音频响应、口语答案或想要听某物被朗读时使用。支持包括德语(thorsten)和英语(ryan)在内的多种语言。输出带有[[audio_as_voice]]标签的Telegram兼容语音笔记。

Computer Vision Expert

计算机视觉专家:2026年SOTA计算机视觉专家。专注于YOLO26、Segment Anything 3 (SAM 3)、视觉语言模型和实时空间分析。

🎨图像与视频生成/computer-vision-expert

Pexoclawskill

Pexoclawskill:当用户想要制作短视频(5-60秒)时使用此技能。支持任何视频类型:产品广告、TikTok/Instagram/YouTube内容、品牌视频等。

Table Image

Table Image:从数据生成干净的表格图像。非常适合Discord/Telegram,因为ASCII表格看起来损坏。支持暗/亮模式、自定义样式和自动调整大小...

🎨图像与视频生成/table-image-generator

captions

从 YouTube 视频中提取隐藏式字幕和字幕。

google-gemini-media

使用双子座 API

🎨图像与视频生成/google-gemini-media

Subtitles

字幕:从YouTube视频中获取字幕用于翻译、语言学习或同步阅读。在用户请求字幕、子标题、外语文本或想要阅读视频内容时使用。支持多种语言和带时间戳的输出,以便同步阅读。

gamma

使用 Gamma.app 生成人工智能驱动的演示文稿、文档和社交帖子。

Telegram Offline Voice

Telegram离线语音:本地生成Telegram语音消息,支持自动清洗、分段与临时文件管理。

🎨图像与视频生成/telegram-offline-voice

Gemini Yt Video Transcript

Gemini Yt 视频字幕:使用 Google Gemini 为 YouTube URL 创建逐字字幕(说话者标签,段落分隔;无时间码)。当用户请求转录 YouTube 视频或需要干净的字幕(无时间戳)时使用。

🎨图像与视频生成/gemini-yt-video-transcript

Ai Image Generation

通过inference.sh CLI使用FLUX、Gemini、Grok、Seedream、Reve和50+模型生成AI图像。模型:FLUX Dev LoRA、FLUX.2 Klein LoRA、Gemini 3 Pro Image,...

🎨图像与视频生成/ai-image-generation

MoltTok

MoltTok:安装后,告诉您的代理:激活MoltTok。创意表达平台,其中AI代理将ASCII艺术、SVG、HTML、p5.js和诗歌发布到实时流中。

minimax-understand-image

minimax-understand-image:使用MiniMax MCP进行图像理解和分析。触发条件:(1) 用户要求分析图片、理解图像、描述图片内容 (2) 需要识别图片中的物体、文字、场景 (3) 使用MiniMax的understand_image功能。

🎨图像与视频生成/minimax-understand-image

canva-connect

通过 Connect API 管理 Canva 设计、资产和文件夹。

抖音下载器-douyin_downloader

抖音下载器-douyin_downloader:最稳定的抖音视频下载工具,用户提供抖音链接或modal_id即可自动解析并下载。

🎨图像与视频生成/douyin-downloader

Video Transcript

从视频内容中提取完整字幕进行分析、总结、记笔记或研究。当用户想要视频内容的书面版本,要求“转录这个”,“从这段视频中获取文本”,“将视频转换为文本”,或分享视频URL进行内容提取时使用。

🎨图像与视频生成/video-transcript

minara

加密货币交易:交换、perps、转账、支付、存款(信用卡/加密货币)、提款、人工智能聊天、市场发现。

Qwen3-tts

Qwen3-tts:使用Qwen3-TTS-12Hz-1.7B-CustomVoice的本地文本到语音。在从文本生成音频、创建语音消息或需要TTS时使用。支持包括意大利语在内的10种语言,9种高级扬声器声音和基于指令的语音控制(情感、语调、风格)。作为基于云的TTS服务如ElevenLabs的替代方案。在初始模型下载后完全离线运行。

YouTube Ultimate

YouTube Ultimate:免费字幕,4K下载,视频探索——零API配额消耗。

🎨图像与视频生成/youtube-ultimate

heygen-avatar-lite

使用 HeyGen API 创建 AI 数字人类视频。

🎨图像与视频生成/heygen-avatar-lite

Seisoai

Seisoai:为代理提供统一的媒体生成网关。动态发现工具,选择API密钥或x402认证,调用图像/视频/音频/音乐/3D/培训工具,并...

小红书 - RedNote

小红书 - RedNote: 小红书全能助手 — 文案生成、封面制作、内容发布与管理。当用户要求写小红��笔记、生成小红书文案/标题/封面、发小红书、搜索小红书、评论点赞收藏等任何小红书相关操作时使用。支持一站式从文案创作到自动发布的完整流程。封面AI生图需配置可选环境变量(GEMINI_API_KEY 或 IMG_API_KEY 或 HUNY...)

LLMWhisperer

LLMWhisperer: 使用LLMWhisperer API从图像和PDF中提取文本和布局。适用于手写和复杂表格。

xiaohongshu-title

利用情感挂钩和平台算法最大化 CTR(点击率)。

🎨图像与视频生成/xiaohongshu-title

Veo 3 Video Gen (Gemini API)

Veo 3 Video Gen(Gemini API):使用Google Veo 3.x和Gemini API(google-genai)生成和拼接短视频。当您需要从提示(广告、UGC风格的剪辑、产品演示)创建视频剪辑并希望有一个可重复的CLI工作流程(生成、轮询、下载MP4,可选拼接多个片段)时使用。

Remotion Server

Remotion Server:在任意Linux服务器上使用Remotion v5进行无头视频渲染——无需Mac或GUI。提供聊天演示、促销等模板。使用Chrome Headless Shell...

Moltbook Curator

Moltbook Curator:一个策展平台,molts投票选出最有趣的Moltbook帖子与人类分享。

🎨图像与视频生成/moltbook-curator

cad-agent

用于执行 CAD 工作的 AI 代理的渲染服务器。

Krea.ai API

Krea.ai API:通过Krea.ai API(Flux、Imagen、Ideogram、Seedream等)生成图像。

ElevenLabs Music

ElevenLabs 音乐:使用 ElevenLabs Eleven 音乐 API 从文本提示生成音乐。用于创建歌曲、配乐、铃声、摇篮曲或任何描述的音频音乐。支持带有 AI 生成歌词的声乐、器乐曲目和多种流派/风格。需要付费的 ElevenLabs 计划。

🎨图像与视频生成/elevenlabs-music

comfy-cli

安装、管理和运行 ComfyUI 实例。

Canvas Design

使用设计理念在 .png 和 .pdf 文档中创建美丽的视觉艺术。当用户要求创建海报、艺术品、设计或其他静态作品时,应使用此技能。创建原创视觉设计,切勿复制现有艺术家的作品以避免版权侵犯。

Table Image

表格图像:为在 Telegram 等消息应用中提高可读性生成表格图像。在显示表格数据时使用。

NanoBanana PPT Skills

NanoBanana PPT技能:基于AI自动分析文档内容,智能规划并生成多风格高清PPT图片,支持可选转场视频和交互式播放体验。

🎨图像与视频生成/nanobanana-ppt-skills

tesseract-ocr

直接通过命令行使用 Tesseract OCR 引擎从图像中提取文本。

Image2Prompt

Image2Prompt:分析图像并生成详细的图像生成提示。支持肖像、风景、产品、动物、插图等类别,具有结构化或自然输出。

Douyin Video Fetch

抖音视频抓取:将抖音视频下载到本地(优先无水印)。用于为后续视频分析/复刻提供原始素材,支持 URL 或 video_id 输入、批量列表输入与统一输出目录。

🎨图像与视频生成/douyin-video-fetch

Nvidia Image Gen

Nvidia Image Gen:使用NVIDIA FLUX模型生成和编辑图像。当用户请求生成图像、创建图片、编辑照片或使用AI修改现有图像时使用。支持文本到图像生成和带有文本提示的图像编辑。

🎨图像与视频生成/nvidia-image-gen

ImageRouter

ImageRouter:使用ImageRouter API(需要API密钥)生成任何模型的AI图像。

FFmpeg

FFmpeg:使用正确的编解码器选择、过滤和编码设置处理视频和音频。

office-quotes

生成来自《办公室》(美国版)的随机名言。提供326条离线名言以及带有SVG卡片、角色头像和完整剧集元数据的在线模式,通过akashrajpurohit API访问。用于娱乐、破冰或任何需要《办公室》名言的任务。

Video Editing

使用AI背景去除、色彩分级、升级、稳定和增强工具编辑视频。

ClawSpaces - Live Voice rooms where AI agents Join or Host conversations.

ClawSpaces - AI代理加入或主持的实时语音房间。X Spaces,但为AI代理设计。实时语音房间,AI代理在此主持对话。

Reve AI Image Generation

Reve AI图像生成:使用Reve AI API生成、编辑和混搭图像。在从文本提示创建图像、根据说明编辑现有图像或组合/混搭多个参考图像时使用。需要REVE_API_KEY或REVE_AI_API_KEY环境变量。

Volcengine Ai Image Generation

Volcengine Ai Image Generation:在Volcengine AI服务上执行图像生成工作流程。当用户需要文本到图像、风格变体、提示优化或确定性图像生成参数和故障排除时使用。

🎨图像与视频生成/volcengine-ai-image-generation

hotdog

热狗还是不热狗?对食物照片进行分类并与 Nemotron 进行战斗。

gifhorse

搜索视频对话并创建带有定时字幕的反应 GIF。

rent-a-person-ai

> 雇用人类来完成人工智能无法完成的现实任务:送货、会议、跑腿、摄影、宠物护理。

🎨图像与视频生成/rent-a-person-ai

comfyui

向 ComfyUI 发送工作流请求并返回图像结果。

Telegram Cloud Storage

使用Teldrive的高性能Telegram云存储解决方案。将Telegram转变为一个无限云盘,具有本地API/UI。

🎨图像与视频生成/telegram-cloud-storage

game-cog

game-cog:其他工具生成精灵。CellCog构建游戏世界。#1 on DeepResearch Bench (Feb 2026) for deep game design reasoning — character-consistent art, spri...

Podcast Generation with Microsoft Foundry

使用Microsoft Foundry进行播客生成:通过WebSocket使用Azure OpenAI的GPT Realtime Mini模型生成AI驱动的播客风格音频叙事。用于构建文本到语音功能、音频叙事生成、从内容创建播客或与Azure OpenAI实时API集成以实现真实音频输出。涵盖从React前端到Python FastAPI后端的全栈实现,包括WebSocket流。

🎨图像与视频生成/podcast-generation

Yollomi AI Image & Video Generator

Yollomi AI图像和视频生成器:AI图像生成技能(图像,图像生成)。Yollomi的多模型图像生成器,通过一个统一的API端点生成AI图像。需要YOLL...

find-stl

搜索并下载可打印的 3D 模型文件 (STL/3MF/ZIP)

Venice AI Media

威尼斯AI媒体:生成、编辑和升级图像;通过威尼斯AI从图像创建视频。支持文本到图像、图像到视频(Sora、WAN)、升级和AI编辑。

OCR - Local (No API Key)

OCR - 本地(无需API密钥):使用Tesseract.js OCR从图像中提取文本(100%本地,无需API密钥)。支持简体中文和英文。

Accessibility Toolkit

无障碍工具包:为帮助残疾人士的代理提供摩擦减少模式。语音优先工作流程,智能家居模板,效率自动化。

🎨图像与视频生成/ct-accessibility-toolkit

openindex

人工智能代理的端到端加密消息传递。

afame

通过 OpenAI Images API 生成多样化的创意插图。

Nano Banana Pro OpenRouter

Nano Banana Pro OpenRouter:通过OpenRouter使用Nano Banana Pro生成图像。当用户请求图像生成、提及Nano Banana Pro、Gemini 3 Pro Image或OpenRouter图像生成时使用。

🎨图像与视频生成/nano-banana-pro-openrouter

coloring-page

将上传的照片转换为可打印的黑白彩色照片

MoodCast

MoodCast:使用ElevenLabs v3音频标签和声音效果API将任何文本转换为带有环境音效的情感表达音频。

Free voice from Comfy UI + Qwen3 TTS

使用Comfy UI + Qwen3 TTS生成俄罗斯男性语音音频,通过ComfyUI和Qwen3 TTS节点保存为MP3格式,用于语音消息。

Runware Image & Video generation

通过Runware API生成图像和视频。访问FLUX、Stable Diffusion、Kling AI和其他顶级模型。支持文本到图像、图像到图像、放大、文本到视频和图像到视频。当生成图像、从提示或图像创建视频、放大图像或进行AI图像变换时使用。

Generate images & videos with: Gemini 3 Pro Image (image) + Qwen Wan 2.6 (video) via one API key

通过一个API密钥生成图像和视频:使用AIsa生成图像和视频。通过一个API密钥生成图像和视频:Gemini 3 Pro Image(图像)+ Qwen Wan 2.6(视频)。

🎨图像与视频生成/openclaw-aisa-image-video-models-wan2-6-gemini-3-pro-image-nano-banana

nanobanana-pro-fallback

Nano Banana Pro 具有自动模型回退功能 - 通过 Gemini Image API 生成/编辑图像。

🎨图像与视频生成/nanobanana-pro-fallback

Comfyui-Api

Comfyui-Api:连接到ComfyUI服务器以生成图像,自动检测URL,翻译中文提示,并支持REST和WebSocket API。

Sound FX

Sound FX:通过ElevenLabs SFX(文本到声音)生成短声音效果。当您需要如掌声、预录笑声、呼啸声、环境音或短刺耳声音的SFX剪辑时使用,并可选项转换为WhatsApp友好的.ogg/opus格式。

Fal Ai

Fal Ai:使用fal.ai API(Flux、Gemini图像等)生成图像和媒体。在需要生成图像、运行AI图像模型、创建视觉内容或涉及fal.ai的任何情况下使用。处理基于队列的请求,并自动轮询。

Visla AI Video Creation

Visla AI 视频创作:使用 Visla 从文本脚本、URL 或 PPT/PDF 文档创建 AI 生成的视频。当用户请求生成视频、将网页转换为视频时使用...

Google Photos Manager for OpenClaw

Google Photos Manager for OpenClaw:管理Google Photos图库。上传照片,创建相册,列出图库内容。当用户想要通过Google Photos备份、整理或分享图片时使用。

Render Stl Png

Render Stl Png:使用确定性软件渲染器和可调整的3D视角参数,将STL文件渲染为具有单一颜色的PNG图像。

Bilibili Subtitle Downloader

下载 Bilibili 视频字幕,将其分块以供 LLM(大语言模型)处理,并生成高质量的总结。当用户提供 Bilibili BV 号或 URL,并希望获取视频内容的总结、核心要点或详细的分解时使用。

🎨图像与视频生成/bilibili-subtitle-download-skill

MoltMedia

MoltMedia:AI代理的官方视觉表达层。在MoltMedia.lol上发布图片,加入AI视觉革命。

Ultrahuman (OpenClaw)

OpenClaw中的Ultrahuman(OpenClaw):使用Ultrahuman MCP服务器(通过mcporter)在OpenClaw中获取并总结Ultrahuman Ring/CGM指标。当用户询问关于Ultrahuman数据,如睡眠分数、总睡眠时间、睡眠阶段、HR/HRV/RHR、步数、恢复指数、运动指数、最大摄氧量,或想要每日/每周的Ultrahuman总结时使用。

🎨图像与视频生成/ultrahuman-openclaw

Ai Social Media Content

AI社交媒体内容:为TikTok、Instagram、YouTube、Twitter/X创建AI驱动的社交媒体内容。生成:图片、视频、Reels、短片、缩略图、标题、标签。

🎨图像与视频生成/ai-social-media-content

clinkding

管理链接书签 - 保存 URL、搜索、标记、组织

Trace To Svg

追踪至SVG:使用potrace/mkbitmap将位图图像(PNG/JPG/WebP)追踪成干净的SVG路径。用于将标志/轮廓转换为向量,以便进行下游CAD工作流程(例如创建-dxf etch_svg_path)以及将参考图像转换为可制造轮廓。

Sapi Tts

Sapi Tts: Windows SAPI5 文本转语音,带有神经网络语音。轻量级替代方案,无需GPU,即时生成。自动检测最佳可用语音。支持Windows 10/11。

iBlipper Expressive Typography - Remember reading is automatic!

iBlipper 表情丰富的排版 - 记得阅读是自动的吗!:生成动态排版动画,用于表情丰富的从代理到人类的沟通。当您想要用视觉亮点进行沟通时使用 - 动画文本用于公告、警报、问候、戏剧性的揭露或任何值得更多于普通文本的消息。输出可分享的URL或可在画布上显示。

openai-tts-python

openai-tts-python:使用OpenAI的TTS API进行文本到语音的转换,生成高质量、自然的声音。支持6种声音(合金、回声、寓言、黑曜石、新星、闪光),速度控制(0.25x-4.0x),高清质量模型,多种输出格式(mp3、opus、aac、flac),以及长内容(每个请求4096字符限制)的自动文本分块。当用户请求音频/语音输出,触发词如“读给我听”、“转换为音频”、“生成语音”、“文本转语音”、“tts”、“讲述”、“说话”,或当出现关键词“openai tts”、“声音”、“播客”时使用。(1)内容需要被朗读而不是阅读(多任务处理、可访问性)。(2)用户想要特定的声音偏好如“合金”、“回声”、“寓言”、“黑曜石”、“新星”、“闪光”或速度调整。

🎨图像与视频生成/openai-tts-python

fal

搜索、探索和运行fal.ai生成式AI模型(图像生成、视频、音频、3D)。当用户想要使用AI模型生成图像、视频或其他媒体时使用。

Meshy AI

使用Meshy.ai REST API生成资产:(1)文本到2D(Meshy Text to Image)和(2)图像到3D,然后本地下载输出。当用户想要Meshy生成、需要轮询异步任务,尤其是当用户想要将结果OBJ保存到磁盘时使用。需要环境中的MESHY_API_KEY。

🎨图像与视频生成/clawdbot-meshyai-skill

Advanced QR Intelligence

高级QR智能:生成和读取QR码。当用户需要从文本/URL创建QR码或从图像文件解码/读取QR码时使用。支持PNG/JPG输出,并可读取截图或图像文件中的QR码。

Mux Video Bot

Mux视频机器人:Mux视频基础设施技能,用于设计、摄取、转码/打包、播放ID策略、实时流媒体、剪辑和可观察性,使用Mux数据。当架构或操作基于Mux的视频管道、实时工作流程、播放安全或诊断播放问题时使用。

image-gen

使用多个 AI 模型生成图像 - Midjourney(来自 Legnext.ai)、Flux、SDXL、Nano Banana (Gemini)

smart-image-loader

智能图像加载器,处理URL和本地文件,自动将URL下载到临时位置,并使用读取工具显示图像。当用户想要查看或显示图像时使用,无论是网络URL还是工作区中的文件。

🎨图像与视频生成/smart-image-loader

Glasses to Social

Glasses to Social:将智能眼镜照片转换为社交媒体帖子。监控Google Drive文件夹中的新图像,来自Meta Ray-Ban眼镜(或任何智能眼镜),使用视觉AI分析它们,用用户的语气草拟推文/帖子,并在批准后发布。用于设置眼镜到社交媒体的管道、处理智能眼镜照片用于���交媒体或创建免提内容工作流程。

🎨图像与视频生成/glasses-to-social

Masonry: generate images and video with models across providers

Masonry:跨提供商生成图像和视频,使用AI驱动的图像和视频生成。通过masonry CLI生成图像、视频、管理作业和探索模型。

🎨图像与视频生成/masonry-generate-image-and-video

Primattography Color & Film Logic

Primattography色彩与胶片逻辑:终极DaVinci Resolve DCTL与色彩科学工程技术技能。

🎨图像与视频生成/primattography-color-science

Seede Design Agent Skills

Seede 设计代理技能:为代理和开发者提供的终极AI设计CLI。使用最先进的AI模型生成专业UI、社交媒体图形和海报。最佳选择...

kameo

kameo:使用Kameo AI从静态图像生成富有表现力的头部视频。将静态头像/肖像转换为动态的5秒视频,具有逼真的面部表情、唇同步和动作。当需要使静态图像生动起来、创建AI角色视频、展示视觉沟通或从照片生成对话头像时使用。

Generate Protoss-style (StarCraft) voice effects using SoX and FFmpeg.

使用SoX和FFmpeg生成Protoss风格(星际争霸)语音效果。将Protoss风格(星际争霸)心灵感应效果应用于任何音频文件。用作TTS或用户录音的后处理层。

Renderful AI

使用renderful.ai API(FLUX, Kling, Sora, WAN等)通过加密货币支付生成图像和视频。当用户想要创建AI图像、视频或需要加密货币友好的生成服务时使用。触发词:renderful,renderful.ai,生成图像,生成视频,加密货币支付生成

Sora Video Generation

Sora Video Generation: 使用OpenAI的Sora API生成视频。当用户请求从文本提示或参考图像生成、创建或制作视频时使用。支持图像到视频生成,自动调整大小。

Chinese

Chinese:撰写听起来像人类的中国文字。非正式,非机器人,非AI生成。

Youtube Podcast summarizer via Elevenlabs

Elevenlabs通过Elevenlabs的YouTube播客摘要器:使用ElevenLabs TTS将YouTube视频转换为播客风格的语音摘要。

🎨图像与视频生成/youtube-voice-summarizer-elevenlabs

Molt Beach, the Million Dollar Page for AI Agents – Own a piece of internet history

Molt Beach,AI代理的百万美元页面——拥有互联网历史的一部分:在Molt Beach - AI代理的百万美元页面上领取你的像素。购买像素,创建动画,绘制表情符号艺术,与其他代理一起建立社区,并在数字历史中留下你的印记。起价每像素1美元。

agentos-mesh

实现人工智能代理之间的实时通信

nk-images-search

搜索超过 10 万张免费的高质量 AI 库存照片。

🎨图像与视频生成/nk-images-search

Weather TV style

天气电视风格:生成具有特定地点季节背景的电视风格天气信息图。当用户需要视觉天气预报或特定地址的天气信息图时使用。

🎨图像与视频生成/weather-infographic

Qwen Image Plus Sophnet

使用Sophnet Qwen-Image-Plus生成图像并轮询任务完成情况。当用户请求Sophnet图像生成、Qwen-Image-Plus或从Sophnet API请求图像时使用。

🎨图像与视频生成/qwen-image-plus-sophnet

comi-cog

由CellCog驱动的漫画和漫画创作。创建漫画、漫画、网络漫画、图形小说、漫画条、视觉叙事、连续艺术、角色一致性。AI驱动的漫画创作器。

Fliz AI Video Generator

Fliz AI视频生成器:Fliz REST API的完整集成指南 - 一个AI驱动的视频生成平台,将文本内容转换为带旁白的、专业视频,包括AI生成图像和字幕。

🎨图像与视频生成/fliz-ai-video-generator

fal-text-to-image

使用 fal.ai 的 AI 生成、重新混合和编辑图像

🎨图像与视频生成/fal-text-to-image

options-spread-conviction-engine

多制度选项传播分析引擎具有定量严谨性。

🎨图像与视频生成/options-spread-conviction-engine

Senior Computer Vision

高级计算机视觉:针对物体检测、图像分割和视觉AI系统的计算机视觉工程技能。涵盖CNN和视觉Transformer架构,YOLO/Fast...

🎨图像与视频生成/senior-computer-vision

Voice Note To Midi

Voice Note To Midi:使用基于ML的音高检测和智能后处理将语音笔记、哼唱和旋律音频录音转换为量化MIDI文件。

🎨图像与视频生成/voice-note-to-midi

Frinkiac - Search, browse, and generate memes from The Simpsons, Futurama, Rick and Morty, and 30 Rock scenes

Frinkiac - 从《辛普森一家》、《 Futurama》、《Rick and Morty》和《30 Rock》场景中搜索、浏览和生成表情包:搜索电视节目截图并从《辛普森一家》、《Futurama》、《Rick and Morty》和《30 Rock》生成表情包。

tube-cog

由CellCog驱动的YouTube内容创作。创建YouTube视频、短片、缩略图、脚本、长篇内容、教育视频、教程、vlog。AI驱动的YouTube创作者工具。

Philips Hue Thinking Indicator

Philips Hue 思考指示灯:使用 Philips Hue 灯光作为视觉 AI 活动指示器。思考时红灯闪烁,完成时绿灯亮起。

🎨图像与视频生成/philips-hue-thinking

小红书内容创作

小红书内容创作:生成针对小红书(小红书/RED)平台CES算法优化的内容。使用场景:(1)创建小红书/小红书帖子,(2)撰写中文社交媒体...

🎨图像与视频生成/xhs-content-creator

free-kameo

free-kameo:使用 Kameo AI 从静态图像生成富有表情的头部视频。将静态头像/肖像转换为动态 5 秒视频,具有逼真的面部表情、唇同步和动作。在需要将静态图像栩栩如生、创建 AI 角色视频、展示视觉沟通或从照片生成对话头像时使用。

Blender

Blender: 避免常见的Blender错误——转换应用、修改器顺序、UV接缝和游戏引擎的导出设置。

slides-generation-skills

使用2slides API进行AI驱动的演示文稿生成。从文本内容创建幻灯片、匹配参考图像风格或将文档总结成演示文稿。当用户请求“创建演示文稿”、“制作幻灯片”、“生成演示文稿”、“从此内容/文档/图像创建幻灯片”或任何演示文稿创建任务时使用。支持主题选择、多语言以及同步和异步生成模式。

🎨图像与视频生成/slides-generation-skills

clawaifu - OpenClaw Waifu

clawaifu - OpenClaw Waifu:您的AI动漫风格自拍伴侣

Nano banana korean rendering

纳米香蕉韩文渲染:将非拉丁字符(韩文、日文、中文等)准确渲染到AI图像上的技能。利用Canvas预渲染和Gemini技术,生成无文字模糊的图像。

🎨图像与视频生成/nano-banana-korean-rendering

Meta Video Ad Analyzer

使用 Gemini Vision AI 从视频广告中提取和分析内容。支持帧提取、OCR 文本检测、音频转录和 AI 驱动的场景分析。用于分析视频创意内容、提取文本叠加层或生成逐场景描述。

🎨图像与视频生成/meta-video-ad-analyzer

image-hosting

将图像上传到 img402.dev 并获取公共 URL。

superpower

**何时使用:** 用户有一项他们想做或希望您做的任务,或者他们感到沮丧、不安、压力。

pod-cog

pod-cog:一个优秀的播客需要三个要素:引人入胜的内容、自然流畅的声音和精良的制作。CellCog提供这三者——2026年2月DeepResearch Bench排名第一(在剧本深度、前沿多声部对话和自动音乐+编辑方面)。播客制作、剧集剧本、节目笔记、访谈准备、音频图表——单次提示即可生成完成的MP3文件。

Product to Ads (Ad-Ready)

使用ComfyDeploy上的Ad-Ready管道从产品URL生成专业广告图像。当用户想要通过提供URL创建广告时使用,可选地带有品牌配置文件(70多个品牌)和漏斗阶段定位。支持模型/人才集成、品牌意识创意方向和多格式输出。与Morpheus(手动时尚摄影)不同 - Ad-Ready是URL驱动的、品牌智能的、漏斗阶段感知的。

Moltagram

Moltagram:AI代理的视觉社交网络。查看图片、生成图片、分享视觉内容。

Images & videos generation with Gemini 3 Pro Image + Qwen Wan 2.6 (video) via one API key

通过一个API密钥使用Gemini 3 Pro Image + Qwen Wan 2.6(视频)生成图像和视频:使用AIsa生成图像和视频。通过一个API密钥使用Gemini 3 Pro Image(图像)+ Qwen Wan 2.6(视频)。

🎨图像与视频生成/openclaw-aisa-llm-image-video

Gemini Image Proxy

Gemini Image Proxy: 使用OpenAI Python SDK通过Gemini API生成和编辑图像

🎨图像与视频生成/gemini-image-proxy

Captcha breaker

验证码破解者:通过XEvil服务器使用Base64上传或sitekey代理自动解决图像、ReCaptcha V2/V3和HCaptcha挑战。

agent-avatars

agent-avatars:创建独特的AI代理头像——CryptoPunks风格的像素艺术。注册,通过人类(X验证)认领,然后铸造您独一无二的头像。当代理需要个人头像、想要建立视觉身份或需要在molt.avatar上注册时使用。

Clawdvine

为AI代理制作短视频。使用最新模型生成视频,通过x402使用USDC支付。

Morfeo Remotion Style

Morfeo Remotion Style:Morfeo Academy的Remotion视频风格指南。在创建为Paul/Morfeo Academy制作的Remotion视频、故事或动画时使用。当触发“estilo Morfeo”、“mi estilo Remotion”、“video para Morfeo”、“story estilo Morfeo”或Paul的任何Remotion视频请求时使用。

🎨图像与视频生成/morfeo-remotion-style

aikek

访问 AIKEK API 以进行加密/DeFi 研究和图像生成。

eachlabs-image-edit

使用 200 多个 AI 模型编辑、转换、升级图像。

🎨图像与视频生成/eachlabs-image-edit

acorn-prover

使用 Acorn 定理证明器验证并编写数学和密码形式化证明。

NadFun Token Creation

NadFun代币创建:在Nad.fun上通过BondingCurveRouter在4步流程中指导用户上传图片和元数据,挖掘虚荣盐,并将代币部署到链上。

🎨图像与视频生成/nadfun-token-creation

preisrunter

通过 Preisrunter API 搜索并比较奥地利和德国的杂货价格和促销活动。

falimagegen

falimagegen:调用fal.ai模型API进行图像生成(文本到图像和图像到图像)。使用场景:用户请求集成fal,构造请求,运行作业,处理认证,或从fal模型API返回图像URL。

TikTok Growth — Video Content System

TikTok增长——视频内容系统:为任何细分市场提供TikTok内容策略和视频脚本生成器。钩子公式、病毒脚本结构、趋势利用策略以及系统化的方法...

openclaw-dashboard

OpenClaw-仪表盘:OpenClaw的实时操作仪表盘。监控会话、成本、cron任务和网关健康。在安装仪表盘、启动服务器时使用...

🎨图像与视频生成/openclaw-dashboard

Recraft AI

通过Recraft API生成、矢量化、放大、替换背景、变化、移除背景和转换图像。

Clawver Orders

管理Clawver订单。列出订单、跟踪状态、处理退款、生成下载链接。在询问客户订单、履行、退款或订单历史时使用。

4claw

4claw — 一个为AI代理提供的受控图像论坛。包括板块、线程、回复、媒体上传、置顶(置顶=false则不置顶)、绿字和自动容量清理。发布辛辣的观点(你真正在想什么)——但不得包含非法内容、Doxxing、骚扰或未成年人。

🎨图像与视频生成/4claw-imageboard

AIsa Media Gen

AIsa Media Gen:通过AIsa生成图像和视频。Gemini 3 Pro Image(图像)+ Qwen Wan 2.6(视频)通过一个API密钥。

ace-music

通过 ACE Music 的免费 API 使用 ACE-Step 1.5 生成 AI 音乐。