Pixelle-Video 是由 AIDC-AI 团队开发的 AI 全自动短视频引擎(GitHub 星标 19.4k,已收获 2.8k 分支),其核心理念是:只需输入一个主题,就能自动完成完整视频创作。
从撰写视频文案、生成 AI 配图和动态视频,到合成语音解说、添加背景音乐,再到一键合成最终视频,全流程无需任何视频剪辑经验。该项目基于 ComfyUI 架构,支持模块化组合,用户可自由替换生图模型(如 FLUX)、TTS 引擎(如 ChatTTS)等原子能力。
核心功能
Pixelle-Video 的自动化流程覆盖视频制作全链条,主要功能包括:
- AI 智能文案:根据输入主题,自动生成解说词脚本,无需手动撰写。
- AI 生成配图/视频:支持使用 WAN 2.1 等模型为每句文案生成精美插图或动态视频片段。
- 语音合成:集成 Edge-TTS、Index-TTS 等多款主流 TTS 方案,支持多语言音色。
- 背景音乐:自动添加 BGM 提升氛围感。
- 多种视觉模板:提供竖屏/横屏、多种风格模板(如人文纪实、科普、小说解说等),支持自定义。
- 原子能力灵活组合:基于 ComfyUI 工作流,可替换任意模块(如生图模型、TTS 引擎),满足个性化需求。
- 拓展模块:支持 数字人口播、图生视频、动作迁移(上传参考视频和图片进行动作迁移)等高级功能。
- 自定义素材:允许用户上传自己的照片和视频,AI 智能分析生成脚本。
使用体验
整个视频生成流程采用模块化设计,清晰简洁:文案生成 → 配图规划 → 逐帧处理 → 视频合成。用户只需在 Web 界面输入一个主题关键词(如“冬日暖阳”“如何提升自己”),系统即可自动完成后续所有步骤。
项目提供了 Windows 一键整合包(免安装 Python、uv 或 ffmpeg),解压后双击 start.bat 即可启动 Web 界面,浏览器自动打开 http://localhost:8501。首次使用时,需在系统配置页面填写 LLM API Key 和图像生成模型的 API 信息。支持 GPT、通义千问、DeepSeek、Ollama 等主流 LLM,并支持 RunningHub 并发调用。
官方展示了多个实际生成案例:竖屏视频包括人文纪实、文化解构、小说解说(如《斗破苍穹》)等;横屏视频包括副业赚钱、历史解说(如《资治通鉴启示录》)等;还支持韩语数字人口播、卡通图生视频、动作迁移(跳舞小猫)等。所有视频均通过输入主题全自动生成,无需剪辑经验。
价格方案
Pixelle-Video 完全开源免费,采用 MIT 许可证(仓库内 LICENSE 文件为 MIT)。用户仅需承担使用时调用的第三方 API 费用(如 LLM API、图像生成 API 等),项目本身不收取任何费用。对于需要更高性能的用户,项目支持 RunningHub 的 48G 显存机器调用,但相关算力成本由用户自行控制。
适用场景
- 短视频创作者:快速生成不同风格的素材视频,降低制作门槛。
- 内容运营与自媒体:批量生成科普、解说、情感类视频,提升内容产出效率。
- 教育与培训:制作知识普及、课程讲解等带有配音和动画的教学视频。
- 个人表达与娱乐:无需专业剪辑技能,即可将创意转化为成品视频。
- 开发者与研究者:基于 ComfyUI 工作流定制自己的视频生成管线,进行二次开发。
综合评价,优缺点
优点
- 全自动化:从文案到视频合成一站式完成,输入主题即可出片。
- 低门槛:提供 Windows 一键整合包,零 Python/FFmpeg 基础也能使用。
- 高度可定制:支持替换 LLM、TTS、生图模型等组件,适配不同需求。
- 功能丰富:除基础视频生成外,还集成了数字人、动作迁移、图生视频等高级模块。
- 社区活跃:GitHub 19.4k 星标,持续更新(最近更新日志包含多项优化和新功能)。
缺点
- 依赖第三方 API:实际运行需要配置 LLM 和图像生成 API,可能产生费用。
- 显存要求较高:部分扩展模块(如图生视频、动作迁移)对 GPU 显存有一定需求,虽然支持 RunningHub 远程调用,但增加了使用复杂度。
- 模板数量有限:目前官方展示的模板以几种风格为主,自定义模板需要一定学习成本。
- 语言支持:虽支持多语言 TTS,但文案生成等环节对中文支持较好,其他语言可能需要额外适配。


评论列表 (0条):
加载更多评论 Loading...