Blog

  • 如何获得扣子空间邀请码,免费共享互助

    扣子空间(Coze Space)是字节跳动推出的通用型 AI Agent,通过AI Agent技术革新传统办公模式,为用户提供智能化任务处理解决方案。从回答问题,到解决问题,让 Agent 帮你完成更多的工作。专家 Agent 生态,让更专业 Agent 来为你提供服务。探索/规划双模式,更好地和 Agent 一起协作完成高难度任务。MCP 扩展集成,无限拓展 Agent 能力边界。扣子空间(Coze Space)正式开启内测,填写邀请码即可体验。

    Coze Space

     

    如何获得扣子空间邀请码

    • 访问官网:访问扣子空间官网,注册或登录,扣子空间现已开放使用,无需邀请码
    • 免费互助:在扣子空间中完成第一个任务后,用户可以点击左下角生成10个邀请码,邀请他人体验。

    微信扫码关注,回复:扣子空间,加入AI Agent交流群

    如何使用扣子空间邀请码

    • 访问首页:访问扣子空间首页,点击快速开始按钮。

    Coze Space

    • 加入等候名单:点击快速开始按钮后,提示申请加入等候者名单,点击加入。
    • 已有邀请码:点击快速开始按钮,在下方填写邀请码,点击立即激活。

    扣子空间实测案例

    • 提示词:帮我生成一个网页,核心功能为输入文本,输出音频,支持在线播放音频和下载音频文件。

    • 提示词:每日跟踪AI资讯生成日报。

    • 提示词:首先你需要有联网能力,然后根据我提供的这几个新闻网站,帮我做一个新闻聚合AI快讯的页面,页面需要展示和获取每一个新闻网站当日和前一天关于AI领域的资讯信息。

  • 如何用可灵2.0创作AI故事短片、电影或短剧?实测3步学会

    这就是可灵2.0吗?

    实测了一波,真的是牛的有点让我不知道夸什么才好。

    4月15日,可灵AI正式发布了两款模型——可灵2.0视频生成模型和可图2.0图像生成模型。

    简单总结一下,这次发布都带来了哪些升级:

    • 可灵2.0视频生成模型:语气遵循、画面质量、动态质量、真实度、美感全面提升。
    • 可图2.0图像生成模型:画风更多元,细节更丰富。
    • 视频多模态编辑:替换元素、增加元素,删除元素。

    正如发布会所说“让每个人都能用AI讲出好故事”。人人都可以做导演的时代,真的来了。

    下面我们一起通过不同的实测案例,来感受一下可灵2.0在AI视频领域的恐怖实力。

    01:可灵1.6VS可灵2.0

    我们在网页版可灵的图生视频页面,分别用可灵1.6模型和可灵2.0模型生成视频对比看看。

    上传一张小女孩玩滑板的图片作为首帧图片。

    输入提示词:镜头跟随,女孩在滑滑板,一只脚下来蹬地助力,快速滑行,并滑出优美的S型轨迹,然后干净利落的做了一个heelflip动作。

    可灵1.6生成的视频是这样的,运镜没什么问题,女孩在玩滑板的画面也还行。

    但是提示词中的说“一只脚下来蹬地助力”,她只是虚晃了一下腿。最后做滑板动作时,画面有了明显的变形。

    再来看看可灵2.0生成的效果。女孩蹬地助力的画面出现了很多次,运动的幅度也更大。虽然没有做出最后的滑板动作,整体质量看起来确实提升了不少。

    02:可灵2.0图生视频

    提示词:围绕主体运镜,一位穿着美人鱼服装的美女朝镜头,双手做出飞吻的动作,同时吐出很多小泡泡,然后微笑着朝镜头打招呼。

    美人鱼小姐姐非常灵动,发丝和裙摆再水中漂浮摇曳。运镜也很自然,水下光影的变幻,都做到了实拍感。

    提示词:围绕主体运镜,狐狸在雪地里拉小提琴,很陶醉其中的样子,一边拉小提琴一边来回踱步,镜头环绕小狐狸,慢慢拉远。

    小狐狸像人类一样拉小提琴,深情的踱步,画面美感很在线,小狐狸毛发像真的一样,很细致。

    提示词:镜头拉远,同时转到女孩正面,镜头定格在给女孩拍半身照的位置,可爱的中国女孩,女孩穿着可爱的白色波点毛绒外套。此时地铁飞驰而过,刮起一阵风,吹乱了女孩的头发,女孩俏皮的笑着,面对镜头眨眼,做出比耶的手势,拍照的动作。

    这个提示词是比较复杂的,镜头运动和人物运动都分好几步,它都逐一做到了,而且连贯性非常棒!

    不得不说,可灵2.0对语义的时序响应太牛了

    根据一个特写,生成的全景画面也是真实好看的,重点是这个小猪发夹一致性保持的很完美。

    更牛的是,可灵2.0,实现了让视频也和图片一样,可以很便携的增、删、改画面中的元素。

    比如,我想让给上面视频中的小女孩换个发夹。

    只需要打开可灵的多模态编辑,上传视频和发夹的图片。

    输入提示词:使用@图一 中的【黄色奶龙发夹】,替换@参考视频 中的【粉色小猪发夹】。

    是不是毫无违和感。

    03:AI小剧场

    接下来我们试着用可灵做一个AI短片,验证它到底能否“让每个人都能用AI讲出好故事”。

    最近京东外卖和美团外卖在网上打的火热,我们让DeepSeek帮我们创作一个AI短片故事脚本。

    大概剧情就是打工人晚上加班,不知道吃什么,在美团外卖和京东外卖之间犹豫不决,最后收到了老板的投喂。

    我们需要根据故事梗概设计和拆分出分镜画面,分别制作成视频,最后加上声音效果剪辑成片。

    提示词:固定镜头,男人坐在办公室紧盯电脑屏幕,自然的眨眼,眉头紧皱,叹气。

    提示词:镜头跟随,男人疲惫的躺在椅子上,脖子枕在头枕上,双手自然搭在椅子的扶手上。头微微仰起,双眼空洞的看向前方,双手自然搭在椅子的扶手上。昏暗的办公室空无一人。

    提示词:镜头推进,男人微微低头,看向肚子,镜头下移,男人的双手揉了揉肚子,饿了的样子。

    我们把生成的画面全部上传剪映。

    我们给画面配上人声和音效,让视频看起来更加生动。再加上符合剧情节奏的背景音乐,一个小短片就只做完成啦~

    一起看看最终效果:

    我们可以看出可灵2.0对画面的掌控非常牛比,基本可以完全理解提示词在说什么,诸如景别、运镜方式这些,它都能完美的理解并实现。

    04:写在最后

    以前,导演这个职业对于我们来说遥不可及,现在,有了可灵2.0,人人都可以当导演。

    只要你稍微了解一些专业名词。想要什么画面,就能生成什么画面;想要什么剧情,就能有什么剧情。

    自己拍一部《甄嬛传》都可以。

    所以,在这个AI时代的大环境下,没有一个职业是安全的。

    你不进步,迟早会被AI替代。

    如果你想尝试可灵2.0的视频生成功能,点击下方链接去官网就行啦👇

    可灵:https://ai-bot.cn/sites/13002.html

    原文链接:https://mp.weixin.qq.com/s/UXxD3uREZgHQx3B31f6V2g

  • VeoGo AI – AI短视频预测工具,提供流量预测和优化建议

    VeoGo AI是什么

    VeoGo AI 是面向短视频创作者的智能预测工具,通过深度学习算法提前预测视频流量表现,提供秒级优化建议,帮助创作者提升视频曝光率和点击率。基于深度神经网络和计算机视觉技术,结合平台流量规则建立多维度预测模型,预测准确率超过92%。工具支持小红书、抖音、视频号、快手、B站、微博等主流平台算法特征库,提供内容结构调整、开场吸睛技巧、画面构图优化等全方位建议。

    VeoGo AI

    VeoGo AI的主要功能

    • 流量预测与优化建议:通过深度学习算法,VeoGo AI 能提前预测视频的流量表现,提供秒级优化建议,帮助创作者提升视频的曝光率和点击率。
    • 多平台支持:支持小红书、抖音、视频号、快手、B站、微博等主流平台的算法特征库,帮助创作者更好地适应不同平台的流量规则。
    • 内容优化指导:提供内容结构调整、开场吸睛技巧、画面构图与画质提升、剪辑节奏优化、BGM 甄选、字幕设计升级、互动引导策略以及话术设计等全方位的优化建议。
    • 高预测准确率:基于深度神经网络和计算机视觉技术,结合平台流量规则建立多维度预测模型,预测准确率超过92%。

    VeoGo AI的官网地址

    VeoGo AI的应用场景

    • 短视频创作与优化:创作者可以用工具提前了解视频的流量表现,根据AI提供的优化建议调整视频内容,例如调整开场镜头、优化剪辑节奏、选择更合适的背景音乐等,提高视频的曝光率和点击率。
    • 内容创作辅助:VeoGo AI 提供全方位的内容优化指导,例如BGM(背景音乐)甄选、字幕设计升级、互动引导策略以及话术设计等,帮助创作者提升视频的整体质量和吸引力。
    • 创作者效率提升:通过精准的流量预测和优化建议,VeoGo AI 能帮助创作者在短时间内调整和优化视频内容,减少试错成本,提高创作效率。
  • FramePack – 斯坦福开源的AI视频生成模型

    FramePack是什么

    FramePack 是斯坦福大学开源的AI视频生成模型。基于压缩输入帧的上下文长度,解决视频生成中的“遗忘”和“漂移”问题,让模型能高效处理大量帧,保持较低的计算复杂度。FramePack 仅需 6GB 显存在普通笔记本电脑上运行,支持实时生成高清视频,基于抗漂移采样技术保证视频稳定性和连贯性。FramePack提供灵活的调度策略,适用于多种应用场景,降低 AI 视频生成的硬件门槛,推动视频生成技术的平民化。

    FramePack

    FramePack的主要功能

    • 低显存需求:仅需6GB显存即可运行,适合在笔记本电脑GPU上使用。
    • 高效的帧生成能力:基于13B模型30fps的帧率生成数千帧视频。
    • 快速生成:个人RTX 4090显卡的生成速度为2.5秒/帧(未优化)或1.5秒/帧(优化后)。

    FramePack的技术原理

    • 帧上下文打包:基于改变 Transformer 的 Patchify(分块)核大小,对不同重要性的帧进行不同程度的压缩。关键帧保留更多细节(如 1536 个 token),次要帧则大幅压缩(如 192 个 token),在保持重要信息的同时大幅减少显存占用。帧的重要性根据其与目标帧的时间距离来判断,越接近目标帧的输入帧被认为越重要。
    • 抗漂移采样:引入双向记忆法,让模型在生成当前帧时既能参考最近的帧,也能回溯到初始帧的核心特征,避免漂移。
    • 灵活的调度策略
      • 几何压缩:按照几何级数对帧进行压缩,适合实时生成场景。
      • 首帧优先:在图生视频任务中,优先保留首帧的细节,确保生成的视频起点高质量。
      • 对称压缩:对所有帧进行均衡处理,适合需要稳定连贯的视频生成场景。
    • 计算复杂度恒定:基于上述压缩和调度策略,FramePack 实现计算复杂度的恒定化,无论生成多少帧,计算资源消耗保持不变。让模型能高效处理长视频生成任务,不会因帧数增加显著降低速度。

    FramePack的项目地址

    FramePack的应用场景

    • 短视频与动画制作:快速生成连贯动画,降低创作成本。
    • 游戏开发:实时生成过场动画和动态场景,提升沉浸感。
    • 教育与培训:生成教学视频和虚拟培训场景,增强学习体验。
    • 广告与营销:制作个性化视频广告和产品演示,提升吸引力。
    • 消费级应用:用户生成个性化视频内容,用在娱乐和社交媒体分享。
  • Fellou – Fellou AI 推出的首个Agentic浏览器

    Fellou是什么

    Fellou 是AI初创公司 Fellou AI 推出的全球首个Agentic浏览器。具备传统浏览器的信息浏览功能,能智能执行复杂任务,将繁琐的点击操作转化为简单的指令。能自动解析用户指令、拆解任务,跨多个网页和系统调度操作;可根据用户行为预测需求并提供行动建议;在后台独立执行任务,不干扰用户正常操作;支持用户使用和共享各种垂直领域的智能体应用。Fellou 支持深度搜索、智能时间线、拖拽操作和同步工具等功能。

    Fellou

    Fellou的主要功能

    • 深度行动(Deep Action):用户只需用简单指令,Fellou 能将繁琐的点击操作转化为智能工作流,例如自动填写表单、管理标签页等。
    • 主动智能(Proactive Intelligence):Fellou 能主动为用户提供行动推荐和结果建议,为用户形成个人知识库,强化个性化体验。
    • 影子空间(Shadow Workspace):Fellou 的智能工作空间可在后台跟踪和管理用户活动,用户可以实时监控或干预 Agent 的行为,不影响用户正常操作。
    • 智能体网络(Agent Store):用户可以享受到更多垂直 Agent 能力,开发者可以将自己的经验、知识和工作流封装为 Agent,供其他用户使用。
    • 跨平台深度搜索:支持跨公共网页内容和需要登录的平台(如 Quora、X、LinkedIn)进行平行、批量搜索,能快速检索更全面的信息,可一键生成可分享的可视化报告。
    • 跨网页操作任务:能自动规划任务、调用工具并执行操作,协调多个网页界面的操作,实现各种浏览器内任务,如购物、安排会议、发送邮件、发布推文等。
    • 智能感知浏览器操作环境:可以自动识别对话中的打开网页作为上下文,用户可以通过标记网页进行比较和分析,用户可以将图片直接拖放到聊天窗口中,无需复制和粘贴,实现无缝交互。
    • 异步协作:支持标签组功能,当 Fellou Agent 执行分配的任务时,用户可以切换到底部的标签组继续处理其他任务,任务完成后,Fellou 会通知用户。

    Fellou的技术架构

    Fellou 将 Browser(浏览器)、Agent(智能体)和 Workflow Automation(工作流自动化)三大产品和能力相结合,实现“思考”、“操作”和“执行”的闭环。

    Fellou的官网地址

    Fellou的功能作用

    • 深度行动:自动化执行多步骤任务,如数据采集、表单填写、报告生成等。一站式无缝交付,用户无需手动操作,释放双手,支持跨网站、跨应用的自动化操作,实现高效的跨界整合。
    • 主动智能:利用深度语义理解和上下文记忆技术,实时捕捉用户在各个网页上的操作轨迹。根据用户的行为数据和操作习惯,形成个人知识库,提供个性化的体验。超前识别用户潜在的任务需求,主动发出询问或直接接管任务。
    • 影子空间:在独立的沙箱虚拟化环境中操作多个网页,确保任务执行之间、智能体和用户之间不互相干扰。支持用户实时监控 Agent 的执行进程,在适当时刻加以干预。
    • 智能体网络:用户可以开发、共享自己的经验、知识和工作流,实现真正意义上的行动智能体。对于高代码开发者,Fellou 提供了 Eko Framework,支持开发者以自然语句编写、调试和优化工作流程。

    如何使用Fellou

    • 下载安装:访问 Fellou 的官方网站,点击“Download”按钮,选择适合您设备的版本进行下载并安装。
    • 启动浏览器:安装完成后,打开 Fellou 浏览器,首次使用时可能需要进行一些简单的设置,如选择语言、登录账号等。
    • 深度搜索:在搜索框中输入关键词,Fellou 会提供深度搜索结果,帮助您快速找到所需信息。
    • 智能工作流程:通过简单的指令,Fellou 可以自动执行复杂的工作流程,例如自动填写表单、管理标签页等。
    • 拖拽功能:将网页元素、文件等拖拽到 Fellou 的指定区域,即可触发相应的操作,如上传文件、提取信息等。
    • 高级功能
    • 虚拟工作空间:用影子空间功能,Fellou 可以在后台独立执行任务,不影响您的正常操作。
    • 智能体网络:访问 Agent Store,选择和使用其他用户共享的智能体应用,或者将自己的经验封装为智能体供他人使用。
    • 多任务管理:通过时间线功能,您可以轻松切换多任务,回到之前的操作状态,继续未完成的工作。
    • 开发者功能:如果您是开发者,可以使用 Fellou 的 Eko Framework,以自然语言编写、调试和优化工作流程,快速开发出强大的智能体应用。

    Fellou的应用场景

    • 报告生成:用户可以通过简单的拖拽操作,快速生成可分享的可视化报告。
    • 行为预测:Fellou 利用深度语义理解和上下文记忆技术,实时捕捉用户在各个网页上的操作轨迹。
    • 个性化推荐:根据用户的行为数据和操作习惯,形成个人知识库,提供个性化的体验。
    • 市场调研:Fellou 浏览器的深度搜索功能可以自动搜索、整理信息,生成详细的报告。
  • AI材料星 – AI公文写作平台,生成高质量原创公文材料

    AI材料星是什么

    AI材料星是AI公文写作平台。基于自研AI模型,支持生成长达1.2万字的高质量公文,涵盖领导讲话、工作总结、调研报告等多种类型。平台具备AI纠错、原创度检测、一键排版、生成PPT等功能,提供30万+篇公文范文和50万+金句标题库。AI材料星操作灵活,支持改写、润色、扩写等,AI材料星为用户提供全面的写作支持,提升公文写作的效率和质量。

    AI材料星

    AI材料星的主要功能

    • 公文写作:快速生成高质量、100%原创的公文材料,支持长达1.2万字的输出。
    • 公文文库:提供海量高质量公文范文,涵盖多种类型,方便用户参考。
    • 金句标题大纲词语库:提供丰富的金句、标题、大纲和词语资源,辅助写作。
    • 材料专辑库:分类整理的公文材料专辑,方便用户按需查找。
    • AI步骤写作:支持分步骤进行公文写作,帮助用户逐步完成任务。
    • AI对话写作:对话形式辅助写作,提供更自然的写作体验。
    • AI公文智能体:智能生成公文内容,提供写作建议和优化方案。
    • AI改写润色扩写:提供改写、润色、扩写等功能,提升文章质量。
    • AI文章纠错:检测、纠正公文中的语言错误,确保规范性。
    • AI原创度检测:检测文章的原创度,确保内容的独特性。
    • AI PPT:一键生成高质量PPT,优化内容布局和设计。

    如何使用AI材料星

    • 访问官网:访问AI材料星的官方网站,按照提示完成注册和登录。
    • 下载客户端(可选):如果需要使用客户端,点击“下载客户端”,根据系统类型选择版本。下载安装客户端后,完成登录。
    • AI公文写作:在平台上选择需要的公文类型(如调研报告、工作报告等),输入相关要求,平台自动生成高质量的公文内容。
    • AI文章纠错:将需要检查的文章上传到平台,系统自动检测、纠正语言错误。
    • 原创度检测:上传文章后,平台会快速检测文章的相似度,确保内容的原创性。
    • 其他功能:如AI改写润色扩写、AI一键排版、AI做PPT等,根据需要选择使用。

    AI材料星的产品定价

    • 终身会员Pro:¥1599,包含全部权益,支持电脑端和APP端全部功能,支持终身保价买贵包赔,支持后续后续新增功能免费使用,承诺无任何额外隐藏收费项目。
    • SVIP会员(1年):¥389,包含全部权益,支持电脑端和APP端全部功能,支持终身保价买贵包赔,支持后续后续新增功能免费使用,承诺无任何额外隐藏收费项目。
    • SVIP会员(半年):¥259,包含全部权益,支持电脑端和APP端全部功能,支持终身保价买贵包赔,支持后续后续新增功能免费使用,承诺无任何额外隐藏收费项目。
    • 体验会员(30天):¥79,包含全部权益,支持电脑端和APP端全部功能,支持终身保价买贵包赔,支持后续后续新增功能免费使用,承诺无任何额外隐藏收费项目。

    AI材料星的应用场景

    • 政府公文写作:撰写领导讲话、工作总结、政策文件等。
    • 企业文案撰写:生成工作汇报、项目报告、会议纪要等。
    • 学术研究写作:辅助撰写政研论文、理论文章等。
    • PPT制作:一键生成、优化PPT内容。
    • 日常办公:支持文档编辑、排版、纠错等。
  • MAI-DS-R1 – 微软开源的 AI 模型,基于 DeepSeek R1 改进版

    MAI-DS-R1是什么

    MAI-DS-R1 是微软基于 DeepSeek R1 改进的AI模型。MAI-DS-R1基于后训练优化,支持响应 99.3% 的敏感话题提示,比原版提升 2 倍,将有害内容风险降低 50%。MAI-DS-R1 在推理能力上保持与 DeepSeek R1 相同的水平,支持多语言回答,适用于国际组织、跨国企业和教育机构等多语言环境。MAI-DS-R1已开源,供研究人员和开发者使用。

    MAI-DS-R1

    MAI-DS-R1的主要功能

    • 高效响应敏感话题:支持响应回答 99.3% 的敏感问题,显著优于原版 DeepSeek R1。
    • 低风险:在安全性评估中,有害内容的风险降低 50%。
    • 推理能力:保持与 DeepSeek R1 相同的推理能力,适用于复杂逻辑和知识性问题。
    • 多语言支持:支持多种语言,适应不同语言环境的需求。

    MAI-DS-R1的技术原理

    • 后训练(Post-Training):基于后训练技术对原始 DeepSeek R1 模型进行优化。后训练是在模型预训练完成后,用特定的数据集和策略对模型进行进一步的微调,提高其在特定任务上的性能。微软用约 350,000 个被屏蔽话题的示例进行后训练,示例涵盖多种敏感话题。MAI-DS-R1 学会了如何更有效地响应这些话题,避免生成有害内容。
    • 数据增强:在后训练过程中,微软用敏感话题的示例,加入来自 Tulu3 SFT 数据集的 110,000 个安全和违规示例。示例包括 CoCoNot、WildJailbreak 和 WildGuardMix 等内容,帮助模型更好地识别和处理潜在的有害内容。
    • 多语言翻译:在后训练过程中将问题翻译成多种语言,适应不同语言环境下的需求。提高模型的多语言能力,更好地理解不同文化背景下的问题。
    • 安全性评估:微软对 MAI-DS-R1 进行全面的安全性评估,用 HarmBench 数据集检测模型生成内容中的有害性,确保输出符合伦理和法律标准。

    MAI-DS-R1的项目地址

    MAI-DS-R1的应用场景

    • 学术研究:帮助研究人员快速获取和整理敏感话题的多角度信息,辅助撰写学术论文,提供更全面的讨论内容。
    • 内容审核:用在社交媒体和新闻平台,高效识别和过滤有害或不当信息,保障内容的健康和安全。
    • 多语言客服:为跨国企业或国际组织提供多语言支持,快速响应不同语言用户的咨询,提升客服效率和用户体验。
    • 教育辅导:在教育机构中辅助教师教学,为学生提供多语言的学术指导和问题解答,促进知识传播。
    • 政策咨询:为政府机构或政策研究机构分析社会敏感问题,提供数据支持和公众意见分析,辅助制定更合理的政策。
  • InstantCharacter – 腾讯混元开源的定制化图像生成插件

    InstantCharacter是什么

    InstantCharacter 是腾讯混元开源的定制化图像生成插件。基于扩散 Transformer(DiT)框架,引入可扩展的适配器(包含多个 Transformer encoder)和千万级样本的大规模角色数据集,实现高保真、文本可控且角色一致的图像生成。InstantCharacter支持用户提供一张角色图片和简单的文字描述,让角色用任意姿势出现在不同场景中。InstantCharacter 在连环画、影片创作等领域具有广泛应用前景,为角色驱动的图像生成设定新的基准。

    InstantCharacter

    InstantCharacter的主要功能

    • 角色一致性保持:在不同场景和姿势下保持角色的外观、风格和身份一致性。
    • 高保真图像生成:生成高质量、高分辨率的图像,细节丰富且逼真。
    • 灵活的文本编辑性:用户基于简单的文字描述控制角色的动作、场景和风格。
    • 开放域角色定制:支持多种角色外观、姿势和风格。
    • 快速生成:无需针对每个角色进行复杂的微调,快速生成符合要求的图像。

    InstantCharacter的技术原理

    • 扩散 Transformer(DiT)架构:基于现代扩散 Transformer 作为基础模型,相比传统的 U-Net 架构,DiT 具有更好的生成能力和灵活性。DiT 基于 Transformer 的结构,更好地处理复杂的图像特征和长距离依赖关系。
    • 可扩展适配器(Scalable Adapter):引入基于 Transformer 的可扩展适配器模块,用在解析角色特征与 DiT 的潜在空间进行交互。适配器由多个堆叠的 Transformer encoder 组成,逐步细化角色特征,确保与基础模型的无缝对接。用 SigLIP 和 DINOv2 等预训练视觉编码器提取角色的详细特征,避免特征丢失。
    • 大规模角色数据集:构建包含千万级样本的大规模角色数据集,数据集分为配对(多视角角色)和未配对(文本图像组合)子集。配对数据用在优化角色一致性,未配对数据用在优化文本可控性。
    • 三阶段训练策略
      • 第一阶段:用未配对的低分辨率数据进行预训练,保持角色一致性。
      • 第二阶段:用配对的低分辨率数据进行训练,增强文本可控性。
      • 第三阶段:用高分辨率数据进行联合训练,提升图像保真度。

    InstantCharacter的项目地址

    InstantCharacter的应用场景

    • 连环画与漫画创作:快速生成角色在不同场景中的动作和表情,保持角色一致性,减少手工绘制工作量。
    • 影视与动画制作:生成角色概念图和动画场景,快速迭代角色设计,适应不同情节需求。
    • 游戏设计:生成游戏角色的多种姿势和场景,支持多种风格,快速生成符合游戏风格的图像。
    • 广告与营销:根据广告文案快速生成符合主题的角色图像,提升广告吸引力和创意性。
    • 社交媒体与内容创作:用户基于文字描述生成个性化角色图像,增加内容趣味性和互动性。
  • 万相首尾帧模型 – 阿里通义开源的首尾帧生视频模型

    万相首尾帧模型是什么

    万相首尾帧模型(Wan2.1-FLF2V-14B)是开源的14B参数规模的首尾帧生视频模型。模型根据用户提供的首帧和尾帧图像,自动生成流畅的高清视频过渡效果,支持多种风格和特效变换。万相首尾帧模型基于先进的DiT架构,结合高效的视频压缩VAE模型和交叉注意力机制,确保生成视频在时空上高度一致。用户可在通义万相官网免费体验。

    Wan2.1-FLF2V-14B

    万相首尾帧模型的主要功能

    • 首尾帧生视频:根据用户提供的首帧和尾帧图像,生成时长5秒、720p分辨率的自然流畅视频。
    • 支持多种风格:支持生成写实、卡通、漫画、奇幻等风格的视频。
    • 细节复刻与真实动作:精准复刻输入图像细节,生成生动自然的动作过渡。
    • 指令遵循:基于提示词控制视频内容,如镜头移动、主体动作、特效变化等。

    万相首尾帧模型的技术原理

    • DiT架构:核心架构基于DiT(Diffusion in Time)架构,专门用在视频生成。基于Full Attention机制精准捕捉视频的长时程时空依赖关系,确保生成视频在时间和空间上的高度一致性。
    • 视频压缩VAE模型:引入高效的视频压缩VAE(Variational Autoencoder)模型,显著降低运算成本,同时保持生成视频的高质量。让高清视频生成更加经济且高效,支持大规模的视频生成任务。
    • 条件控制分支:用户提供的首帧和尾帧作为控制条件,基于额外的条件控制分支实现流畅且精准的首尾帧变换。首帧与尾帧同若干零填充的中间帧拼接,构成控制视频序列。序列进一步与噪声及掩码(mask)拼接,作为扩散变换模型(DiT)的输入。
    • 交叉注意力机制:提取首帧和尾帧的CLIP语义特征,通过交叉注意力机制(Cross-Attention Mechanism)注入到DiT的生成过程中。画面稳定性控制确保生成视频在语义和视觉上与输入的首尾帧保持高度一致。
    • 训练与推理:训练策略基于数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略,支持720p、5秒视频切片训练。分三个阶段逐步提升模型性能:
      • 第一阶段:混合训练,学习掩码机制。
      • 第二阶段:专项训练,优化首尾帧生成能力。
      • 第三阶段:高精度训练,提升细节复刻与动作流畅性。

    万相首尾帧模型的项目地址

    万相首尾帧模型的应用场景

    • 创意视频制作:快速生成场景切换或特效变化的创意视频。
    • 广告与营销:制作吸引人的视频广告,提升视觉效果。
    • 影视特效:生成四季交替、昼夜变化等特效镜头。
    • 教育与演示:制作生动的动画效果,辅助教学或演示。
    • 社交媒体:生成个性化视频,吸引粉丝,提升互动性。
  • ChatDBA – AI数据库助手,提供描述或截图快速诊断数据库故障

    ChatDBA是什么

    ChatDBA是基于AI大语言模型的智能数据库助手。能快速诊断数据库故障,分析问题根源提供解决方案,显著提升数据库管理员(DBA)的工作效率。ChatDBA具备SQL生成与优化功能,可根据用户需求生成高效SQL语句,优化现有SQL性能,助力开发人员提升开发效率。支持数据库专业知识学习,不断更新知识库,为用户提供持续的专业支持。ChatDBA支持MySQL、PostgreSQL和OceanBase等多种数据库类型,用户可通过官网免费试用。

    ChatDBA

    ChatDBA的主要功能

    • 数据库故障诊断:ChatDBA 能基于用户提供的文字描述、错误截图、监控信息等,快速分析数据库故障的根本原因,并提供针对性的解决方案。节省了数据库管理员(DBA)排查问题的时间,提高了工作效率。
    • SQL 生成:根据用户的需求描述,ChatDBA 可以自动生成符合需求的 SQL 语句,帮助开发人员快速完成数据库操作的开发任务。
    • SQL 优化:对已有的 SQL 语句进行性能分析和优化,调整查询逻辑、索引使用等,提升查询效率,降低数据库资源消耗。
    • 数据库性能分析:ChatDBA 可以对数据库的整体性能进行分析,查询性能、资源使用情况等。能提供性能瓶颈的诊断报告,给出优化建议,帮助用户提升数据库的整体运行效率。
    • 数据库知识问答:ChatDBA 拥有丰富的数据库知识库,能回答用户关于数据库原理、架构设计、运维管理等方面的问题。可以根据用户的需求提供学习资料和建议,帮助用户提升数据库相关知识水平。
    • 多数据库支持:ChatDBA 支持多种主流数据库,如 MySQL、PostgreSQL 和 OceanBase 等,满足不同用户在不同数据库环境下的使用需求。
    • 智能交互体验:通过自然语言交互,用户可以直接用文字描述问题,ChatDBA 以对话的形式提供解决方案或操作建议,交互过程简单直观。

    ChatDBA的官网地址

    ChatDBA的应用场景

    •  数据库运维:在数据库运维中,ChatDBA 可以帮助 DBA 快速定位并解决复杂问题。
    • 中小企业:对于中小企业,ChatDBA 帮助它们以较低成本实现高效的数据库管理和优化。
    • 知识学习与培训:ChatDBA 可以作为数据库知识学习的工具,帮助新手 DBA 和开发人员快速提升专业技能。
    • 应急响应:在紧急情况下,如系统故障或数据丢失,ChatDBA 可以快速提供解决方案,帮助技术人员迅速恢复系统。