Category: AI教程

AI工具集提供各种热门AI教程与学习资源,帮助你安装、运行、测试和使用各大热门AI工具。快速学习AI产品工具的使用技巧,掌握各种AI产品工具有趣又有用的玩法。

  • 如何用AI免费翻唱任意歌曲,小白必看

    用一分钟的语音,就能让AI模仿我的声音,一键翻唱任意歌曲,你敢信?

    上周的小和尚语录制作教程,很多友友都表示对AI克隆声音非常感兴趣,还发来了一段大合唱视频:

    用AI克隆声音,仿佛真的是四郎和诸葛亮在线合唱,竟然毫无违和感,看着挺有意思的,难怪在互联网上一直热度不减。

    很多人好奇,这样的翻唱视频是怎么制作的?

    其实只需要AI克隆声音翻唱+对口型。GitHub上也有了比较成熟的SVC(歌声转换)技术,但本地部署对电脑配置要求高,还需要大量的语音素材去训练,我觉得很麻烦。

    今天给大家分享两个超级简单的工具,上传一分钟的原声素材,点点点就行了,0基础小白,也能快速生成翻唱作品。

    如果你电脑配置不高,直接用网页版,云端有大量的语音模型可以用于翻唱,不用花时间训练,效果还杠杠好,重点是完全免费!用起来简直不要太香。

    01

    Weights三步生成翻唱

    选择模型、上传音频、微调设置

    进入Weights官网(建议打开网页翻译功能),第一个板块就是超级多训练好的语音模型,直接免费用!点击查看全部,我们可以看到从虚拟角色到明星大佬,像海绵宝宝、迈克•杰克逊、霉霉、初音未来…挑起来真的是眼花缭乱。

    尝试搜了一下我的偶像,没想到他的语音模型居然有好几个,我选择了排名最靠前的这一个,点击右上角的创建,新建一个翻唱任务。

    点击下一步。

    翻唱的音频,我们可以直接复制YouTube链接上传,也可以直接将歌曲文件拖放进来。

    它不仅支持歌声翻唱,还可以输入文本转语音,或者直接用麦克风输入语音翻唱,这也太全面了~

    和声、混响对翻唱效果都会有一些影响,所以这里我选择了一段单人清唱的音频。我们一起来听一下:

    (土坡上的狗尾巴草)


    上传音频后,点下一步。

    我上传的是仅人声的清唱,勾选上预混。音调方面,如果男声模型翻唱女声歌曲,可以适当调低一些音调,反之则调高;这里我们用默认即可。

    进阶的选项可以做一些更细致的调整,建议先用默认,如果生成的效果不满意,再进行微调。点击右下角的创建。

    进入左上角我的创作,就可以看到翻唱歌曲正在排队生成啦,一般只需要等待几分钟。

    等列表里跳出成功的提示后,可以试听和下载。

    下载界面里的音频,依次是:翻唱后的人声+伴奏(如有)、翻唱后的干声、原始音频、原始音频中的干声、原始音频中的伴奏。

    我们一起来听一下,翻唱后的音频。

    🎵林俊杰-土坡上的狗尾巴草

    声音很有特色,演唱的连贯自然,很有节奏感,转音、重音、高音表现都还不错。

    而这整套操作下来,几分钟就完事了,可以说是有手就会。

    同样的方法,我用周杰伦和邓紫棋的模型,也翻唱了一遍,一起来听一下。

    (🎵周杰伦-土坡上的狗尾巴草)

     

     

    🎵邓紫棋-土坡上的狗尾巴草

    我们将音频按照合唱的节奏切成几段,每一小段搭配一张Q版的人像,上传到即梦,生成对口型视频

    用图片对口型,生成效果一定要选择生动,不然标准的只动嘴不动头,看起来会很僵硬。

    生成好的片段,用剪映组合,(如果有伴奏的话,加上伴奏),一个AI合唱视频就做完啦,我们来看看效果。

    如果我想要自己创建语音模型来做翻唱,要怎么操作呢?

    02

    Replay一键分离人声

    训练自己的语音模型

    我们一起尝试做一个懒羊羊的声音模型和翻唱吧!

    首先,需要进去Replay的官网,下载最新的软件。

    要注意,安装软件之后,首次打开会弹出两个提示框,先别急着去点!!!先去左上角App-Show Settings修改一下文件保存位置。

    第一个文件夹是导出音频的位置。第二个文件夹是一些应用数据,语音模型、生成音频的数据等等都会保存在这里。总之,别放C盘,其它随意~

    我们先从B站扒一段懒羊羊唱歌的视频,用剪映做一下前置处理,只保留懒羊羊声音的片段,导出为mp3/wav格式。将音频上传(如图所示位置)。

    选择仅干声。

    渲染设备这里,电脑有核显就选CUDA,会生成的稍微快一些,没有核显需要调成CPU。其它设置保持默认即可,点击生成。

    生成的音频会出现在左侧列表中,单击一下就可以看到分离出来的干声和伴奏声,可以分别试听和下载。

    我们下载分离出的干声,将文件上传到训练模型的版块。这里可以上传多个文件,要尽可能多地覆盖各种声线,翻唱的效果就会更理想。

    没有经过高音训练的语音模型,翻唱高音会容易失真甚至破音哈哈哈!

    下面的设置,除了渲染设备这里,其它保持默认即可,点击创建模型。这个过程比较久,大概需要几个小时。

    训练好的模型会在这里显示。

    我们试一下用刚生成的懒羊羊模型翻唱,上传想要翻唱的歌曲。

    (🎵若月亮还没来-片段)

     

    点击选择懒羊羊的语音模型。

    下方的设置保持默认就行,和在线翻唱的时候差不多,可以适当调整人声和乐器的音高,点击生成。

    不到一分钟,就翻唱好啦。我们分别保存翻唱后的干声和伴奏。

    一起来听听看:

    🎵懒洋洋-土坡上的狗尾巴草

    下载Weights上的语音模型,解压后放入应用程序目录文件夹(软件开始设置的第二个位置)下的models文件里中,就可以在Replay中直接使用。

    做合唱视频,只需要将同一段音频用不同的模型分别翻唱,最后用剪映拼接起来就可以啦。是不是非常简单方便。来听听懒羊羊和蜡笔小新的合唱。

    只用一分钟的声音素材,就能达到不错的翻唱效果,使用下来,除了生成模型有点慢(是我的缺点…),整体体验都很不错。特别是人声分离这个功能,基本上在其它平台都是要开会员才能用的,而Replay和Weights,都可以免费、无限次使用,效果还很赞,很难不爱呀。

    翻唱音乐如果有和声、混响之类的,会影响翻唱的效果。如果我们想要做合唱类型的歌曲,可以先分别用单人版翻唱,再去剪映中合成。

    用自己的声音训练模型,就能让AI翻唱各种热门歌曲,再也不用担心跑调,喊麦、说唱、流行音乐,分分钟拿捏,那些好听又难唱的歌,我用另一种方式学会啦。

    AI翻唱虽然不能100%复刻声音和唱功,但已经可以听出七八分歌手的音色了,让赛博idol每天为我唱歌,想想还有点小激动呢~

    本文涉及的所有工具:

    Weights:https://ai-bot.cn/weights/

    Replay:https://ai-bot.cn/replay/

    原文链接:0基础小白必看!AI一键免费翻唱任意歌曲!

  • 腾讯研究院发布《AI图景解码50关键词》

    站在2025的起点,如果让你选择50个关键词来概括AI的关键技术和应用方向,你会选择哪50个?

    腾讯研究院在过去一年持续追踪人工智能领域的技术与趋势,通过AI每日速递、AI每周50关键词、一周科技九宫格、AGI路线图和大模型创造营线上圆桌、AI&Society高端研讨会和百人百问等品牌栏目,跟踪技术应用前沿动态,链接一线专家思想观点,深度思考AI对社会发展的影响,形成了《行业大模型报告》、《AIGC十大趋势——走进机器外脑时代》、《工业大模型应用报告》、《十问“AI陪伴”》、《端侧大模型》、《拐点时刻?AIGC时代的新闻业》、《金融大模型应用报告》和《大模型安全与伦理研究报告2024》为代表的十余份报告,持续为社会各界理解和应用AI提供我们的思考洞察。

    而在这个过程中,我们也意外发现,一点一滴的日常研究积累,正在渐渐引起质变,验证了研究过程也存在基于大量信息输入的“涌现”现象。例如,《AI每日速递》由研究员每日精心筛选十条AI进展信息,即使汇总的只是压缩后的内容,竟也沉淀出了30余万字的AGI数据库,不仅加深了我们对AI领域的认知,也已经成为研究员全面了解和洞察AI技术和行业发展趋势的基础。我们也曾尝试,围绕端侧智能、图像处理、视频生成具身智能等方向,开展专题研究,验证了研究员在大量信息的支撑下,能够实现基于信息压缩的趋势提炼,获得了很好的业界反馈。

    进一步地,我们思考,能否将我们全年沉淀AGI数据库的关键信息和专题研究,进一步压缩,压缩成50个关键词,让更多人有机会掌握AI领域的基本图景和未来趋势呢?我们与AI一起进行了这个实验,并完成了这份报告。

    这里分享下我们的实验过程:

    • Step1: 基于研究员对AI领域的跟踪理解,划分大模型技术和应用的八大方向,分别是:基础模型、图像处理、视频生成、3D生成编程助手Agent、端侧智能和具身智能
    • Step2:邀请跟进各方向的研究员基于AGI数据库中该方向2024进展数据,精心筛选出各领域约30个关键词,再经过多人讨论确认6-8个最具代表性的关键词。

    • Step3:借鉴人类和大模型都拥有的”快思考”与”慢思考”两种思维特征,我们对每一个精选出来的关键词进行两个维度的分析,并“监督”和”“指导”AI绘制了50张AI关键词卡片。
      • “快思考”部分,由研究员主导方向,指挥AI生成关键词的简介和可视化表达,并决定是否接受生成的结果,如果不符合标准,再指导 AI重新绘制。
      • “慢思考”部分,由研究员提供前期积累的专题研究成果,并确认输出的逻辑格式,指导AI辅助梳理发展脉络和趋势,最终生成核心观察、逻辑链条和本质洞见。
    • Step4:基于人机协作生成的 50张卡片原型,进行进一步的校对和修改,并由人类设计师在我们选定的风格下进行设计美化,最终形成《AI图景解码50关键词》研究报告。

    应该说,这是一项非常规的探索,也是一次人机协同的实验。价值在于,人类研究员在AI的辅助下,实现了AI领域海量信息的压缩提炼、趋势判断和可视化表达,让没有AI技术基础的普通人,也能通过这 50张卡片了解AI领域的大致轮廓。与此同时,我们也需要指出,这份报告的严谨性,特别是一些可视化图示,可能还难以达到完全由人类研究员撰写成果的水平,也请技术专家批评指正。

    站在2025的起点,我们希望这50张卡片能为您提供有益的学习、研究与决策参考。腾讯研究院也将继续深化AI&Society领域的探索,我们也诚挚邀请各界朋友共同关注与参与,携手迈向智能共生的未来。

    获取《AI图景解码50关键词》PDF原文件,扫码关注回复:20250106

  • Stable Diffusion 3.5 实用提示构建指南

    提示是有效使用生成式 AI 图像模型的技巧。提示的结构直接影响生成的图像的质量、创造力和准确性。Stable Diffusion 3.5 在可定制性、高效性能、多样化输出和多功能风格方面表现出色,成为初学者和专家的理想选择。本指南提供了 SD3.5 的实用提示技巧,让您能快速准确地完善图像概念。

    您可以在Stability.ai上访问所有SD 3.5模型。

    构建提示

    将 SD3.5 模型最为创意图像生成的最佳工具。通过用自然语言清晰地表达您的想法,您可以为模型提供最优提示来生成符合您愿景的图像。

    为了有效地构建提示,首先要确定关键要素:

    • 风格:明确审美方向,例如插画风格、绘画媒介、数字艺术风格或摄影。尝试并融合线条艺术、水彩画、油画、超现实主义、表现主义和产品摄影等风格。

    • 主题和动作:如果您的图片有主题,则提示应首先强调其存在感,然后强调主题随后采取的任何动作。请考虑以下图片和提示。

    • 构图和取景:通过指定特写镜头或广角视图来描述图像所需的构图和取景。

    • 灯光和颜色:使用“背光”、“硬边缘光”和“动态阴影”等术语描述场景中的灯光或阴影。

    • 技术参数:使用电影术语指定技术参数,以指导所需的视角和取景。“鸟瞰图”、“特写”、“起重机镜头”和“广角镜头”等术语有助于有效地指导构图。考虑使用“鱼眼镜头”等术语来实现弯曲的外观,以实现独特的视觉效果。

    • 文本:SD3.5 型号可以将文本合并到图像中。为了获得最佳效果,请将文本括在“双引号”中,并保持所需的单词或短语简短。

    • 负面提示:负面提示可以精确控制颜色和内容。虽然主提示塑造了整体图像,但负面提示通过过滤掉不需要的元素、纹理或色调来完善图像,从而帮助实现重点突出、精致的效果。这可以更好地控制最终图像,确保干扰最小化,并确保输出与您的预期愿景紧密一致。

    图片展示

    下面是利用所提供的提示来展示所涵盖的每种风格的例子。

    文本

    摄影

    线条艺术

    3D艺术

    表现主义艺术

    水彩画

    数字插画

    体素艺术

    结论

    图像生成模型多种多样,让我们​​能够轻松地将想法形象化。然而,为了从这些模型中获得最佳结果,我们需要向模型充分描述我们的需求。SD3.5 提供了最先进的模型,可以理解自然语言提示。这种能力意味着我们可以像向其他人一样向模型描述我们想要的东西。

    通过遵循本指南中列出的实践,例如定义主题、动作、灯光、构图等,我们可以从每个模型中获得最佳效果。通过参考本指南中列出的最佳实践,使用 SD3.5 模型的创作过程可以更加高效。

    可以在Stability.ai上访问所有SD 3.5模型。

    期待您创作的作品!

  • 如何使用 o1 进行推理的免费 DeepLearning.AI 课程《Reasoning with o1》

    Reasoning with o1是什么

    Reasoning with o1是OpenAI与吴恩达合作推出的免费课程,专注于深度推理能力的培养。课程旨在教授开发者如何有效利用o1模型进行高级推理任务,包括规划、编码、视觉推理等。o1模型以其在抽象推理任务上的卓越性能而闻名,特别是在编码和视觉推理任务上。课程内容涵盖o1模型的工作原理、最佳应用场景以及如何优化提示以提升模型性能。通过学习,开发者将掌握如何识别适合o1的任务,并学会在智能和成本之间找到平衡。

    Reasoning with o1您将学到什么

    • 了解 o1、它的工作原理、性能以及使用它的最佳场景。
    • 了解如何有效地提示 o1 以及何时将任务委派给更具成本效益、延迟更低的模型。
    • 了解 o1 如何在编码和视觉推理任务中表现出色,以及如何应用元提示来优化您的应用程序。

    关于Reasoning with o1本课程

    在“使用 o1 推理”中学习如何有效地提示和使用 OpenAI 的 o1 模型,这是与 OpenAI 合作建立的短期课程,由 OpenAI 的 AI 解决方案主管 Colin Jarvis 授课。

    o1 模型在抽象推理任务上表现优异,在规划、编码、分析、法律等特定领域推理以及其他 STEM 学科等任务上均有破纪录的表现。

    在本课程中,您将了解 OpenAI 如何利用强化学习来生成一个使用“测试时间计算”来提高许多推理任务性能的模型。了解什么是“思路链”提示,以及 o1 如何自主地利用它将问题分解为更小的步骤,尝试多种策略,并在回复之前仔细考虑答案。

    具体来说,你将:

    • 学会识别 o1 :模型适合什么任务,以及何时可能需要使用更小或更快的模型或将两者结合起来。
    • 了解使用 o1 :提示的四个关键原则,从“简单直接”到“展示而不是讲述”,并探索表现上的差异。
    • 实现一个多步骤任务:其中 o1 作为协调器创建一个计划并将其交给 4o-mini 模型按顺序执行该计划,平衡智能和成本之间的权衡。
    • 使用 o1 执行编码任务:来构建新应用程序、编辑现有代码,并通过在 o1-mini 和 GPT 4o 之间运行编码竞赛来测试性能。
    • 使用 o1 进行图像理解:并了解它如何通过层次化推理实现更好的表现,其中它会预先产生延迟和成本,对图像进行预处理并使用丰富的细节对其进行索引,以便以后可以用于问答。
    • 学习一种称为元提示的技术:其中您可以使用 o1 来改进您的提示。使用客户支持评估集,您可以迭代地使用 o1 来修改提示以提高性能。

    Reasoning with o1课程地址

    Reasoning with o1适合人群

    • 具有基础Python知识的人群:课程内容涉及编码任务和图像理解,因此需要一定的Python编程基础。
    • 熟悉LLM(大型语言模型)提示和应用开发的人群:课程旨在帮助学习者理解并有效使用OpenAI的o1模型进行复杂的推理任务,包括任务规划、代码生成等。
    • 对深度推理能力开发感兴趣的人群:课程聚焦于深度推理能力的培养,适合想要深入了解并使用o1进行复杂推理任务的学习者。
    • 有LLM应用开发经验的人群:课程内容涵盖了o1模型的核心特点、提示技术、任务规划与执行、编码任务与图像理解等,适合有相关经验的学习者深入学习。

    Reasoning with o1的课程大纲

    • 介绍 视频・3分钟
    • o1简介 视频・11分钟
    • 提示 o1 带代码示例 视频・12 分钟
    • 与 o1 一起规划 带代码示例的视频・13 分钟
    • 使用 o1 进行编码 带代码示例的视频・7 分钟
    • 图像推理 带代码示例的视频・9 分钟
    • 元提示 带代码示例的视频・12 分钟
    • 结论 视频・1 分钟
    • 附录 – 提示、帮助和下载 代码示例・1 分钟
  • 如何用AI制作一禅小和尚视频,三步学会!

    前几天,有群友说特想知道如何用AI制作一禅小和尚语录的视频。

    萌萌哒的光头小和尚,短短几句话里,就说出了我内心深处对生活的感悟和期许,看完感觉自己充满了力量!难怪全网短视频创作争奇斗艳的当下,小和尚语录条条视频都是爆款,最高点赞将近两千万。

    有很多账号,靠AI制作小和尚语录视频,粉丝疯涨,这个赛道是真的香!花一分钟时间看完这篇教程,你也能制作出高质量的小和尚语录视频!打造自己的高流量自媒体账号。

    01

    三步复刻爆款视频

    拆解、AI制作、成果把控

    小和尚语录最打动人心的,就是温暖治愈的话语和唯美的画面,把视频制作拆分成文案、语音、分镜画面、动画四个步骤,每项任务发放给不同的AI,就可以实现高效且高质量的量产。我只需要负责成果把控和剪辑。

    02

    用豆包生成

    小和尚语录文案

    输入“请帮我写一禅小和尚经典语录”,让豆包完成文案部分。

    如果对生成的文案不满意,可以让它润色或者重写,提一些更具体的要求,“关于友情的”、“关于爱情的”、“更口语化一点”、“更简洁一点”…这样我们就拥有了源源不断的文案素材。

    03

    海螺AI克隆语音

    AI配音工具有很多,但大部分只能选择内置的播音员,声音、声调不够自然。

    海外版的海螺AI,只需要10秒的音频素材,就能克隆我的声音,还完全免费!!!

    这里我直接去抖音,扒了一段一禅小和尚的语音。注意,这里需要小和尚单人的声音素材,如果音频有多人对话部分,要去掉,避免影响克隆的效果。

    扒出来的声音素材是这样的,你们可以听一下。


    点击可听完整版-小和尚语录

    声音稚嫩,充满童趣,感染力非常强。吐字清晰,没有杂音,就是一段优秀的原声素材了。

    接着打开海螺AI。点击“创建您的声音克隆”。

    可以通过上传音频或者直接录音,免费创建3个声音。

    这里命名声音为“小和尚”,上传刚才处理好的原声素材。

    我提前处理了背景音乐,上传的声音素材比较干净,不用勾选“从音频样本中去除背景噪音”。

    如果你上传的素材没有进行前置处理,勾选一下能帮你剔除掉噪音、背景音乐。

    下一步,选择原始素材的语言,这里选择中文(普通话)即可。

    点击右下角的转换,只需要几秒钟,小和尚的声音就克隆好啦。

    回到文本到语音页面,输入前面豆包帮我写的文案:人生最大的喜悦是每个人都说你做不到,你却完成了它。

    在页面下方,选择小和尚的声音,点击生成语音。就可以在下方试听和下载。

    如果对生成的语音不满意,右侧有调整页面,可以调节语言、语速、语调情绪,重音等等,再让它重新生成。

    这里我直接用了默认的设置,听感就很不错了。

    04

    即梦生成小和尚图片

    我直接从百度下载了一张小和尚的画面素材。

    打开即梦,选择故事创作。

    创建空白分镜。

    在分镜输入任意内容,点击做图片。

    左边会弹出一个编辑框。在出演角色这里,上传角色照片即可。也可以让即梦直接帮我们画出角色形象。选择出演角色后,就不用担心人物一致性的问题啦。

    根据我们的文案内容,输入描述词,让即梦画出分镜画面。

    分镜可以尽量多一些景别,近景、中景、远景、特写,中间再加入一些空镜头,这样画面的丰富度会更好。

    05

    即梦对口型

    可灵生成动画视频

    进入即梦视频制作页面,选择对口型。上传分镜图片。

    上传本地配音。

    点击左下角的生成视频,不到一分钟,一个小和尚说话的视频就做好啦。生成视频的右下角,还可以添加AI配乐。

    一个基础版的小和尚语录视频,就完成啦。

    这样的画面,是不是看着略显单调?能不能再加点动态的效果呢?

    当然能!

    打开我们的老朋友——可灵,选择图生视频,将前面的分镜画面,变成一个个的动画视频。

    这里我用了固定镜头,加入人物运动的描述生成了一个简单的动画。如果再加上镜头的推、拉、摇、移等运动,生成的画面就更丰富了。

    把视频和语音一起上传剪映,加工一下,添加背景音乐,一个动态版的小和尚语录视频就完工啦~

    想要通过AI高效创作,一定要学会拆分工作任务,将复杂的创作过程分解为一个个具体、可操作的小模块,让不同的AI工具可以发挥出自己的优势,形成高效的工作流。

    小和尚语录视频的创作不需要特别复杂的技巧,能真诚表达让情感流露,这样的内容成为爆款指日可待。希望这个简短的小教程,能帮助大家搞创作,打造自己心中的温暖港湾。

    不止小和尚语录,我们刷到的AI视频,大部分都可以通过这样的AI组合拳来完成制作。你学会了吗?

    本文涉及的所有工具:

    原文链接:三步学会用AI制作一禅小和尚视频,去打造属于自己的温暖港湾吧
  • Claude 官方发布《Agent 构建指南》(中文版)

    本文主要讲述Anthropic公司在构建大型语言模型(LLM)和智能体(agents)方面的年度总结和设计原则。文章由Anthropic公司撰写,内容包括成功方案的特点智能体的定义何时使用智能体框架的使用构建模块与工作流工作流模式智能体的应用场景以及实践案例等板块。文章强调简单性、透明度和精心设计的agent-computer interface(ACI)接口的重要性,并提供工具开发的最佳实践和插件工具的提示词工程的详细信息。基于以上内容,Anthropic分享如何构建有价值的智能体,并为开发者提供实用的建议。

    building-effective-agents-claude

    Agent构建指南

    2024年12⽉20⽇

    在过去的一年里,Anthropic 与多个行业团队合作,构建大型语言模型(LLM)代理。最成功的方案并不是使用复杂的框架或专门的软件包。相反,他们使用的是简单、可组合的模块来构建的。 在这篇文章中,Anthropic 分享了从与客户合作和自身构建代理中学到的经验,并为开发者提供如何构建有效代理的相关建议。

    什么是Agent?

    什么是Agent? “Agent”能有多种定义。一些客户将Agent定义为完全自主的系统,它们能长期独立运行,使用各种工具完成复杂任务。其他人把Agent描述为遵循预定义工作流程且更符合规范性。在Anthropic,将所有这些变体归类为代理系统,但在工作流代理之间画了一个重要的架构区别:

    • 工作流是LLM和工具基于预定义的代码路径进行编排的系统。
    • 代理是LLM动态规划自己流程和工具使用的系统,并能控制如何完成任务的系统。

    下面,我们将详细探讨这两种类型的代理系统。在附录1(“实践中的Agent”)中,介绍了客户发现使用这些系统特别有价值的两个领域。

    何时(以及何时不)使用Agent?

    在构建LLM应用程序时,建议寻找尽可能简单的解决方案,并只在需要时增加复杂性。这可能意味着根本不构建代理系统。代理系统通常为了更好的任务性能而延迟和消耗成本,需要考虑权衡这是否有意义。

    当需要更多的复杂性时,工作流为定义明确的任务提供了可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策制定时,Agent是更好的选择。然而,对于许多应用程序来说,优化单个LLM调用,配合检索和上下文示例通常就足够了。

    何时以及如何使用框架?

    有许多框架可以使代理系统更容易实现,包括:

    • LangChain的LangGraph;
    • 亚马逊Bedrock的AI代理框架
    • Rivet,一个拖拽式GUI LLM工作流构建器;
    • Vellum,一个用于构建和测试复杂工作流的GUI工具。

    这些框架通过简化调用LLM、快速编写和解析相关工具插件、链式调用等标准化的底层任务,简化操作流程。然而,它们会创建额外的抽象层,这可能会遮盖底层的提示和响应内容,使得调试变得更加困难。它们可能让开发者在简单的设置就能完成的操作中,增加工作的复杂程度。

    我们建议开发者首先直接使用LLM API:许多常用的模式只需几行代码就能实现。如果确实想要使用框架,需确保理解底层代码。对底层内容的错误假设是客户出错的常见来源。

    查看我们的官方手册以获取一些示例实现。

    构建模块、工作流和代理

    在本节中将探讨在生产中遇到的代理系统的常见模式。我们将从基础构建模块——增强型LLM开始,逐渐增加复杂性,从简单的组合工作流到自主代理。

    构建模块:增强型LLM

    代理系统的基本构建模块是通过检索、工具和记忆等增强功能提升的LLM。如今的模型能自动地使用这些能力——自主生成搜索查询、选择合适的工具,并决定保留哪些信息。

    Building-effective-agents-_-Anthropic

    我们建议重点关注实施的两个关键方面:根据使用场景定制特定用例,并确保为LLM提供简单且文档齐全的接口。虽然实现这些增强功能有很多方法,但其中一种方法是使用Anthropic最近发布的模型上下文协议(Model Context Protocol),它支持开发者通过简单的客户端实现与借助该协议的各种第三方工具生态进行集成。

    在本文的剩余部分,将假设每次LLM调用都可以访问这些增强能力。

    工作流:提示链工作流

    提示链将一个任务分解成一系列步骤,其中每个LLM调用处理前一个调用的输出。您可以在任何中间步骤添加程序化的检查(见下图中的“gate”),确保流程按预期进行。

    Building effective agents _ Anthropic

    • 适用场景:此工作流非常适合任务可以轻松且清晰地分解为固定子任务的场景。主要目的是通过使每个LLM调用变得更容易,在回复速度和更高的准确性之间进行取舍。
    • 提示链适用示例
      • 生成营销文案,然后将其翻译成不同的语言。
      • 编写文档的大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。

    工作流:路由工作流

    路由对输入进行分类,并将输入引导至后续的专门任务。工作流允许分离关注点,并构建更专业的提示。如果没有这种工作流,针对一种输入的优化可能会损害其他输入的性能。

    Building effective agents _ Anthropic

    • 适用场景:路由适用于复杂任务,这些任务具有明确的类别,适合分别处理,并且分类可以由LLM或更传统的分类模型/算法准确处理。
    • 适用示例
      • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具中。
      • 将简单/常见问题路由到较小的模型,如Claude 3.5 Haiku,将困难/不寻常的问题路由到更强大的模型,如Claude 3.5 Sonnet,以优化成本和速度。

    工作流:并行化工作流

    LLM有时可以同时完成一项任务,并将它们的输出以编程方式汇总输出。这种工作流体现在两个关键变体中:

    • Sectioning(任务拆解):将任务分解为独立子任务并行运行。
    • Voting(投票):多次运行相同的任务以获得不同的输出。

    Building effective agents _ Anthropic

    • 适用场景:当分割的子任务可以并行化以提高速度,或者当需要多个视角进行尝试来获得更可靠的结果时,并行化是有效的。对于具有多重考虑因素的复杂任务,把每个考虑因素都用单独的LLM调用处理时,LLM表现更好。
    • 适用示例
      • Sectioning(任务拆解)
        • 安全防护,其中一个模型处理用户查询,而另一个筛选查找不适当的内容或请求。这通常比让同一个LLM调用同时安全防护和核心响应表现得更好。
        • 自动化评估用来评估LLM在给定提示下的表现,每个LLM用在评估模型表现的不同方面。
      • Voting(投票)
        • 审查代码中的漏洞,如果发现他们有问题,多个不同的提示审查并标记代码。
        • 评估给定内容是否不当,使用多个提示评估不同方面或设置不同的投票阈值来平衡测试的准确性。

    工作流:协调者-执行者工作流

    在协调者-执行者工作流中,一个中心LLM动态地分解任务,将它们委托给worker LLMs(工人LLM),并综合考虑他们的结果。

    Building effective agents _ Anthropic

    • 适用场景:适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量以及每个文件中内部的更改,可能取决于任务本身)。虽然它的流程图跟 Parallelization 很像,但关键区别在于其更灵活——子任务不是预定义的,而是由Orchestrator指挥家根据特定输入确定。
    • 适用示例
      • 每次对多个文件进行复杂更改的编码产品。
      • 涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务。

    工作流:评估器-优化器工作流

    在这个工作流中,一个LLM调用负责生成响应,而另一个在循环中提供评估和反馈。

    Building effective agents _ Anthropic

    • 适用场景:当有明确的评估标准,并且迭代细化的价值能被衡量时,这种工作流特别有效。良好的适应性有两个标志,第一,当人类表达反馈时,LLM的响应可以明显改善;第二,LLM能够提供这样的反馈。这类似于人类作家在撰写精炼的文档时,可能经历的迭代写作过程。
    • 适用示例
      • 文学翻译,其中有一些细微之处翻译LLM最初可能无法捕捉到,但评估LLM可以提供有用的改善建议。
      • 复杂的搜索任务,需要多轮搜索和分析来收集全面的信息,负责评估的 LLM 决定是否需要进一步搜索。

    代理

    随着LLM在理解复杂输入、进行推理和规划、使用工具及从错误中纠错等关键能力的成熟,代理开始在生产中兴起。

    代理工作的开始,来自人类用户的命令,或与人类用户进行互动讨论。一旦任务明确,代理就会独立规划和行动,可能需要反问人类,来获取更多信息或判断。在执行过程中,对于代理来说,每一步从环境中获得“真实情况”(例如工具调用结果或代码执行)以评估其进度至关重要。然后,代理可以在遇到阻碍时暂停以获取人类反馈。任务通常在完成时终止,但也常常包括终止条件(例如最大迭代次数)以保持控制。

    代理可以处理复杂的任务,但它们的实现通常很简单。它们通常只是根据环境反馈在循环中使用工具的LLM。因此,设计周全且清晰的工具集和文档至关重要。附录2(”Prompt Engineering your Tools”(提示工程你的工具)中详细介绍了工具开发的最佳实践。

    Building effective agents _ Anthropic

    (自主代理)

    • 适用场景:代理可用于难以或无法预测所需的步骤数量,并且无法规定好固定路径的开放式问题。LLM可能会运行多个循环,你必须对其决策能力有一定程度的信任感。代理的自主性使其成为在受信任环境中执行任务时特别理想。代理的自主性质意味着成本更高,并且有可能出现不断积累的错误。建议在沙盒环境中进行广泛的测试,并设置适当的安全防护。
    • 适用示例:以下是我们自己的实现中的一些示例:

    Building effective agents _ Anthropic

    (编码代理的高级流程)

    组合和定制

    这些范式不是严格规定好的。它们是开发者可以搭建和组合以适应不同用例的常见模式。和任何LLM功能一样,成功的关键,是衡量性能并迭代落地。重复一遍:只有能明显改善结果时,才应该考虑增加复杂性。

    总结

    在LLM领域取得成功并不是关于构建最复杂的系统。而在于为需求构建合适的系统。从简单的提示开始,用全面的评估进行优化,只有当更简单的解决方案不足以应对时,才添加多步骤的代理系统。

    在实现代理时,我们尝试遵循三个核心原则:

    • 确保代理设计简单
    • 通过明确显示代理的规划步骤来优先考虑透明度
    • 通过全面的工具文档和测试,精心打造你的代理-计算机界面(ACI)接口。

    框架可以帮助你快速入手,但在进入生产环境时,不要犹豫减少抽象层,并尽量使用基本组件构建。遵循这些原则,你可以创建不仅强大而且可靠、可维护并被用户信任的代理。

     

    致谢

    由Erik Schluntz和Barry Zhang撰写。这项工作借鉴了我们在Anthropic构建代理的经验以及我们的客户分享的宝贵见解,我们对此深表感激。

    获取《Agent 构建指南》PDF原文件,扫码关注回复:241222

     

    附录1:实践中的代理

    我们与客户的合作揭示了AI代理特别有前景的两个应用,展示了上述模式的实际价值。这两个应用都说明了代理对于需要对话和行动、有明确成功标准、能够反馈循环并整合有价值的人类监督的任务中最有价值。

    A. 客户支持

    客户支持结合了熟悉的聊天机器人界面,并通过工具集成增强了能力。这对于更开放式的代理来说是自然的场景,因为:

    • 遵循对话流程,互动自然,同时需要访问外部信息和操作;
    • 可以集成工具来提取客户数据、订单历史和知识库文章;
    • 可以以程序化的方式处理如发放退款或更新工单等操作;
    • 通过用户定义的解决方案,明确的地衡量agents 是否解决了该问题。

    一些公司通过基于使用量的定价模型证明了这种方法的可行性,这些模型仅对成功的解决方案收费,展示了对他们代理有效性的信心。

    B. 编码代理

    软件开发领域显示出LLM功能的显著潜力,功能从代码补全演变到自主问题解决。代理特别有效,因为:

    • 代码问题的解决可以通过自动化测试来验证;
    • 代理可以使用测试结果作为反馈迭代解决方案;
    • 问题定义明确且结构化;
    • 输出质量可以客观衡量。

    在我们自己的实现中,代理基于SWE-bench验证基准,能单独解决真实的GitHub问,。然而,尽管自动化测试有助于验证功能,但人类审查仍然至关重要,以确保解决方案符合更广泛的系统要求。

    附录2:提示工程你的工具

    无论您正在构建哪种代理系统,工具插件都可能是您代理的重要组成部分。工具使Claude能够通过在我们的API中指定它们的确切结构和定义来与外部服务和API交互。当Claude响应时,如果它计划调用工具,它将在API响应中包含一个工具使用块。工具定义和规范应该和整体提示一样,获得同样的提示工程关注。在这个简短的附录中,描述了如何对工具进行提示工程。

    通常有几种方式可以指定相同的操作。例如,可以通过编写差异(diff)或重写整个文件来指定文件编辑。对于结构化输出,可以在Markdown或JSON中返回代码。在软件工程中,这些差异是表面的,并且可以无损地从一种格式转换为另一种格式。

    然而,有些格式对于LLM来说比其他格式更难编写。编写差异(diff)需要在新代码编写之前就知道块头部有多少行在更改。在JSON中编写代码(与Markdown相比)需要对换行符和引号进行转义额外的转义。

    我们对决定工具格式的建议如下:

    • 给模型足够的令牌,在它进入死胡同之前“思考”。
    • 保持格式接近在互联网上自然出现的文本。
    • 确保没有格式化“开销”,例如必须准确计算数千行代码,或对它编写的任何代码进行字符串转义。

    一个经验是在人机界面(HCI)上投入了多少精力,就要投入同样的精力来创建良好的代理-计算机界面(ACI)。以下是如何做到这一点的一些想法:

    • 设身处地为模型着想。根据描述和参数,使用这个工具是否明显,还是需要仔细思考?一个好的工具定义通常包括示例用法、边界情况、输入格式要求以及与其他工具的明确界限。
    • 如何更改参数名称或描述以使任务更明显?将此视为为您团队的初级开发人员编写易读的说明文档那样。当使用许多类似的工具时,这一点尤其重要。
    • 测试模型如何使用您的工具:在我们的工作台上运行多个示例输入,来查模型犯了哪些错误,并进行迭代。
    • 为您的工具实施防错措施。更改参数,使其更难犯错误。

    在构建SWE-bench代理时,Anthropic 实际上花在优化工具上的时间比优化整体提示还要多。例如,Anthropic 发现模型在使用相对文件路径的工具时会出错,尤其是在代理移出根目录之后。为了解决这个问题,将工具更改为始终要求使用绝对文件路径,我们发现模型完美地使用了这种方法。

  • 如何使用腾讯混元视频生成模型,一手实测

    01 鹅厂已就位

    鹅厂,终于推出自己的AI视频了——「混元视频模型」。

    最近,受邀参加混元视频模型的内测。周末连肝两天,从早肝到晚,肝了累计有300多支视频吧图片

    先说结论:作为鹅厂交出的第一版(文生视频、5s),总体质量非常高。在指令遵循、动态和画面稳定性、镜头语言、写实质感、物理遵循等方面表现不错,抽卡很少

    甚至,在一些镜头转换、动作特效、科幻/魔幻风格、抽象理解等方面,还有惊喜表现。

    请看VCR:

    体验路径:腾讯元宝APP-AI应用-AI视频。

    02 实测10个风格、30个Case

    为了系统的测测混元视频模型的质量,当然相比那些专业评测基准,也不算很系统。只是我个人认为比较重要也是大家经常会用到的一些风格场景,我把他们分成了10个板块来测。

    这10个风格分别是:特写、写实、人物、动物、科幻、特效、动画、艺术/抽象、运动、多人场景/大场面/多镜头

    每个风格,分别设计3~5个提示词,让混元出视频,进行测评。

    提示词部分,我自己先想一个idea,用一句话描述,然后让AI帮我优化、扩写。AI优化后的提示词,我自己再改改,基本上就可以发给模型开始跑了。

    提示词框架,大体上离不开这几个模板。

    • 模板1:提示词=主体+场景+运动
    • 模板2:提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达)
    • 模板3:提示词=主体+场景+运动 + (风格表达)  + (氛围描述) + (运镜方式) + (光线) +(景别)

    重点关注 主体+场景+运动 即可,其他部分如果不太会描述,也可以通过后台提供的标签来选择。

    话不多说,我们直接来看看跑的Case。

    Ps.所有Case都由我自己实测,不含任何官方的demo。

    (1)写实

    写实,几乎是视频模型必测的风格了。主要看模型对不同场景、人物表情、人物动作、纹理细节以及光影变化的生成效果,看他们是否与真实世界保持一致。

    1)一只啄木鸟正在树上啄洞,写实风格。

    2)一个中国美女穿着汉服,头发随风飘扬。然后镜头切换到正面特写。背景是张家界。

    3)一只戴红围巾的企鹅在花海散步,红围巾与花海色彩形成鲜明对比。背景的花海随风轻摆,花瓣飘落,晨露闪烁。

    4)超长焦横移,工业废弃厂房,主光从碎裂天窗渗入,自然光。

    (2)特写

    特写,是视频模型比较擅长的风格。各家模型比拼的关键在于对细节的呈现能力 ,比如物体运动细节、人物肢体细节、人脸表情细节、画面质量细节等。

    一个好的特写镜头,很容易拉近观众与主角的距离,让观众身临其境。

    5)一名男子惊恐地望着远方,背景是一座正在燃烧和爆炸的城市。镜头对准男子的脸,捕捉到他惊恐的表情。

    6)镜头慢慢推近。背景是一个小巧而温馨的客厅,一位年轻女子坐在沙发上,全神贯注地读书。一个冒着热气的茶杯放在咖啡桌上。

    7)一只奇怪而可怕的远古生物在泥土中爬行。

    (3)人物

    人物,主要看视频模型对人的肤色、肢体动作、表情动作以及衣着呈现的真实性,也是我们作为人类最容易识别出AI真假的地方。

    但话又说回来,文生视频在人物方面的表现上都不太占优。要想人物表现更稳定、真实和一致,一般得通过图生视频来生成。

    8)一个小男孩正在全神贯注地组装积木。

    9)一个小女孩拿着气球,慢慢的往前跑。

    10)一个男人坐在沙发上看电视,然后双手抱头,表情非常惊讶。

    (4)动物

    相对人物来说,各家视频模型在动物上的表现都要好很多。但前提是你的动物得“大胆”地动起来,而不是只将画面放大、缩小图片

    从我跑的多支Case来看,混元视频模型在动物写实上非常不错,有点纪录片的味道了。

    11)非洲草原上,一只猎豹正在极速奔跑,追逐一头羚羊。

    12)大兴安岭,一只老虎正在极速奔跑,背景是皑皑白雪的森林。

    13)故宫红墙前的树枝上,一只喜鹊正在觅食。

    (5)科幻、魔幻、玄幻

    科幻、魔幻、玄幻等幻想风格,是吸引很多人用AI做视频的重要原因,当然也包括我。

    幻想风格,特别考验视频模型的数据集和泛化能力(指模型对新的、未见过的数据的表现能力),能否把一些幻想场景给展示出来,比如光影变化、色彩变化、变形特效、动作特效等。

    这部分,我Case放得最多。考虑到视频转图被压缩,部分case我直接放了原视频。

    14)一艘飞船正在穿过小行星带。

    15)一艘飞船正在穿过时光隧道,周围是五彩斑斓的光线。

    16)两个巨型机器人在城市中激战,每一次碰撞都产生巨大的冲击波,将附近的建筑震成碎片。

    17)昏暗的走廊,一支海军陆战队正在穿过废弃的走廊。

    18)在若隐若现的云端,乌云密布,电闪雷鸣。突然一条巨龙从云层穿过,飞奔而来。

    这想象力,估计混元一定“看”了很多次权游。

    (6)特效

    特效,Special Effects,是电影、电视中最重要的视觉艺术,常见特效如爆炸、烟雾、火焰、极速等。

    特效镜头,也是主要考验视频模型的泛化能力,看模型对指令的遵循程度以及细节表现能力。

    19)暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹。

    20)在一座破旧的仓库内部,突然发生一场爆炸。

    21)雾蒙蒙的夜晚,明亮的月光,一艘中世纪的帆船在海上航行,充斥着诡异的氛围。

    22)五颜六色的水母在海底自由自在地游动。它们身体呈现出透明的蓝色、紫色和粉色,在水中散发出迷人的光芒。

    (7)动画

    动画,主要看模型对各种风格的支持和审美,比如2D、3D、矢量、黏土、水墨、宫崎骏、迪士尼等。

    先来一个Sora的提示词。

    23)Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

    再来看看宫崎骏风格。

    24)一片奇幻花园映入眼帘。花园里长着各种奇花异草,它们形态各异,颜色缤纷。在花园中,还生活着一群活泼可爱的小精灵,它们身着五颜六色的衣服,在花草间嬉戏玩耍。吉卜力动画风格,让人仿佛置身于宫崎骏创造的梦幻世界中。

    (8)艺术/抽象

    艺术风格,主要考验视频模型对图形、空间、色彩和受力变化的抽象理解。测了几个case,没想到混元也能做一些抽象的艺术视频。

    25)粒子旋转,汇聚成抽象的形态。

    26)不同颜色组成不规则图形,缓慢旋转。

    27)5度斜角固定镜头,浅景深对焦,紫红霓虹灯与青色全息投影交织。画面中央的机械舞者着装前卫,张开双臂,向观众致谢。

    (9)运动

    运动,被视为视频模型皇冠上的明珠,因为它最具挑战性。

    要想生成符合真实世界物理运动的视频,模型对空间位置关系的理解,对不同物体受力变化、形态的处理,以及对不同物体、不同运动的语义理解,都要有相当深的技术,才能生成出遵循物理规则的视频。

    28)日落时分的越野赛道,改装过的福特F-150猛禽呼啸而过。加高的悬挂让硕大的防爆轮胎在泥地上肆意翻飞,泥浆飞溅在防滚架上形成斑驳图案。车身贴花在金色阳光下闪闪发亮,机械增压器的呼啸声与排气轰鸣交织。

    29)慢动作回旋镜头,雷暴天气伴随着闪电,一位英姿飒爽的中国侠客在雨中舞剑。背景是一片竹林。

    30)一辆越野车在险峻的山腰上行驶,远处的贡嘎雪山在视觉上缓缓升起逐渐清晰。

    (10)多人场景/大场面/多镜头

    多人场景,涉及多人物动作协调以及算力问题,目前基本上很多视频模型都会崩,包括Gen3、可灵等。我们看看混元的效果如何。

    31)镜头从骑着马的骑士的脚步局部特写开始缓缓上升,最终拍摄到骑士的面部,骑士面带坚毅的表情看向前方。背景是一个中世纪战场,两军正在交战,人仰马翻。

    32)一堆人围坐在篝火前,有说有笑,欢声笑语。

    10个风格领域测完了,我们来做一个总结:

    1)混元模型对指令(也就是提示词)比较遵循。后续大家在设计提示词时,建议一定要有强画面逻辑,指令清晰,切勿堆砌一堆的修饰词以及过多的主体词。

    不然反而会干扰模型的注意力,也就是模型DiT架构的T,Transformer,自注意力机制。

    2)动态表现和画面稳定性很好。在我测的300多支视频里,肯定有失败的Case,但没有一支视频是在做PPT的放大或缩小。都是正常动作,正常速度,很少有慢镜头、PPT动画。

    3)对镜头语言理解到位。如果你指定是什么镜头和景别,模型便会严格遵循。如果没有指定,模型则会根据提示词自行理解,设计镜头,有时候能够给人惊喜。

    比如这个,真的很nice。

    提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

    4)5s视频也能切镜头。在部分提示词的场景下(通常为长提示词),混元模型即使只有5s视频,也能够自动切镜头。切镜头后,还能能够保持主体一致性。

    5)在科幻、魔幻、写实纪录片、特效、运动等风格上表现出色,出片率很高。特别是魔幻风格,很有权游的味道,推测应该与鹅厂自家的视频数据集有关。

    6)抽卡次数少。如果指令清晰,有时候一次生成就能够得到满意的视频。最不济再生成3-5次,基本也能拿到心满意足的视频。

    7)尽量照顾小白。在输入框界面,提供了风格、景别、光线、镜头运动以及多种模式(流畅运镜、丰富动作、导演模式),小白也能快速上手。

    别小看这些标签。在我测的过程中,这些标签对我的视频效果帮助很大,特别是视频风格和运镜方面。

    当然,测试中也发现一些不足。

    1)泛化能力有待提升。一些陌生、冷门、未训练的描述词(比如主体、场景、动作等),混元还无法识别,导致模型的创造力受到一定影响。

    2)画质还需要提升,目前只有720P(是真的720P),虽然提供了“高品质”模式,但对于专业创作者来说,还不太够。

    3)对本土人物的理解,还需要提升。如果提示词里没有注明“亚洲人”,模型通常会以欧洲人来生成。当然,文生视频本就不擅长人物主体的一致性,要想提升人物一致性还得等图生视频。另外,模型在情绪的展现上,也稍微弱一些。

    03 写在最后

    经过连续三天的测评,个人认为,作为初代模型,混元的总体质量是非常高的,比很多视频模型第一版的表现都要好。

    跟混元的同学了解了下,这源于他们在这些方面的创新:

    • 使用新一代语言模型作为文本编码器,具备更强的语义理解和画面呈现能力;
    • 全程采用full attention(全注意力)机制,而不是时空模块,使得每帧视频的衔接更为流畅;
    • 使用自研图像视频混合VAE(3D 变分编码器),提升模型在细节上的表现能力,比如人脸、手指、高速镜头等。

    而且更为关键的是,鹅厂宣布对这个模型进行开源!!

    现在起,无论是个人还是企业,所有开发者都可以在Hugging Face和Github上免费使用这个模型了。

    大气,真的大气!130亿参数的模型,说开源就开源。包括模型权重、推理代码、模型算法等完整模型,直接全部公开。

    要知道,视频模型因为技术最难,敢开源、能开源的真没几家,包括“源神”Llama推出的视频模型Movie Gen,都不打算开源。

    混元视频模型,上线就开源,这气度,这格局,牛。到目前,他们已经开源了文生文、文生图、3D生成以及最新的文生视频。

    本文涉及的工具

    腾讯混元文生视频:https://ai-bot.cn/video-hunyuan-tencent/

    原文链接:一手实测,腾讯混元最新的视频模型

  • 如何用办公小浣熊2.0免费完成数据分析,浣熊三步法

    一眨眼又要过年了,天塌了!令人头大的N个项目分析报告根本写不完啊,有没有一款解救打工人年底汇报材料的AI工具呢?

    经过我不断地搜集寻找,终于让我挖到宝啦!

    它就是办公小浣熊2.0

    用浣熊三步法(PAW):规划(Plan)、分析(Analyze)、写作(Write),写分析报告效率提升10倍,关键是完全免费!!!

    只需输入一句指令,开启办公自动化模式。数据整理、数据清洗、表格转换、图表制作,项目怎么开展、后续怎么进行,AI一键总结成高质量的数据分析报告。

    让我们一起来看看,它是如何帮我完成一整套工作流程的吧!

    浣熊三步法:1分钟生成完整报告

    • 第一步:规划

    假设我手里有一份电影票房相关的数据,老板要让我根据这份数据出一个报告,我可能都不知道这份数据有什么价值,亮点在哪里,报告要从哪方面着手,但是不用怕,丢给小浣熊就行。

    把数据上传之后,输入:根据这个数据生成一个电影数据分析报告的大纲。

    在进行数据的读取和预处理之后,它会直接帮我们生成出一个大纲。

    而且都不用再复制粘贴什么的直接就可以一键生成文档。

    在文档里,可以继续用AI添加更多的元素,像数据背景这类以前写起来很难受的东西,也可以叫AI帮助生成。

    • 第二步:分析

    后续可以继续在文档界面分析大纲里需要的各项数据。

    支持生成折线图、柱状图、条形图、饼图、散点图、直方图、箱线图、热力图、面积图、雷达图

    根本不需要懂编程、不需要学SQL,就可以用专业的数据分析方法完成数据的处理、分析,获得专业的数据洞察结果和可视化的展示效果。

    我如果还需要其他图表信息,可以继续让它生成就行。

    • 第三步:写作

    在最后报告编辑过程中,可以点击 “唤熊一下”。

    翻译,“唤熊一下”

    找灵感,“唤熊一下”

    扩写,“唤熊一下”

    纠错,“唤熊一下”

    我们随便扩写一段:

    “唤熊一下”,随时改写、润色、续写、总结,脑袋里灵光一现的想法,它也能即刻查找资料,帮我整理成篇。

    把复杂工作简单化,简单的工作流程化,不管你是普通打工人,还是内容创作者,浣熊三步法都能让你的工作效率拉满!

    有了办公小浣熊,现在完成一篇报告的撰写根本不需要开好几个软件,更不需要去学习什么Python,SQL,Excel,你会打字让AI看懂,那这篇报告离完成就不远了。

    本文涉及的所有工具

    办公小浣熊https://ai-bot.cn/sites/8516.html

    原文链接:打工人急需的免费AI数据分析神器,找到了!

  • 如何用AI生成中文海报,即梦/豆包10秒搞定

    最近有没有被AI的新突破刷屏?我可是被震撼到了!中文世界终于迎来了自己的Ideogram

    即梦AI、豆包生成的图片支持添加中文字了,😎画国风插画再也不用担心被英文破坏氛围!AI生成的文字不仅完美契合图片风格,还自带排版,设计小白也能直出精美的海报!

    如何使用

    AI绘画直出中文,方法非常简单,直接在提示词中写出,你要加什么文字,加在哪个位置,什么样的文字效果,10秒钟就能生成你想要的画面。

    即梦 AI 上线 2.1 生图模型

    1.在即梦图文生成页面,将模型调整为图片2.1

    2.输入图片描述,AI就会生成对应的图片了。

    案例描述:极简电影海报,卡通,蓝+白,哆啦A梦,特写,手绘感,颗粒感,笔触感,幼态字体中文“哆啦A梦”,英文“Doraemon”。

     

    豆包App端支持生成中文AI图

    1.打开豆包App的对话页面,选择下方的AI生图

    2.输入图片描述,就会生成对应的图片。

    应用场景

    AI绘画能”写“字,为什么会让这么多人关注?有些朋友就疑惑了,先把画好图,再用P图软件把字加上去,不是一样的吗?

    其实还真不太一样。AI生成的文字与图像完美结合,风格高度统一,更具吸引力和传达力,完全没有违和感,生成效率高,玩法还无穷无尽,还有什么理由不选择它呢?

    在日常的生活和工作中,可以怎样应用这个功能呢?

    • 电影海报

    描述:一张电影海报,末日风格,背景可以看到巨大的红色月亮,到处是失事的废墟和火球,一个微型机器人,发出微弱亮光照亮一条路,标题:”流浪地球5“。

    • 电商产品图

    描述:一张电商实拍图,一个毛绒绒的粉色热水袋,上面用白色毛线织着:”AI工具集“。

    • 节日祝福

    描述:可爱圣诞节卡片,Q版,3D效果,圣诞树,背景有各种小星星,标题写着中文“圣诞快乐”,下面是一行英文“Merry Christmas”。

    • LOGO设计

    描述:LOGO设计,黄鹤楼,矢量图。中文:“黄鹤楼”,英文:“The Yellow Crane Tower”。

    • 插画

    描述:一个剑客,武侠风,红色腰带,戴着斗笠,低头,盖住眼睛,白色背景,细致,精品,杰作,水墨画,墨烟,墨云,泼墨,色带,墨水,墨黑白莲花,光影艺术,笔触,标题:“侠客”。

    • 四宫格漫画

    描述:四宫格漫画;从左到右,时间依次推进。第一格:一只可爱的小狐狸,坐在电脑前,思考,上方文字标题:“为什么今天还要上班”。第三格:一只可爱的小狐狸,在地上哭,上方标题:“明明昨天上过了”。第二格:一只小狐狸,背着包包走路,标题:“一周上5天”。第四格:一只小狐狸,天使光圈,天使翅膀,标题:“上到55岁”。

    • 小红书封面

    描述:小红书封面,一只开心的小鸡,在沙发上躺着吃零食,标题中文:“我的EMO调理好了”,文字可爱、卡通,与画面融为一体。

    • 壁纸

    描述:猫咪舞团,中国舞的舞台,猫咪们穿着淡青色汉服,青绿山水,中国美学的舞台布景,雾气,概念艺术,复杂梦幻的场景,超级可爱的猫咪,完美的光影。最上方中文标题:“只此喵喵”。

    • 门店设计

    描述:写实,高清,一家温馨的小店,店铺在街角,店内光线明亮,LED门头,门头上写着“AI工具集”。

    是不是觉得自己和专业设计师之间的差距又拉近了一点呢?

    AI绘画直出中文确实是一个大突破,能应用的方面非常广泛。普通人想要学好设计,复杂的软件操作就不再是难题,最重要的是有没有好的想法和好的审美。

    虽然目前仍然存在一些不足,比如有时生成的字不是特别准确,需要用消除笔二次编辑一下;暂时还不支持给上传的参考图加文字。对于普通内容创作者而言,已经能够满足基本的需求,能高效地实现你天马行空的想法。

    你觉得这个功能怎么样呢?评论区一起来讨论一下~

    本文涉及的所有工具

    原文链接:10秒AI速成中文海报,设计小白变大师!

  • 如何使用 Kimi 创作空间?操作后惊艳到了!

    国内大模型厂商在多模态方向越来越卷了,前有引爆海外的可灵,后有突围的MiniMax海螺,据腾讯混元官方透露,将于12月3日正式发布混元文生视频大模型。

    不断收缩业务线、聚焦核心产品的Kimi,近期也悄悄灰度测试了“Kimi创作空间”功能

    只需要输入一句话+一首音乐,最长能生成30s的音乐视频

    官方case

    先来欣赏一下官方给出的视频案例:

    1.花样年华风格

    2.布达佩斯大饭店风格(卡点)

    3.赛博朋克风格

    是不是看着都很有感觉,无论是打光色彩都很专业,有的还采用了卡点剪辑的方法,生成的视频直接就能用,给零基础的用户又降低了一道用AI制作视频的门槛。

    “Kimi创作空间”实测

    • 实测1  MV制作

    几个月前,MiniMax旗下的海螺AI就推出了AI创作音乐的功能,如今Kimi上线生成音乐视频的功能,🤩是不是意味着普通人也能低成本做音乐、出MV?

    比如这首《故乡的云》,我输入“故乡的美景,草原,白云,山川森林”,来看看Kimi生成的画面:

    它会根据音乐的节奏,拆分成多个片段。每个片段都会再帮你写一段关键词,生成对应的视频画面。

    如果你对生成的某个片段不满意,直接编辑单个片段的描述,再次生成就可以了。👍Kimi画面的整体风格一致性,和画面的精致程度,是之前其他软件都没有达到过的。

    • 实测2  日常短视频制作

    怎么写关键词一直是小白0基础学习AI的难点😭,但现在,你只要输入你的想法,不用写关键词,不用剪辑和二次加工,Kimi就能帮助你完成AI视频,质量还相当不错。

    比如我输入:“猫猫在客厅玩球”,它生成的画面是这样的:

    画面整体很精美,但细节/特写还是会存在一些瑕疵。

    • 实测3  短剧制作

    更进阶一点,在音乐里面融入一点剧情呢?

    使用Kimi的文本功能,就能轻易地实现这个想法。

    用Kimi给我的描述去生成视频,结果是这样的:

    平时可能需要好几个AI工具组合、反复抽卡生成的画面,Kimi只用几分钟就能达到差不多的水平。

    生成的视频前后风格、色调非常的统一,剧情完美契合了我输入的描述,而且人物的形象一致性保持的不错,连服装、背包这些细节都是一样的。

    • 实测4  长剧情制作

    如果剧情再长一点,Kimi的表现会怎么样呢?

    Kimi目前单次最长可以生成30秒的视频。我们输入“情侣分手”,生成的视频是这样的:

    从实测生成的视频来看,人物呈现上整体也很协调,人物的动作、表情都挺流畅,看起来不会有恐怖谷效应

    Kimi这个新功能目前还在灰度内测中,没有灰度到的朋友需要再等等。

    目前每天可以免费生成100秒视频,体验时长不累计,每天刷新。

    实测总结

    这个新功能在对内容的理解和生成方面已经非常顶尖了👏,只要你会打字,就能生成质量还不错的音乐视频,但还是很难应用到需要控制精细化细节的工作中。再迭代几版,就能应用在广告(创意预览)🎬,电影(镜头效果预览)🎥,游戏(特效生成)🎮了。

    用Kimi 的音乐视频生成功能制作 MV 🎵、旅行日志✈️、动漫、游戏 CG 🎮、个性化的电子贺卡💌、活动邀请函🎉…都十分便捷。

    Kimi 已经成为了我的工作、学习搭子,总结提炼内容、联网搜索资料、推理解题等,是实实在在的生产力,这次在 AI 创意创作功能上的尝试,属实有点惊艳到我了😍,期待 Kimi 继续推出更多好玩有趣的功能!

    本文涉及的所有工具:

    Kimihttps://ai-bot.cn/sites/5355.html

    原文链接:抢先体验Kimi视频生成功能,惊艳到我了!