Category: AI教程

  • Claude 官方发布《Agent 构建指南》(中文版)

    本文主要讲述Anthropic公司在构建大型语言模型(LLM)和智能体(agents)方面的年度总结和设计原则。文章由Anthropic公司撰写,内容包括成功方案的特点智能体的定义何时使用智能体框架的使用构建模块与工作流工作流模式智能体的应用场景以及实践案例等板块。文章强调简单性、透明度和精心设计的agent-computer interface(ACI)接口的重要性,并提供工具开发的最佳实践和插件工具的提示词工程的详细信息。基于以上内容,Anthropic分享如何构建有价值的智能体,并为开发者提供实用的建议。

    building-effective-agents-claude

    Agent构建指南

    2024年12⽉20⽇

    在过去的一年里,Anthropic 与多个行业团队合作,构建大型语言模型(LLM)代理。最成功的方案并不是使用复杂的框架或专门的软件包。相反,他们使用的是简单、可组合的模块来构建的。 在这篇文章中,Anthropic 分享了从与客户合作和自身构建代理中学到的经验,并为开发者提供如何构建有效代理的相关建议。

    什么是Agent?

    什么是Agent? “Agent”能有多种定义。一些客户将Agent定义为完全自主的系统,它们能长期独立运行,使用各种工具完成复杂任务。其他人把Agent描述为遵循预定义工作流程且更符合规范性。在Anthropic,将所有这些变体归类为代理系统,但在工作流代理之间画了一个重要的架构区别:

    • 工作流是LLM和工具基于预定义的代码路径进行编排的系统。
    • 代理是LLM动态规划自己流程和工具使用的系统,并能控制如何完成任务的系统。

    下面,我们将详细探讨这两种类型的代理系统。在附录1(“实践中的Agent”)中,介绍了客户发现使用这些系统特别有价值的两个领域。

    何时(以及何时不)使用Agent?

    在构建LLM应用程序时,建议寻找尽可能简单的解决方案,并只在需要时增加复杂性。这可能意味着根本不构建代理系统。代理系统通常为了更好的任务性能而延迟和消耗成本,需要考虑权衡这是否有意义。

    当需要更多的复杂性时,工作流为定义明确的任务提供了可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策制定时,Agent是更好的选择。然而,对于许多应用程序来说,优化单个LLM调用,配合检索和上下文示例通常就足够了。

    何时以及如何使用框架?

    有许多框架可以使代理系统更容易实现,包括:

    • LangChain的LangGraph;
    • 亚马逊Bedrock的AI代理框架
    • Rivet,一个拖拽式GUI LLM工作流构建器;
    • Vellum,一个用于构建和测试复杂工作流的GUI工具。

    这些框架通过简化调用LLM、快速编写和解析相关工具插件、链式调用等标准化的底层任务,简化操作流程。然而,它们会创建额外的抽象层,这可能会遮盖底层的提示和响应内容,使得调试变得更加困难。它们可能让开发者在简单的设置就能完成的操作中,增加工作的复杂程度。

    我们建议开发者首先直接使用LLM API:许多常用的模式只需几行代码就能实现。如果确实想要使用框架,需确保理解底层代码。对底层内容的错误假设是客户出错的常见来源。

    查看我们的官方手册以获取一些示例实现。

    构建模块、工作流和代理

    在本节中将探讨在生产中遇到的代理系统的常见模式。我们将从基础构建模块——增强型LLM开始,逐渐增加复杂性,从简单的组合工作流到自主代理。

    构建模块:增强型LLM

    代理系统的基本构建模块是通过检索、工具和记忆等增强功能提升的LLM。如今的模型能自动地使用这些能力——自主生成搜索查询、选择合适的工具,并决定保留哪些信息。

    Building-effective-agents-_-Anthropic

    我们建议重点关注实施的两个关键方面:根据使用场景定制特定用例,并确保为LLM提供简单且文档齐全的接口。虽然实现这些增强功能有很多方法,但其中一种方法是使用Anthropic最近发布的模型上下文协议(Model Context Protocol),它支持开发者通过简单的客户端实现与借助该协议的各种第三方工具生态进行集成。

    在本文的剩余部分,将假设每次LLM调用都可以访问这些增强能力。

    工作流:提示链工作流

    提示链将一个任务分解成一系列步骤,其中每个LLM调用处理前一个调用的输出。您可以在任何中间步骤添加程序化的检查(见下图中的“gate”),确保流程按预期进行。

    Building effective agents _ Anthropic

    • 适用场景:此工作流非常适合任务可以轻松且清晰地分解为固定子任务的场景。主要目的是通过使每个LLM调用变得更容易,在回复速度和更高的准确性之间进行取舍。
    • 提示链适用示例
      • 生成营销文案,然后将其翻译成不同的语言。
      • 编写文档的大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。

    工作流:路由工作流

    路由对输入进行分类,并将输入引导至后续的专门任务。工作流允许分离关注点,并构建更专业的提示。如果没有这种工作流,针对一种输入的优化可能会损害其他输入的性能。

    Building effective agents _ Anthropic

    • 适用场景:路由适用于复杂任务,这些任务具有明确的类别,适合分别处理,并且分类可以由LLM或更传统的分类模型/算法准确处理。
    • 适用示例
      • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具中。
      • 将简单/常见问题路由到较小的模型,如Claude 3.5 Haiku,将困难/不寻常的问题路由到更强大的模型,如Claude 3.5 Sonnet,以优化成本和速度。

    工作流:并行化工作流

    LLM有时可以同时完成一项任务,并将它们的输出以编程方式汇总输出。这种工作流体现在两个关键变体中:

    • Sectioning(任务拆解):将任务分解为独立子任务并行运行。
    • Voting(投票):多次运行相同的任务以获得不同的输出。

    Building effective agents _ Anthropic

    • 适用场景:当分割的子任务可以并行化以提高速度,或者当需要多个视角进行尝试来获得更可靠的结果时,并行化是有效的。对于具有多重考虑因素的复杂任务,把每个考虑因素都用单独的LLM调用处理时,LLM表现更好。
    • 适用示例
      • Sectioning(任务拆解)
        • 安全防护,其中一个模型处理用户查询,而另一个筛选查找不适当的内容或请求。这通常比让同一个LLM调用同时安全防护和核心响应表现得更好。
        • 自动化评估用来评估LLM在给定提示下的表现,每个LLM用在评估模型表现的不同方面。
      • Voting(投票)
        • 审查代码中的漏洞,如果发现他们有问题,多个不同的提示审查并标记代码。
        • 评估给定内容是否不当,使用多个提示评估不同方面或设置不同的投票阈值来平衡测试的准确性。

    工作流:协调者-执行者工作流

    在协调者-执行者工作流中,一个中心LLM动态地分解任务,将它们委托给worker LLMs(工人LLM),并综合考虑他们的结果。

    Building effective agents _ Anthropic

    • 适用场景:适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量以及每个文件中内部的更改,可能取决于任务本身)。虽然它的流程图跟 Parallelization 很像,但关键区别在于其更灵活——子任务不是预定义的,而是由Orchestrator指挥家根据特定输入确定。
    • 适用示例
      • 每次对多个文件进行复杂更改的编码产品。
      • 涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务。

    工作流:评估器-优化器工作流

    在这个工作流中,一个LLM调用负责生成响应,而另一个在循环中提供评估和反馈。

    Building effective agents _ Anthropic

    • 适用场景:当有明确的评估标准,并且迭代细化的价值能被衡量时,这种工作流特别有效。良好的适应性有两个标志,第一,当人类表达反馈时,LLM的响应可以明显改善;第二,LLM能够提供这样的反馈。这类似于人类作家在撰写精炼的文档时,可能经历的迭代写作过程。
    • 适用示例
      • 文学翻译,其中有一些细微之处翻译LLM最初可能无法捕捉到,但评估LLM可以提供有用的改善建议。
      • 复杂的搜索任务,需要多轮搜索和分析来收集全面的信息,负责评估的 LLM 决定是否需要进一步搜索。

    代理

    随着LLM在理解复杂输入、进行推理和规划、使用工具及从错误中纠错等关键能力的成熟,代理开始在生产中兴起。

    代理工作的开始,来自人类用户的命令,或与人类用户进行互动讨论。一旦任务明确,代理就会独立规划和行动,可能需要反问人类,来获取更多信息或判断。在执行过程中,对于代理来说,每一步从环境中获得“真实情况”(例如工具调用结果或代码执行)以评估其进度至关重要。然后,代理可以在遇到阻碍时暂停以获取人类反馈。任务通常在完成时终止,但也常常包括终止条件(例如最大迭代次数)以保持控制。

    代理可以处理复杂的任务,但它们的实现通常很简单。它们通常只是根据环境反馈在循环中使用工具的LLM。因此,设计周全且清晰的工具集和文档至关重要。附录2(”Prompt Engineering your Tools”(提示工程你的工具)中详细介绍了工具开发的最佳实践。

    Building effective agents _ Anthropic

    (自主代理)

    • 适用场景:代理可用于难以或无法预测所需的步骤数量,并且无法规定好固定路径的开放式问题。LLM可能会运行多个循环,你必须对其决策能力有一定程度的信任感。代理的自主性使其成为在受信任环境中执行任务时特别理想。代理的自主性质意味着成本更高,并且有可能出现不断积累的错误。建议在沙盒环境中进行广泛的测试,并设置适当的安全防护。
    • 适用示例:以下是我们自己的实现中的一些示例:

    Building effective agents _ Anthropic

    (编码代理的高级流程)

    组合和定制

    这些范式不是严格规定好的。它们是开发者可以搭建和组合以适应不同用例的常见模式。和任何LLM功能一样,成功的关键,是衡量性能并迭代落地。重复一遍:只有能明显改善结果时,才应该考虑增加复杂性。

    总结

    在LLM领域取得成功并不是关于构建最复杂的系统。而在于为需求构建合适的系统。从简单的提示开始,用全面的评估进行优化,只有当更简单的解决方案不足以应对时,才添加多步骤的代理系统。

    在实现代理时,我们尝试遵循三个核心原则:

    • 确保代理设计简单
    • 通过明确显示代理的规划步骤来优先考虑透明度
    • 通过全面的工具文档和测试,精心打造你的代理-计算机界面(ACI)接口。

    框架可以帮助你快速入手,但在进入生产环境时,不要犹豫减少抽象层,并尽量使用基本组件构建。遵循这些原则,你可以创建不仅强大而且可靠、可维护并被用户信任的代理。

     

    致谢

    由Erik Schluntz和Barry Zhang撰写。这项工作借鉴了我们在Anthropic构建代理的经验以及我们的客户分享的宝贵见解,我们对此深表感激。

    获取《Agent 构建指南》PDF原文件,扫码关注回复:241222

     

    附录1:实践中的代理

    我们与客户的合作揭示了AI代理特别有前景的两个应用,展示了上述模式的实际价值。这两个应用都说明了代理对于需要对话和行动、有明确成功标准、能够反馈循环并整合有价值的人类监督的任务中最有价值。

    A. 客户支持

    客户支持结合了熟悉的聊天机器人界面,并通过工具集成增强了能力。这对于更开放式的代理来说是自然的场景,因为:

    • 遵循对话流程,互动自然,同时需要访问外部信息和操作;
    • 可以集成工具来提取客户数据、订单历史和知识库文章;
    • 可以以程序化的方式处理如发放退款或更新工单等操作;
    • 通过用户定义的解决方案,明确的地衡量agents 是否解决了该问题。

    一些公司通过基于使用量的定价模型证明了这种方法的可行性,这些模型仅对成功的解决方案收费,展示了对他们代理有效性的信心。

    B. 编码代理

    软件开发领域显示出LLM功能的显著潜力,功能从代码补全演变到自主问题解决。代理特别有效,因为:

    • 代码问题的解决可以通过自动化测试来验证;
    • 代理可以使用测试结果作为反馈迭代解决方案;
    • 问题定义明确且结构化;
    • 输出质量可以客观衡量。

    在我们自己的实现中,代理基于SWE-bench验证基准,能单独解决真实的GitHub问,。然而,尽管自动化测试有助于验证功能,但人类审查仍然至关重要,以确保解决方案符合更广泛的系统要求。

    附录2:提示工程你的工具

    无论您正在构建哪种代理系统,工具插件都可能是您代理的重要组成部分。工具使Claude能够通过在我们的API中指定它们的确切结构和定义来与外部服务和API交互。当Claude响应时,如果它计划调用工具,它将在API响应中包含一个工具使用块。工具定义和规范应该和整体提示一样,获得同样的提示工程关注。在这个简短的附录中,描述了如何对工具进行提示工程。

    通常有几种方式可以指定相同的操作。例如,可以通过编写差异(diff)或重写整个文件来指定文件编辑。对于结构化输出,可以在Markdown或JSON中返回代码。在软件工程中,这些差异是表面的,并且可以无损地从一种格式转换为另一种格式。

    然而,有些格式对于LLM来说比其他格式更难编写。编写差异(diff)需要在新代码编写之前就知道块头部有多少行在更改。在JSON中编写代码(与Markdown相比)需要对换行符和引号进行转义额外的转义。

    我们对决定工具格式的建议如下:

    • 给模型足够的令牌,在它进入死胡同之前“思考”。
    • 保持格式接近在互联网上自然出现的文本。
    • 确保没有格式化“开销”,例如必须准确计算数千行代码,或对它编写的任何代码进行字符串转义。

    一个经验是在人机界面(HCI)上投入了多少精力,就要投入同样的精力来创建良好的代理-计算机界面(ACI)。以下是如何做到这一点的一些想法:

    • 设身处地为模型着想。根据描述和参数,使用这个工具是否明显,还是需要仔细思考?一个好的工具定义通常包括示例用法、边界情况、输入格式要求以及与其他工具的明确界限。
    • 如何更改参数名称或描述以使任务更明显?将此视为为您团队的初级开发人员编写易读的说明文档那样。当使用许多类似的工具时,这一点尤其重要。
    • 测试模型如何使用您的工具:在我们的工作台上运行多个示例输入,来查模型犯了哪些错误,并进行迭代。
    • 为您的工具实施防错措施。更改参数,使其更难犯错误。

    在构建SWE-bench代理时,Anthropic 实际上花在优化工具上的时间比优化整体提示还要多。例如,Anthropic 发现模型在使用相对文件路径的工具时会出错,尤其是在代理移出根目录之后。为了解决这个问题,将工具更改为始终要求使用绝对文件路径,我们发现模型完美地使用了这种方法。

  • 如何使用腾讯混元视频生成模型,一手实测

    01 鹅厂已就位

    鹅厂,终于推出自己的AI视频了——「混元视频模型」。

    最近,受邀参加混元视频模型的内测。周末连肝两天,从早肝到晚,肝了累计有300多支视频吧图片

    先说结论:作为鹅厂交出的第一版(文生视频、5s),总体质量非常高。在指令遵循、动态和画面稳定性、镜头语言、写实质感、物理遵循等方面表现不错,抽卡很少

    甚至,在一些镜头转换、动作特效、科幻/魔幻风格、抽象理解等方面,还有惊喜表现。

    请看VCR:

    体验路径:腾讯元宝APP-AI应用-AI视频。

    02 实测10个风格、30个Case

    为了系统的测测混元视频模型的质量,当然相比那些专业评测基准,也不算很系统。只是我个人认为比较重要也是大家经常会用到的一些风格场景,我把他们分成了10个板块来测。

    这10个风格分别是:特写、写实、人物、动物、科幻、特效、动画、艺术/抽象、运动、多人场景/大场面/多镜头

    每个风格,分别设计3~5个提示词,让混元出视频,进行测评。

    提示词部分,我自己先想一个idea,用一句话描述,然后让AI帮我优化、扩写。AI优化后的提示词,我自己再改改,基本上就可以发给模型开始跑了。

    提示词框架,大体上离不开这几个模板。

    • 模板1:提示词=主体+场景+运动
    • 模板2:提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达)
    • 模板3:提示词=主体+场景+运动 + (风格表达)  + (氛围描述) + (运镜方式) + (光线) +(景别)

    重点关注 主体+场景+运动 即可,其他部分如果不太会描述,也可以通过后台提供的标签来选择。

    话不多说,我们直接来看看跑的Case。

    Ps.所有Case都由我自己实测,不含任何官方的demo。

    (1)写实

    写实,几乎是视频模型必测的风格了。主要看模型对不同场景、人物表情、人物动作、纹理细节以及光影变化的生成效果,看他们是否与真实世界保持一致。

    1)一只啄木鸟正在树上啄洞,写实风格。

    2)一个中国美女穿着汉服,头发随风飘扬。然后镜头切换到正面特写。背景是张家界。

    3)一只戴红围巾的企鹅在花海散步,红围巾与花海色彩形成鲜明对比。背景的花海随风轻摆,花瓣飘落,晨露闪烁。

    4)超长焦横移,工业废弃厂房,主光从碎裂天窗渗入,自然光。

    (2)特写

    特写,是视频模型比较擅长的风格。各家模型比拼的关键在于对细节的呈现能力 ,比如物体运动细节、人物肢体细节、人脸表情细节、画面质量细节等。

    一个好的特写镜头,很容易拉近观众与主角的距离,让观众身临其境。

    5)一名男子惊恐地望着远方,背景是一座正在燃烧和爆炸的城市。镜头对准男子的脸,捕捉到他惊恐的表情。

    6)镜头慢慢推近。背景是一个小巧而温馨的客厅,一位年轻女子坐在沙发上,全神贯注地读书。一个冒着热气的茶杯放在咖啡桌上。

    7)一只奇怪而可怕的远古生物在泥土中爬行。

    (3)人物

    人物,主要看视频模型对人的肤色、肢体动作、表情动作以及衣着呈现的真实性,也是我们作为人类最容易识别出AI真假的地方。

    但话又说回来,文生视频在人物方面的表现上都不太占优。要想人物表现更稳定、真实和一致,一般得通过图生视频来生成。

    8)一个小男孩正在全神贯注地组装积木。

    9)一个小女孩拿着气球,慢慢的往前跑。

    10)一个男人坐在沙发上看电视,然后双手抱头,表情非常惊讶。

    (4)动物

    相对人物来说,各家视频模型在动物上的表现都要好很多。但前提是你的动物得“大胆”地动起来,而不是只将画面放大、缩小图片

    从我跑的多支Case来看,混元视频模型在动物写实上非常不错,有点纪录片的味道了。

    11)非洲草原上,一只猎豹正在极速奔跑,追逐一头羚羊。

    12)大兴安岭,一只老虎正在极速奔跑,背景是皑皑白雪的森林。

    13)故宫红墙前的树枝上,一只喜鹊正在觅食。

    (5)科幻、魔幻、玄幻

    科幻、魔幻、玄幻等幻想风格,是吸引很多人用AI做视频的重要原因,当然也包括我。

    幻想风格,特别考验视频模型的数据集和泛化能力(指模型对新的、未见过的数据的表现能力),能否把一些幻想场景给展示出来,比如光影变化、色彩变化、变形特效、动作特效等。

    这部分,我Case放得最多。考虑到视频转图被压缩,部分case我直接放了原视频。

    14)一艘飞船正在穿过小行星带。

    15)一艘飞船正在穿过时光隧道,周围是五彩斑斓的光线。

    16)两个巨型机器人在城市中激战,每一次碰撞都产生巨大的冲击波,将附近的建筑震成碎片。

    17)昏暗的走廊,一支海军陆战队正在穿过废弃的走廊。

    18)在若隐若现的云端,乌云密布,电闪雷鸣。突然一条巨龙从云层穿过,飞奔而来。

    这想象力,估计混元一定“看”了很多次权游。

    (6)特效

    特效,Special Effects,是电影、电视中最重要的视觉艺术,常见特效如爆炸、烟雾、火焰、极速等。

    特效镜头,也是主要考验视频模型的泛化能力,看模型对指令的遵循程度以及细节表现能力。

    19)暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹。

    20)在一座破旧的仓库内部,突然发生一场爆炸。

    21)雾蒙蒙的夜晚,明亮的月光,一艘中世纪的帆船在海上航行,充斥着诡异的氛围。

    22)五颜六色的水母在海底自由自在地游动。它们身体呈现出透明的蓝色、紫色和粉色,在水中散发出迷人的光芒。

    (7)动画

    动画,主要看模型对各种风格的支持和审美,比如2D、3D、矢量、黏土、水墨、宫崎骏、迪士尼等。

    先来一个Sora的提示词。

    23)Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

    再来看看宫崎骏风格。

    24)一片奇幻花园映入眼帘。花园里长着各种奇花异草,它们形态各异,颜色缤纷。在花园中,还生活着一群活泼可爱的小精灵,它们身着五颜六色的衣服,在花草间嬉戏玩耍。吉卜力动画风格,让人仿佛置身于宫崎骏创造的梦幻世界中。

    (8)艺术/抽象

    艺术风格,主要考验视频模型对图形、空间、色彩和受力变化的抽象理解。测了几个case,没想到混元也能做一些抽象的艺术视频。

    25)粒子旋转,汇聚成抽象的形态。

    26)不同颜色组成不规则图形,缓慢旋转。

    27)5度斜角固定镜头,浅景深对焦,紫红霓虹灯与青色全息投影交织。画面中央的机械舞者着装前卫,张开双臂,向观众致谢。

    (9)运动

    运动,被视为视频模型皇冠上的明珠,因为它最具挑战性。

    要想生成符合真实世界物理运动的视频,模型对空间位置关系的理解,对不同物体受力变化、形态的处理,以及对不同物体、不同运动的语义理解,都要有相当深的技术,才能生成出遵循物理规则的视频。

    28)日落时分的越野赛道,改装过的福特F-150猛禽呼啸而过。加高的悬挂让硕大的防爆轮胎在泥地上肆意翻飞,泥浆飞溅在防滚架上形成斑驳图案。车身贴花在金色阳光下闪闪发亮,机械增压器的呼啸声与排气轰鸣交织。

    29)慢动作回旋镜头,雷暴天气伴随着闪电,一位英姿飒爽的中国侠客在雨中舞剑。背景是一片竹林。

    30)一辆越野车在险峻的山腰上行驶,远处的贡嘎雪山在视觉上缓缓升起逐渐清晰。

    (10)多人场景/大场面/多镜头

    多人场景,涉及多人物动作协调以及算力问题,目前基本上很多视频模型都会崩,包括Gen3、可灵等。我们看看混元的效果如何。

    31)镜头从骑着马的骑士的脚步局部特写开始缓缓上升,最终拍摄到骑士的面部,骑士面带坚毅的表情看向前方。背景是一个中世纪战场,两军正在交战,人仰马翻。

    32)一堆人围坐在篝火前,有说有笑,欢声笑语。

    10个风格领域测完了,我们来做一个总结:

    1)混元模型对指令(也就是提示词)比较遵循。后续大家在设计提示词时,建议一定要有强画面逻辑,指令清晰,切勿堆砌一堆的修饰词以及过多的主体词。

    不然反而会干扰模型的注意力,也就是模型DiT架构的T,Transformer,自注意力机制。

    2)动态表现和画面稳定性很好。在我测的300多支视频里,肯定有失败的Case,但没有一支视频是在做PPT的放大或缩小。都是正常动作,正常速度,很少有慢镜头、PPT动画。

    3)对镜头语言理解到位。如果你指定是什么镜头和景别,模型便会严格遵循。如果没有指定,模型则会根据提示词自行理解,设计镜头,有时候能够给人惊喜。

    比如这个,真的很nice。

    提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

    4)5s视频也能切镜头。在部分提示词的场景下(通常为长提示词),混元模型即使只有5s视频,也能够自动切镜头。切镜头后,还能能够保持主体一致性。

    5)在科幻、魔幻、写实纪录片、特效、运动等风格上表现出色,出片率很高。特别是魔幻风格,很有权游的味道,推测应该与鹅厂自家的视频数据集有关。

    6)抽卡次数少。如果指令清晰,有时候一次生成就能够得到满意的视频。最不济再生成3-5次,基本也能拿到心满意足的视频。

    7)尽量照顾小白。在输入框界面,提供了风格、景别、光线、镜头运动以及多种模式(流畅运镜、丰富动作、导演模式),小白也能快速上手。

    别小看这些标签。在我测的过程中,这些标签对我的视频效果帮助很大,特别是视频风格和运镜方面。

    当然,测试中也发现一些不足。

    1)泛化能力有待提升。一些陌生、冷门、未训练的描述词(比如主体、场景、动作等),混元还无法识别,导致模型的创造力受到一定影响。

    2)画质还需要提升,目前只有720P(是真的720P),虽然提供了“高品质”模式,但对于专业创作者来说,还不太够。

    3)对本土人物的理解,还需要提升。如果提示词里没有注明“亚洲人”,模型通常会以欧洲人来生成。当然,文生视频本就不擅长人物主体的一致性,要想提升人物一致性还得等图生视频。另外,模型在情绪的展现上,也稍微弱一些。

    03 写在最后

    经过连续三天的测评,个人认为,作为初代模型,混元的总体质量是非常高的,比很多视频模型第一版的表现都要好。

    跟混元的同学了解了下,这源于他们在这些方面的创新:

    • 使用新一代语言模型作为文本编码器,具备更强的语义理解和画面呈现能力;
    • 全程采用full attention(全注意力)机制,而不是时空模块,使得每帧视频的衔接更为流畅;
    • 使用自研图像视频混合VAE(3D 变分编码器),提升模型在细节上的表现能力,比如人脸、手指、高速镜头等。

    而且更为关键的是,鹅厂宣布对这个模型进行开源!!

    现在起,无论是个人还是企业,所有开发者都可以在Hugging Face和Github上免费使用这个模型了。

    大气,真的大气!130亿参数的模型,说开源就开源。包括模型权重、推理代码、模型算法等完整模型,直接全部公开。

    要知道,视频模型因为技术最难,敢开源、能开源的真没几家,包括“源神”Llama推出的视频模型Movie Gen,都不打算开源。

    混元视频模型,上线就开源,这气度,这格局,牛。到目前,他们已经开源了文生文、文生图、3D生成以及最新的文生视频。

    本文涉及的工具

    腾讯混元文生视频:https://ai-bot.cn/video-hunyuan-tencent/

    原文链接:一手实测,腾讯混元最新的视频模型

  • 如何用办公小浣熊2.0免费完成数据分析,浣熊三步法

    一眨眼又要过年了,天塌了!令人头大的N个项目分析报告根本写不完啊,有没有一款解救打工人年底汇报材料的AI工具呢?

    经过我不断地搜集寻找,终于让我挖到宝啦!

    它就是办公小浣熊2.0

    用浣熊三步法(PAW):规划(Plan)、分析(Analyze)、写作(Write),写分析报告效率提升10倍,关键是完全免费!!!

    只需输入一句指令,开启办公自动化模式。数据整理、数据清洗、表格转换、图表制作,项目怎么开展、后续怎么进行,AI一键总结成高质量的数据分析报告。

    让我们一起来看看,它是如何帮我完成一整套工作流程的吧!

    浣熊三步法:1分钟生成完整报告

    • 第一步:规划

    假设我手里有一份电影票房相关的数据,老板要让我根据这份数据出一个报告,我可能都不知道这份数据有什么价值,亮点在哪里,报告要从哪方面着手,但是不用怕,丢给小浣熊就行。

    把数据上传之后,输入:根据这个数据生成一个电影数据分析报告的大纲。

    在进行数据的读取和预处理之后,它会直接帮我们生成出一个大纲。

    而且都不用再复制粘贴什么的直接就可以一键生成文档。

    在文档里,可以继续用AI添加更多的元素,像数据背景这类以前写起来很难受的东西,也可以叫AI帮助生成。

    • 第二步:分析

    后续可以继续在文档界面分析大纲里需要的各项数据。

    支持生成折线图、柱状图、条形图、饼图、散点图、直方图、箱线图、热力图、面积图、雷达图

    根本不需要懂编程、不需要学SQL,就可以用专业的数据分析方法完成数据的处理、分析,获得专业的数据洞察结果和可视化的展示效果。

    我如果还需要其他图表信息,可以继续让它生成就行。

    • 第三步:写作

    在最后报告编辑过程中,可以点击 “唤熊一下”。

    翻译,“唤熊一下”

    找灵感,“唤熊一下”

    扩写,“唤熊一下”

    纠错,“唤熊一下”

    我们随便扩写一段:

    “唤熊一下”,随时改写、润色、续写、总结,脑袋里灵光一现的想法,它也能即刻查找资料,帮我整理成篇。

    把复杂工作简单化,简单的工作流程化,不管你是普通打工人,还是内容创作者,浣熊三步法都能让你的工作效率拉满!

    有了办公小浣熊,现在完成一篇报告的撰写根本不需要开好几个软件,更不需要去学习什么Python,SQL,Excel,你会打字让AI看懂,那这篇报告离完成就不远了。

    本文涉及的所有工具

    办公小浣熊https://ai-bot.cn/sites/8516.html

    原文链接:打工人急需的免费AI数据分析神器,找到了!

  • 如何用AI生成中文海报,即梦/豆包10秒搞定

    最近有没有被AI的新突破刷屏?我可是被震撼到了!中文世界终于迎来了自己的Ideogram

    即梦AI、豆包生成的图片支持添加中文字了,😎画国风插画再也不用担心被英文破坏氛围!AI生成的文字不仅完美契合图片风格,还自带排版,设计小白也能直出精美的海报!

    如何使用

    AI绘画直出中文,方法非常简单,直接在提示词中写出,你要加什么文字,加在哪个位置,什么样的文字效果,10秒钟就能生成你想要的画面。

    即梦 AI 上线 2.1 生图模型

    1.在即梦图文生成页面,将模型调整为图片2.1

    2.输入图片描述,AI就会生成对应的图片了。

    案例描述:极简电影海报,卡通,蓝+白,哆啦A梦,特写,手绘感,颗粒感,笔触感,幼态字体中文“哆啦A梦”,英文“Doraemon”。

     

    豆包App端支持生成中文AI图

    1.打开豆包App的对话页面,选择下方的AI生图

    2.输入图片描述,就会生成对应的图片。

    应用场景

    AI绘画能”写“字,为什么会让这么多人关注?有些朋友就疑惑了,先把画好图,再用P图软件把字加上去,不是一样的吗?

    其实还真不太一样。AI生成的文字与图像完美结合,风格高度统一,更具吸引力和传达力,完全没有违和感,生成效率高,玩法还无穷无尽,还有什么理由不选择它呢?

    在日常的生活和工作中,可以怎样应用这个功能呢?

    • 电影海报

    描述:一张电影海报,末日风格,背景可以看到巨大的红色月亮,到处是失事的废墟和火球,一个微型机器人,发出微弱亮光照亮一条路,标题:”流浪地球5“。

    • 电商产品图

    描述:一张电商实拍图,一个毛绒绒的粉色热水袋,上面用白色毛线织着:”AI工具集“。

    • 节日祝福

    描述:可爱圣诞节卡片,Q版,3D效果,圣诞树,背景有各种小星星,标题写着中文“圣诞快乐”,下面是一行英文“Merry Christmas”。

    • LOGO设计

    描述:LOGO设计,黄鹤楼,矢量图。中文:“黄鹤楼”,英文:“The Yellow Crane Tower”。

    • 插画

    描述:一个剑客,武侠风,红色腰带,戴着斗笠,低头,盖住眼睛,白色背景,细致,精品,杰作,水墨画,墨烟,墨云,泼墨,色带,墨水,墨黑白莲花,光影艺术,笔触,标题:“侠客”。

    • 四宫格漫画

    描述:四宫格漫画;从左到右,时间依次推进。第一格:一只可爱的小狐狸,坐在电脑前,思考,上方文字标题:“为什么今天还要上班”。第三格:一只可爱的小狐狸,在地上哭,上方标题:“明明昨天上过了”。第二格:一只小狐狸,背着包包走路,标题:“一周上5天”。第四格:一只小狐狸,天使光圈,天使翅膀,标题:“上到55岁”。

    • 小红书封面

    描述:小红书封面,一只开心的小鸡,在沙发上躺着吃零食,标题中文:“我的EMO调理好了”,文字可爱、卡通,与画面融为一体。

    • 壁纸

    描述:猫咪舞团,中国舞的舞台,猫咪们穿着淡青色汉服,青绿山水,中国美学的舞台布景,雾气,概念艺术,复杂梦幻的场景,超级可爱的猫咪,完美的光影。最上方中文标题:“只此喵喵”。

    • 门店设计

    描述:写实,高清,一家温馨的小店,店铺在街角,店内光线明亮,LED门头,门头上写着“AI工具集”。

    是不是觉得自己和专业设计师之间的差距又拉近了一点呢?

    AI绘画直出中文确实是一个大突破,能应用的方面非常广泛。普通人想要学好设计,复杂的软件操作就不再是难题,最重要的是有没有好的想法和好的审美。

    虽然目前仍然存在一些不足,比如有时生成的字不是特别准确,需要用消除笔二次编辑一下;暂时还不支持给上传的参考图加文字。对于普通内容创作者而言,已经能够满足基本的需求,能高效地实现你天马行空的想法。

    你觉得这个功能怎么样呢?评论区一起来讨论一下~

    本文涉及的所有工具

    原文链接:10秒AI速成中文海报,设计小白变大师!

  • 如何使用 Kimi 创作空间?操作后惊艳到了!

    国内大模型厂商在多模态方向越来越卷了,前有引爆海外的可灵,后有突围的MiniMax海螺,据腾讯混元官方透露,将于12月3日正式发布混元文生视频大模型。

    不断收缩业务线、聚焦核心产品的Kimi,近期也悄悄灰度测试了“Kimi创作空间”功能

    只需要输入一句话+一首音乐,最长能生成30s的音乐视频

    官方case

    先来欣赏一下官方给出的视频案例:

    1.花样年华风格

    2.布达佩斯大饭店风格(卡点)

    3.赛博朋克风格

    是不是看着都很有感觉,无论是打光色彩都很专业,有的还采用了卡点剪辑的方法,生成的视频直接就能用,给零基础的用户又降低了一道用AI制作视频的门槛。

    “Kimi创作空间”实测

    • 实测1  MV制作

    几个月前,MiniMax旗下的海螺AI就推出了AI创作音乐的功能,如今Kimi上线生成音乐视频的功能,🤩是不是意味着普通人也能低成本做音乐、出MV?

    比如这首《故乡的云》,我输入“故乡的美景,草原,白云,山川森林”,来看看Kimi生成的画面:

    它会根据音乐的节奏,拆分成多个片段。每个片段都会再帮你写一段关键词,生成对应的视频画面。

    如果你对生成的某个片段不满意,直接编辑单个片段的描述,再次生成就可以了。👍Kimi画面的整体风格一致性,和画面的精致程度,是之前其他软件都没有达到过的。

    • 实测2  日常短视频制作

    怎么写关键词一直是小白0基础学习AI的难点😭,但现在,你只要输入你的想法,不用写关键词,不用剪辑和二次加工,Kimi就能帮助你完成AI视频,质量还相当不错。

    比如我输入:“猫猫在客厅玩球”,它生成的画面是这样的:

    画面整体很精美,但细节/特写还是会存在一些瑕疵。

    • 实测3  短剧制作

    更进阶一点,在音乐里面融入一点剧情呢?

    使用Kimi的文本功能,就能轻易地实现这个想法。

    用Kimi给我的描述去生成视频,结果是这样的:

    平时可能需要好几个AI工具组合、反复抽卡生成的画面,Kimi只用几分钟就能达到差不多的水平。

    生成的视频前后风格、色调非常的统一,剧情完美契合了我输入的描述,而且人物的形象一致性保持的不错,连服装、背包这些细节都是一样的。

    • 实测4  长剧情制作

    如果剧情再长一点,Kimi的表现会怎么样呢?

    Kimi目前单次最长可以生成30秒的视频。我们输入“情侣分手”,生成的视频是这样的:

    从实测生成的视频来看,人物呈现上整体也很协调,人物的动作、表情都挺流畅,看起来不会有恐怖谷效应

    Kimi这个新功能目前还在灰度内测中,没有灰度到的朋友需要再等等。

    目前每天可以免费生成100秒视频,体验时长不累计,每天刷新。

    实测总结

    这个新功能在对内容的理解和生成方面已经非常顶尖了👏,只要你会打字,就能生成质量还不错的音乐视频,但还是很难应用到需要控制精细化细节的工作中。再迭代几版,就能应用在广告(创意预览)🎬,电影(镜头效果预览)🎥,游戏(特效生成)🎮了。

    用Kimi 的音乐视频生成功能制作 MV 🎵、旅行日志✈️、动漫、游戏 CG 🎮、个性化的电子贺卡💌、活动邀请函🎉…都十分便捷。

    Kimi 已经成为了我的工作、学习搭子,总结提炼内容、联网搜索资料、推理解题等,是实实在在的生产力,这次在 AI 创意创作功能上的尝试,属实有点惊艳到我了😍,期待 Kimi 继续推出更多好玩有趣的功能!

    本文涉及的所有工具:

    Kimihttps://ai-bot.cn/sites/5355.html

    原文链接:抢先体验Kimi视频生成功能,惊艳到我了!

  • 如何让AI给建筑物穿上毛衣,通义APP一键生成

    最近降温了,网络上刮起了一阵“给建筑穿毛衣”的风潮。那这股风潮背后的秘密是什么?

    原来是通义App最近推出的“局部风格化”功能,不仅能给建筑穿毛衣,万事万物都可一键穿上新衣!

    我上手试了一下,非常简单,先给大家看看欣赏一些:

    示例欣赏

    文物:

    文物

    古迹:

    古迹

    小动物:

    小动物

    汽车:

    汽车

    手机:

    手机

    具体是怎么做的,一分钟教会你们!

    制作流程

    1.打开通义手机App(网页端不支持)

    2.选择频道

    3.选择局部风格化

    4.点击传图创作

    5.上传图片并选择创意模版

    6.图片生成好之后点击图片,然后点击下载

    7.点击无水印下载

    做起来非常的简单,大家只需要注意上传图片的时候主体清晰就行!

    大家学会了可以拿自己家乡的知名建筑试试,也可以给自己的爱车或者爱宠穿上毛衣!

    好了这次的分享就到这里了,下次有好东西再继续分享给大家!

    本文涉及的所有工具:

    原文链接:让AI给建筑物穿上毛衣,小白用手机一键搞定!

  • 如何用AI生成民间故事视频?只需2步

    经常有朋友问,民间故事视频都是怎么做的?用哪个AI工具最方便?

    首先这类视频需要靠 AI 演绎文字中的故事,我们需要准备好故事文本,然后做分镜,还要分别画出人物图和场景图,再生成视频,配乐,剪辑…一套操作下来,不仅麻烦、费时间,还很难控制画风、人物的一致性。

    那有没有一个一站式AI工具可以简化这个过程呢?

    于是我就去研究了一会儿,还真找到了一个好方法,大家先看看我做出来的视频,是不是还挺像那么回事。

    想要知道我这个视频是如何做的吗,现在就教你们制作方法!

    第一步:写出民间故事

    用智谱清言AI写一段故事

    打开智谱清言,在输入框输入‘写一民间故事’,点击生成按钮,就可生成一个故事。

    民间故事

    如果怕觉得故事不符合你的心意,也可以输入“让故事更细节一点”,或者“让故事更长一点”

    第二步:把故事变成视频

    用白日梦AI把故事变成视频

    打开白日梦AI,点击新建视频,进入视频生成页面。

    把写出来的故事复制粘贴到文本框,选择横屏或者竖屏,把你想要的大模型勾选上,然后点击拆解分镜。

    分镜拆解完后大家可以修改、删除、改变顺序,弄好后点击下一步按钮。

    接下来开始角色设定,大家可以自行选择形象,也可以点击一键选形象,有几个角色就选择几个形象,把所有形象设置好之后点击下一步。

    到了分镜选择的页面,左边可以选择旁白和背景音乐,没有角色出场的分镜会自动生成画面。

    有角色的分镜,大家可以在右边选择出镜角色,分镜动作、景别、相机位置等。当调整好所有东西后,点击生成图片。

    到了图片编辑页面,如果大家对生成的图片不满意,可以在右边画面提示词处修改提示词,点击重绘画面即可重绘。所有画面都符合之后,在左上角选择合适的背景音乐,之后点击生成视频就可以了。

    总的来说制作起来还是蛮简单的,但是值得注意的有几个方面:

    1.故事很重要,写出一个好玩又新颖的故事,最后得到的视频效果才好。

    2.第一次做可以做短一点的故事,这样后期调整的地方就少一点,故事越长,后期调整难度越大。

    3.画面提示词只有正向提示词,如:只能输入你希望画面中出现什么内容,不能输入不要什么内容。

    4.有的时候同一提示词也需要多次生成画面才会达到自己想要的效果。

    这次我们的分享就到这里了,等有好东西我就继续给大家分享!

    本文涉及的所有工具:

    原文链接:用AI做民间故事视频,只要2步就能学会!

  • 如何制作AI美女变身视频?3分钟学会

    最近网上出现了很多变身视频,什么美女变狐狸,林黛玉倒拔垂杨柳。

    看着确实很帅,很多人也有了自己的创意想法,想自己整一个视频出来玩玩,但是不知道如何制作,找别人做又难免要给点幸苦费。虽然可能花不了两个钱,但是没道理这样去被当韭菜割啊。

    今天3分钟教会你们,不再去花冤枉钱!

    1. 使用即梦AI生成图片

    比如我想要的视频画面是美女和狼互相变幻,所以就画出两者的图片就好。

    打开即梦,点击AI作图的图片生成按钮

    使用即梦AI生成图片

    在左边的图片生成下面的内容框中输入你想要生成的图片的内容描述

    点击下面的立即生成按钮,你需要的图片就会生成出来了

    大家可以多画几张,互相当做首尾帧,视频时间会相应的延长。

    如何把即梦的图片免费下载下来的可以看这篇:如何去除即梦AI图片/视频水印?不开会员的2种方法

    2. 使用可灵AI生成视频

    使用可灵的首尾帧功能把图片变成视频

    打开可灵,点击AI视频

    选择图生视频,并打开增加尾帧开关

    这里要注意可灵1.5是不支持这个功能的,大家要在上面切换为可灵1.0

    把你生成好的图片添加到首帧和尾帧的框里,然后点击立即生成按钮就可以了

    如果是多张图片生成视频,就做多次上一个步骤(第一次:第一张做首帧,第二张做尾帧)

    (第二次:第二张做首帧,第三张做尾帧)

    (第三次:第三张做首帧,第四张做尾帧)

    (第四次:第四张做首帧,第五张做尾帧)

    (……)

    生成好的视频有的时候可能不太丝滑,或者感觉有点突兀,可以再点击立即生成按钮,重新生成一版。

    AI生成的视频,也需要在剪辑软件里再加工一下,配合上音效和节奏,展现效果就更好啦~

    大家可以去按照我的步骤把自己的创意发挥一下!

    这就是我最后生成好的视频,是不是很帅

    本文涉及的所有工具:

    原文链接:AI美女变身视频怎么做?3分钟免费教会你

  • ChatGPT 学生写作指南(中文版)

    如果使用得当,ChatGPT 可以成为一个强大的工具,帮助学生培养严谨思考和清晰写作的技能,帮助他们思考想法,掌握复杂的概念,并获得草稿的反馈。ChatGPT 的某些使用方式也会对学习产生反作用,例如生成一篇文章而不是自己写,这剥夺了学生练习、提高技能和理解材料的机会。

    对于致力于成为更好的作家和思想家的学生,这里有一些使用 ChatGPT 更深入地参与学习过程的方法。

    1. 将引用繁重的工作委托给 ChatGPT

    AI 擅长自动执行繁琐、耗时的任务,例如格式化引文。只需记住将所有来源详细信息与原始材料进行交叉检查以确保准确性即可。通过处理繁琐的工作,ChatGPT 可以让您专注于有趣的部分:发挥创造力、提出原创想法并提出无可辩驳的论点。尝试一下↗

    • 这是我的参考书目。以 MLA 格式格式化我的引文。
    • 将我的参考书目从 MLA 格式转换为 APA 格式。
    • 通读我的文章并告诉我是否已为所有来源添加了内嵌引用。

    2. 快速掌握新主题

    ChatGPT 可以通过提供对某个主题的基础理解来启动您的研究。尝试一下↗

    • 什么是凯恩斯经济学?它与古典经济理论有何不同?
    • 请概述一下不同的动机理论。

    3. 获取相关资源的路线图

    ChatGPT 可以通过推荐相关学者、资料来源和搜索词来指导您的研究。但请记住:虽然它可以为您指明正确的方向,但 ChatGPT 不能代替阅读主要资料和同行评审的文章。而且由于语言模型可能会生成不准确的信息,因此请务必仔细检查事实。尝试一下↗

    • 我正在研究社交媒体对心理健康的影响。该领域的顶尖学者是谁?他们的主要贡献是什么?我应该查阅哪些资料?我可以使用哪些关键词来搜索学术数据库?

    4.通过提出具体问题来完善你的理解

    ChatGPT 可以回答其他来源可能忽略或深埋在章节中的问题,从而帮助您将各个点联系起来,并填补您对复杂主题的理解上的空白。尝试一下↗

    • 以下是我对量子动力学的不理解之处:我们是不是说薛定谔的猫在我们打开盒子之前既不是活的也不是死的?或者这只猫只是一个比喻,用来说明电子在被观察之前一直处于叠加状态?

    5. 通过获取结构反馈来改善流程

    写完大纲后,ChatGPT 可以通过审查结构并对思路流程提供反馈来提供帮助。尝试一下↗

    • 审阅我的提纲,并就我的文章结构给我反馈。我的逻辑是否容易理解?我的想法是否合乎逻辑?我可以在哪里改进结构以加强我的论点或使顺序更清晰?

    6. 用反向概括测试你的逻辑

    反向概述是一种通过确定每段的要点来评估文章结构的技巧。一眼就能看到文章的结构可以帮助你回顾并评估思想的逻辑流程。尝试一下↗

    • 请为我的文章创建一个反向大纲。用十个字概括每一段的中心思想,并以大纲形式呈现。

    7. 通过苏格拉底式对话来发展你的想法

    就像苏格拉底对待他的对话者一样,ChatGPT 可以充当智力陪练伙伴,与你进行对话,帮助你表达和完善你的想法。尝试一下↗

    • 我正在写一篇大学论文,内容是关于弗吉尼亚·伍尔夫在《到灯塔去》中对意识流的运用。(我会将作业提示和评分标准粘贴在下面。)请阅读指南,然后采访我的想法,引导我完成一系列有针对性的问题(一次一个),以帮助我:
      • 针对作业提出一个清晰、可论证的论点
      • 吸收反对意见并考虑不同观点
      • 将我最初的想法与新的见解结合起来,使我的论点更加细致入微

    8. 通过询问反驳来对你的论点进行压力测试

    为了使你的论文更加有力,尝试让 ChatGPT 挑战你的逻辑,找出弱点,并提出你可能错过的反驳。尝试一下↗

    • 我的论证中哪些部分是可靠的?哪些地方存在逻辑上的矛盾?我还没有预料到哪些针对我论点的反驳?

    9. Compare your ideas against history’s greatest thinkers

    9. 将你的想法与历史上最伟大的思想家进行比较

    您还可以要求 ChatGPT 传达您正在与之交流的思想家的声音——以防您想在认识论上挑战康德、与鲁米辩论神秘的爱情,或与西蒙娜·德·波伏娃讨论女权主义的优点。尝试一下↗

    • 让我们进行一场哲学辩论角色扮演。你扮演勒内·笛卡尔,认为自由意志是人性的基础。我扮演大卫·休谟,认为所有行为都是由外部原因决定的。每轮,问我关于我的立场的问题,然后根据笛卡尔发表的著作反驳我。包括有趣的舞台指导。首先简明扼要地陈述你作为笛卡尔的立场。

    10. 通过反复反馈提高你的写作水平

    ChatGPT 可以提供持续的建议来帮助加强你的写作能力,让你在提交论文之前就能获得多轮反馈。尝试一下↗

    • 给我五条改进论文的建议。我是一名正在努力提高写作技巧的大学生,所以不要帮我重写。只需给我关于结构、论点、证据、写作清晰度和流畅度以及我可以改进的任何其他方面的反馈。解释每条建议背后的理由。

    11. 使用高级语音模式作为阅读伴侣

    除了提供书面答案外,ChatGPT 还具有高级语音模式,可以实时回答问题或解释晦涩难懂的段落。尝试在阅读书籍时保持语音模式,以便在不打断节奏的情况下提供背景信息。尝试一下↗

    观看作家 Dan Shipper 使用高级语音模式↗

    • 我正在读《悲剧的诞生》,尼采说:“人……不再是艺术家,他已成为一件艺术品:在这些陶醉的状态下,一切自然的艺术力量都显露出来。”这是什么意思呢?

    12. 不要只是敷衍了事——磨练你的技能

    学校论文不仅仅是获得成绩的必要条件,它还是培养能力的机会。与其只是努力完成论文,不如尝试让 ChatGPT 建议如何培养批判性思考和清晰写作的能力。尝试一下↗

    • 我想成为一名更好的学者、思想家和作家。根据我在这篇文章中所做的工作,找出我的思考和写作过程中的模式和需要改进的地方,解释你给出反馈的原因。然后提出具体的原则、做法和策略,让我可以应用这些原则、做法和策略来提高我的写作技巧。

    保持透明——引用你的对话

    最后一点:当你使用 ChatGPT 来加深理解、发展想法或获得你原本可能没有的见解时,它应该在可接受的学术实践范围内。但由于 ChatGPT 也可能被用于不道德的方式,如果你的教授能够确切地看到它是如何帮助你思考的,他们可能会感到更安心。

    学术工作的一部分就是公开你的资料来源。这就是为什么大学强调正确引用的重要性,确保你承认那些塑造了你的理解的思想家。

    同样,公开你如何使用 ChatGPT 也很重要。最简单的方法是生成可共享的链接(在新窗口中打开)并将它们添加到你的参考书目(在新窗口中打开)通过主动向你的教授提供一种审核你使用人工智能的方法,你表明了你对学术诚信的承诺,并表明你使用它不是作为逃避工作的捷径,而是作为支持你学习的工具。

  • 如何去除即梦AI图片/视频水印?不开会员的2种方法

    即梦AI是字节跳动推出的一站式AI创作平台,支持AI视频生成和AI图片生成。支持用户通过自然语言或图片输入生成高质量的图像和视频。即梦AI提供AI绘画、智能画布、视频生成以及故事创作等多种功能,降低创作门槛,激发用户创意。用户可以用即梦AI的AI视频生成功能,输入简单的文案或图片,快速生成视频片段,且视频动效效果连贯性强、流畅自然。本篇文章将介绍如何使用浏览器插件实现不开会员免费下载无水印图片和视频。

    文章目录:

    如何下载无水印图片

    第一步:安装图片助手插件

    1.打开浏览器,点击插件按钮(一般在浏览器右上角)。这里用微软自带的Microsoft Edge浏览器举例(Google浏览器,360浏览器等原理都一样),点击【获取Microsoft Edge扩展】。

    2.在搜索框搜索【ImageAssistant】图片助手,点击【获取】按钮。
    3.点击【添加扩展】,安装完成。

    第二步:如何使用插件

    1.首先我们打开即梦生成好图片。

    2.图片生成好之后选择我们想要的图片,点击浏览器【插件按钮】,选择【图片助手ImageAssistant】插件。
    3.点击【提取本页图片】按钮(如图第一个按钮)。
    4.找到你需要的图片(有很多一样的,选择分辨率最高的那张,下载下来就很清晰)。
    5.左键点开图片,右键点击复制图片,千万不要另存为,不然会保存为webp格式,只有复制的才是png的格式,复制好了去微信,QQ之类的窗口再粘贴下来,这样就能得到一个无水印又高清的图片啦。

    如何下载无水印视频

    第一步:安装视频插件

    1.和上面一样打开浏览器,点击插件按钮,选择【获取Microsoft Edge扩展】。

    2.在搜索框搜索【专业视频下载助手】,然后点击【获取】。
    3.点击【添加扩展】,完成安装。

    第二步:如何使用视频插件

    1.首先我们打开即梦生成好视频。

    2.视频生成好之后,点击【插件按钮】,选择刚刚安装的【专业视频下载助手】插件。
    3.可以先点红色三角预览,然后点击左边的【下载】按钮,会跳转到一个网页,等待下载完成之后点击【保存】。
    4.这样我们就得到一个无水印的视频了。新手使用插件去除水印是很方便的,可以更多次且免费的试错,让自己的AI创作更贴近自己的想法。但是长期用还是建议开个会员,毕竟会员享受的权益会更多,而且功能也会更强大。

    本文涉及的所有工具