Category: AI项目和框架

  • SongCreator – AI音乐模型,能理解、生成和编辑歌曲

    SongCreator是什么

    SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的AI音乐生成模型,能从歌词出发生成包含声乐和伴奏的完整歌曲。基于双序列语言模型(DSLM)和注意力掩码策略,理解和生成各种相关的歌曲生成任务,包括编辑和生成。SongCreator在多项任务中表现出色,特别是在歌词到歌曲和歌词到声乐的任务上,能独立控制生成歌曲中声乐和伴奏的声学条件。

    SongCreator

    SongCreator的主要功能

    • 歌词到歌曲(Lyrics-to-Song):根据提供的歌词生成包含声乐和伴奏的完整歌曲。
    • 歌词到声乐(Lyrics-to-Vocals):基于歌词生成声乐部分,不包含伴奏。
    • 伴奏到歌曲(Accompaniment-to-Song):给定伴奏,生成与伴奏协调的声乐部分,形成完整的歌曲。
    • 声乐到歌曲(Vocals-to-Song):给定声乐部分,生成伴奏,构成完整的歌曲。
    • 歌曲编辑(Song Editing):在现有歌曲中修改特定段落,匹配目标歌词,同时保持与原歌曲的连贯性。
    • 声乐编辑(Vocals Editing):编辑歌曲中的声乐部分,而不改变伴奏。
    • 音乐延续(Music Continuation):基于一段伴奏或声乐,生成音乐的连续部分。
    • 无条件音乐生成:在没有歌词的情况下生成音乐或声乐。

    SongCreator的技术原理

    • 双序列语言模型(DSLM):用DSLM捕捉声乐和伴奏的信息。模型包括两个解码器,分别针对声乐和伴奏,通过动态双向交叉注意力模块捕捉两者之间的相互影响。
    • 注意力掩码策略:设计一系列注意力掩码策略。策略支持模型在不同的歌曲生成任务中,如编辑、理解和生成,用统一的方式工作。
    • 多任务训练:基于多任务训练提升其在作曲、编曲和理解方面的能力,使其能处理各种复杂的音乐场景。
    • 条件信号:接受多种可选输入,包括歌词、声乐提示、伴奏提示等,使其在生成歌曲时具有高度的灵活性和可控性。
    • 语义令牌(Semantic Tokens):用BEST-RQ模型在未标记的数据集上训练,基于向量量化提取歌曲的语义令牌,令牌包含重建歌曲所需的语义和声学细节。
    • 潜在扩散模型(Latent Diffusion Model, LDM):用LDM将语义令牌解码成高质量的歌曲音频,模型由变分自编码器(VAE)和扩散模型组成,用在生成高保真度和音乐性的音乐。

    SongCreator的项目地址

    SongCreator的应用场景

    • 音乐制作:音乐制作人和作曲家生成歌曲的小样,快速原型设计,或在创作过程中寻找灵感。
    • 教育和学习:在音乐教育中,作为教学工具,帮助学生理解歌曲结构,学习作曲和编曲。
    • 娱乐和游戏:在视频游戏和互动媒体中,根据游戏情境实时生成背景音乐,提升玩家的沉浸感。
    • 内容创作:视频内容创作者和播客为项目定制原创音乐,而无需聘请专业的音乐家。
    • 广告和营销:广告行业快速生成符合品牌形象和广告概念的配乐。
  • Edify 3D – NVIDIA 推出的3D生成模型

    Edify 3D是什么

    Edify 3D 是 NVIDIA 推出的先进3D资产生成方案,能从文本提示或参考图像快速合成高质量的3D模型。Edify 3D能在两分钟内生成具有详细几何形状、清晰拓扑结构、高分辨率纹理和PBR材质的3D资产,支持视频游戏设计、扩展现实、模拟等多个领域应用。这一技术结合多视图扩散模型和基于Transformer的重建模型,显著提高3D内容生产的效率和可扩展性。

    Edify 3D

    Edify 3D的主要功能

    • 文本到3D生成:根据输入的文本描述,生成具有详细几何形状、清晰拓扑结构、高分辨率纹理和PBR材质的3D资产。
    • 图像到3D生成:能从参考图像中自动识别前景对象,并生成相应的3D资产。
    • 快速生成:在不到2分钟的时间内生成高质量的3D资产,满足快速生产的需求。
    • 高分辨率纹理:支持生成高达4K分辨率的纹理,确保生成资产的视觉质量。
    • PBR材质支持:生成的3D资产包含基于物理的渲染(PBR)材质,让资产在不同光照条件下都能保持逼真的外观。
    • UV贴图和材质图:生成的资产包括有组织的UV贴图和材质图,便于后续的编辑和渲染。

    Edify 3D的技术原理

    • 多视图扩散模型:用多视图扩散模型合成对象的RGB外观和表面法线图像。这些模型能处理文本提示和相机姿态,从多个视点合成对象的外观。
    • Transformer基础重建模型:基于合成的多视图RGB和表面法线图像,用Transformer模型预测3D形状的几何、纹理和材质。该模型将3D对象表示为潜在的标记(latent tokens),基于等值面提取和网格处理来得网格几何。
    • 跨视图注意力机制:多视图扩散模型扩展自注意层,跨不同视点进行注意力分配,提高视点一致性。
    • 高分辨率上采样:用上采样ControlNet提高多视图RGB图像的分辨率,基于给定3D网格的纹理和表面法线进行条件化处理。
    • PBR渲染:在生成过程中应用基于物理的渲染技术,确保材质和光照效果的真实性。
    • 网格后处理:生成的3D网格经过后处理,包括重新拓扑为四边形网格、UV映射生成和PBR属性烘焙,适应艺术和设计需求。

    Edify 3D的项目地址

    Edify 3D的应用场景

    • 视频游戏设计:游戏开发者快速生成一个中世纪城堡的3D模型,包括城墙、塔楼和内部结构,及相应的纹理和材质,用于即将推出的策略游戏。
    • 扩展现实(XR):虚拟现实体验设计师创建一个逼真的海底世界,包括各种海洋生物和珊瑚礁,为潜水爱好者提供一个沉浸式的虚拟潜水体验。
    • 电影和视频制作:电影制作团队生成一个未来城市的3D场景,用于科幻电影中的关键追逐戏,其中包括摩天大楼、飞行汽车和异形植物。
    • 模拟和训练:军事训练模拟器中,生成复杂的城市环境和战场地形,供士兵进行战术训练和模拟实战。
    • 建筑和城市规划:城市规划师根据最新的城市设计草案,快速生成3D城市模型,包括新的住宅区、商业中心和公园,以便进行公众展示和反馈收集。
  • XGrammar – 陈天奇团队推出的LLM结构化生成引擎

    XGrammar是什么

    XGrammar是由陈天奇团队推出的开源软件库,能为大型语言模型(LLM)提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG)定义结构,支持递归组合以表示复杂结构,适合生成JSON、SQL等格式数据。XGrammar用字节级下推自动机优化解释CFG,减少每token延迟,实现百倍加速,几乎无额外开销。XGrammar集成多种系统优化,如自适应token掩码缓存、上下文扩展等,提高掩码生成速度并减少预处理时间。XGrammar的C++后端设计易于集成,并支持在LLM推理中实现零开销的结构化生成。

    XGrammar

    XGrammar的主要功能

    • 高效结构化生成:支持上下文无关语法(CFG),支持定义和生成遵循特定格式(如JSON、SQL)的结构化数据。
    • 灵活性:基于CFG的递归规则,能灵活地表示复杂的结构,适应多样的结构化数据需求。
    • 零开销集成:XGrammar与LLM推理引擎共同设计,能在LLM推理中实现零开销的结构化生成。
    • 快速执行:基于系统优化,显著提高结构化生成的执行速度,相比于SOTA方法,每token延迟减少多达100倍。
    • 跨平台部署:具有最小且可移植的C++后端,能轻松集成到多个环境和框架中。
    • 自适应token掩码缓存:在预处理阶段生成,加快运行时的掩码生成。

    XGrammar的技术原理

    • 字节级下推自动机(PDA):用字节级PDA解释CFG,支持每个字符边缘包含一个或多个字节,处理不规则的token边界,支持包含sub-UTF8字符的token。
    • 预处理和运行时优化:在预处理阶段,生成自适应token掩码缓存,基于预先计算与上下文无关的token加快运行时的掩码生成。
    • 上下文无关与相关token的区分:区分上下文无关token和上下文相关token,预先计算PDA中每个位置的上下文无关token的有效性,并将它们存储在自适应token掩码缓存中。
    • 语法编译:基于语法编译过程,预先计算掩码中相当一部分token,加快掩码生成速度。
    • 算法和系统优化:包括上下文扩展、持续性执行堆栈、下推自动机结构优化等,进一步提高掩码生成速度并减少预处理时间。
    • 掩码生成与LLM推理重叠:将CPU上的掩码生成过程与GPU上的LLM推理过程并行化,消除约束解码的开销。

    XGrammar的项目地址

    XGrammar的应用场景

    • 编程语言辅助:用于辅助编写和调试代码,自动生成符合特定编程语言规范的代码片段,提高开发效率。
    • 数据库操作:生成符合SQL语法的查询语句,帮助开发者或应用程序自动构建数据库查询,减少手动编写SQL语句的工作量。
    • 自然语言处理(NLP):生成结构化的训练数据,用于训练和优化NLP模型,提高模型对结构化信息的处理能力。
    • Web开发:自动生成前端代码和API文档,确保文档与代码的一致性,提高开发效率和维护性。
    • 配置文件和模板:生成和填充配置文件及模板,如自动化生成系统配置、填充邮件模板等,提高自动化水平。
  • aisuite – 吴恩达发布开源Python库,一个接口调用多个大模型

    aisuite是什么

    aisuite是开源的Python库,吴恩达(Andrew Ng)发布的,旨在提供一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内的11个模型平台,开发者能轻松切换和测试不同提供商的模型。通过aisuite,用户可以便捷地获取API密钥并设置环境变量,实现对不同语言模型的访问和调用。简化了多模型管理和测试的工作,促进了人工智能技术的应用和发展。

    aisuite的主要功能

    • 统一接口设计:aisuite提供了一个统一的接口,开发者能以相同的方式调用不同大型语言模型(LLM)平台的模型。
    • 支持多个模型平台:aisuite 支持包括 OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace 和 Ollama 在内的多个模型平台。
    • 简化模型切换:用户只需通过更改一个字符串,即可选择不同提供商的模型,极大地简化了模型切换和对比测试的过程。
    • 易于安装和配置:aisuite的安装过程简便,用户只需准备Python环境和所需的API密钥,可通过简单的命令安装框架。
    • 主要关注聊天功能:目前,aisuite主要关注于增强聊天功能,未来计划扩展到更多使用场景。
    • 扩展性:aisuite计划增加更多功能模块,例如函数调用等,以进一步丰富其实用性。
    • 使用HTTP端点或SDK调用:为了确保稳定性,aisuite使用HTTP端点或SDK来与提供商进行调用。

    aisuite的项目地址

    如何使用aisuite

    • 安装aisuite:可以通过pip命令来安装aisuite。
      • 只安装基础包,不涉及任何提供商的SDK,使用命令pip install aisuite
      • 需要特定提供商的支持,比如Anthropic,可以使用命令pip install 'aisuite (anthropic)'
      • 要安装所有特定于提供商的库,使用命令pip install 'aisuite (all)'
    • 获取API密钥:安装后,需要为所选的提供商获取API密钥,通过环境变量进行配置。
    • 编写Python客户端:配置好API密钥后,可以使用标准的Python客户端来请求聊天补全等功能。例如,以下是使用aisuite生成聊天补全响应的Python客户端示例代码:
      import aisuite as ai
      client = ai.Client()
      models = ["openai:gpt-4o", "anthropic:claude-3-5-sonnet-20241022"]
      messages = [
          {"role": "system", "content": "Respond in Pirate English."},
          {"role": "user", "content": "Tell me a joke."},
      ]
      for model in models:
          response = client.chat.completions.create(
              model=model,
              messages=messages,
              temperature=0.75
          )
          print(response.choices[0].message.content)

    aisuite的应用场景

    • 聊天补全功能:目前,aisuite主要集中在聊天补全功能上,支持开发者通过统一的接口调用不同模型来生成聊天回复。
    • 模型对比测试:aisuite支持快速在不同模型间切换,只需更改一个字符串,例如从“openai:gpt-4o”切换到“anthropic:claude-3-5-sonnet-20241022”,进行模型对比测试变得简单。
    • 个性化推荐和服务:aisuite能通过对用户行为和偏好的分析,为用户提供个性化的推荐和服务,如电商平台的商品推荐和社交媒体的社交推荐。
    • 构建聊天UI界面:搭配Streamlit等工具,可以使用aisuite构建简单的聊天UI界面,进一步扩展其在用户交互领域的应用。
  • Illustrious – 开源文本到图像生成模型,专注于生成高质量动漫风格图像

    Illustrious是什么

    Illustrious是开源的文本到图像动漫图像生成模型,是Onoma AI Research推出的。基于优化批量大小、dropout控制、训练图像分辨率和多级标题等关键方法,实现高分辨率、动态色域和高还原能力的图像生成。模型在动画风格的表现上超越如Stable Diffusion XL和其他一些广泛使用的动漫图像生成模型,并支持易于定制和个性化的开源特性。

    Illustrious

    Illustrious的主要功能

    • 文本到图像生成:将文本描述转换成高质量的动漫风格图像。
    • 高分辨率图像:生成超过20MP的高分辨率图像,保持角色解剖学的准确性。
    • 动态色域:基于提示控制颜色和亮度,生成具有动态色域的图像。
    • 多级标题:用自然语言和标签为图像分配多个标题,更好地控制和描述生成的图像。
    • 模型改进:基于批量大小和dropout控制优化学习过程,提高模型的可控性和生成能力。

    Illustrious的技术原理

    • 基于Stable Diffusion XL架构:用改进的U-Net和Transformer架构,结合CLIP ViT-L和OpenCLIP ViT-bigG双文本编码器。
    • 控制Token和Dropout:基于精细控制batch size和dropout,优化模型的学习速度和可控性。
    • 训练分辨率提升:增加训练图像的分辨率,更准确地描绘角色解剖学。
    • 多级标题的应用:覆盖所有标签和各种自然语言标题,提高模型对文本描述的理解。
    • 数据预处理和增强:对Danbooru数据集进行预处理,解决性别分布不平衡、标签结构问题和高分辨率图像问题。
    • 对比学习和弱概率Dropout Tokens:基于对比学习和弱概率Dropout Tokens提高模型对特定概念的理解。

    Illustrious的项目地址

    Illustrious的应用场景

    • 艺术创作与设计:艺术家和设计师生成动漫风格的图像,用在插画、概念艺术、游戏设计等领域。
    • 内容创作:内容创作者快速生成图像,用于社交媒体、博客文章、电子书或视频内容的插图。
    • 娱乐产业:在动画和游戏产业中,辅助角色设计和场景构建,提供初步的视觉概念。
    • 广告与营销:营销人员设计广告图像,快速生成吸引眼球的营销材料。
    • 教育与培训:在教育领域,作为教学工具,帮助学生理解动漫艺术和图像生成技术。
  • LongRAG – 智谱联合清华和中科院推出的双视角鲁棒检索框架

    LongRAG是什么

    LongRAG是清华大学、中国科学院和智谱的研究团队推出的,面向长文本问答(LCQA)的双视角鲁棒检索增强生成(RAG)框架。基于混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器四个组件,有效解决长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上超越长上下文LLM、高级RAG系统和Vanilla RAG等基线模型,展现出卓越的性能和鲁棒性。LongRAG提供自动化微调数据构建管道,增强系统的“指令跟随”能力和领域适应性。

    LongRAG

    LongRAG的主要功能

    • 双视角信息处理:基于全局信息和事实细节的双视角来理解和回答长文本上下文问题。
    • 混合检索器:快速从大量数据中检索与问题相关的信息片段。
    • LLM增强信息提取器:将检索到的片段映射回原始长文本段落,提取全局背景和结构信息。
    • CoT引导过滤器:用链式思考(Chain of Thought, CoT)指导模型关注与问题相关的信息,过滤掉不相关的内容。
    • LLM增强生成器:结合全局信息和关键事实细节生成最终答案。
    • 自动化微调数据构建:基于自动化流程构建高质量的微调数据集,提升模型在特定任务上的表现。

    LongRAG的技术原理

    • 检索增强生成(RAG):基于RAG框架,检索外部知识辅助语言模型生成回答。
    • 全局信息和细节信息的整合:系统不仅关注局部事实细节,还整合长文本中的全局信息,提供更全面的答案。
    • 映射策略:将检索到的片段映射回原始长文本,恢复上下文信息,提供更准确的背景结构。
    • 链式思考(CoT):用CoT作为全球线索,指导模型逐步关注与问题相关的知识,提高证据密度。
    • 过滤策略:基于CoT的全局线索,过滤掉不相关的信息片段,保留关键的事实细节。

    LongRAG的项目地址

    LongRAG的应用场景

    • 客户服务与支持:在客户服务领域,理解和回答长篇的客户查询或历史交互记录,提供更准确的回答和解决方案。
    • 医疗咨询:在医疗行业处理大量的病人记录和医学文献,回答医生或病人关于疾病、治疗和药物的复杂问题。
    • 法律咨询:帮助法律专业人士基于分析大量的法律文件和案例,提供关于法律问题的深入分析和建议。
    • 教育与研究:在教育领域,作为辅助工具,帮助学生和研究人员深入理解长篇学术文章和研究报告,回答研究相关的问题。
    • 企业决策支持:分析市场研究报告、企业年报等长篇文档,为商业决策提供数据支持和洞察。
  • Fugatto – 英伟达推出的多功能AI音频生成模型

    Fugatto是什么

    Fugatto是英伟达(NVIDIA)推出的音频合成和转换模型,全称为”Foundational Generative Audio Transformer Opus 1″。模型能根据文本提示生成音频或视频,接收并修改现有的音频文件。Fugatto模型具有强大的能力,例如将钢琴旋律转换成人声演唱版本,或者改变口语录音中的口音和情绪表达。在音频编辑和制作领域具有极高的应用价值。Fugatto模型的架构基于增强型的Transformer模型,采用了自适应层归一化等特定修改,支持复杂的组合指令。

    Fugatto的主要功能

    • 音频生成与转换:Fugatto能根据文本描述生成音效和音乐,例如将钢琴演奏转换为人声歌唱,或改变录音的口音和情绪。
    • 多任务学习:模型支持多种音频生成和转换任务,包括音乐创作、声音效果设计和语音合成等。
    • 精细的艺术控制:通过引入ComposableART技术,用户可以组合多个指令,实现对声音属性的精细控制,调整音乐的节奏、音色,或改变语音的情感和口音。
    • 动态音频生成:Fugatto能生成随时间变化的声音景观,用户可以控制声音的变化轨迹,音频内容更加丰富和生动。
    • 多语言和口音支持:Fugatto具备强大的多语言和口音能力,能生成各种语言的语音内容,支持多种口音和方言,音频创作更加贴近现实。
    • 音景创作:Fugatto可以为电影和音频制作创建身临其境的音景,能模拟自然现象的声音,例如雷雨声与鸟鸣声的结合,为用户提供丰富的听觉体验。
    • 语音样本生成:模型能生成新的语音样本,可以改变交付的语气和风格,为每次播放赋予独特的触感。

    Fugatto的技术原理

    • 深度神经网络:Fugatto 基于深度神经网络,经过优化可以理解文本、将描述转换为声音,根据用户的特定需求调整其输出。
    • 大型语言模型 (LLM):Fugatto 用大型语言模型来增强指令生成,能更好地理解和解释音频和文本提示之间的关系。
    • 数据生成方法:Fugatto 采用创新的数据生成方法,超越了传统的监督学习。专门的数据集生成技术,创建各种音频和转换任务。
    • 可组合音频表示转换 (ComposableART):Fugatto 在推理过程中采用了称为ComposableART的技术,能组合在训练期间只能单独看到的指令。
    • 时间插值:Fugatto 能生成随时间变化的声音,NVIDIA将这一功能称为时间插值。例如,可以模拟暴雨穿过区域的声音,雷声逐渐增强,然后慢慢消失在远处。
    • 生成新奇声音:与大多数只能重现所接触的训练数据的模型不同,Fugatto支持用户创建以前从未见过的音景。
    • Transformer模型的特定修改:Fugatto 的架构基于经过特定修改(如自适应层归一化)增强的Transformer模型,有助于在不同输入之间保持一致性,比现有模型更好地支持作曲指令。

    Fugatto的项目地址

    Fugatto的应用场景

    • 音乐创作:Fugatto可以作为音乐人的创作工具,帮助他们快速生成符合需求的音乐内容。
    • 声音设计:在电影、游戏等多媒体内容制作中,Fugatto能为声音设计师提供丰富的声音素材和创意灵感,包括自然环境声、机械声或特殊效果声。
    • 语音合成与转换:Fugatto支持文本到语音的转换,能生成多种语言和口音的语音内容,实现语音风格的转换,如口音或情感状态的变化。
    • 广告音频制作:广告代理商可以用Fugatto快速调整广告活动的口音和情感,适应不同地区或情境的需求。
    • 视频游戏音频:视频游戏开发人员可以用Fugatto修改游戏中预先录制的音频素材,或根据文本说明和可选的音频输入动态创建新的音频素材。
  • SlideChat – 上海AI Lab联合多所高校和机构推出的视觉语言助手

    SlideChat是什么

    SlideChat是上海AI实验室、厦门大学、华东师范大学等机构推出的,首个能理解千兆像素级别全切片图像的视觉语言助手。SlideChat能生成详尽的全切片图像描述,针对多样化的病理场景提供具有上下文关联的复杂指令响应。基于训练,SlideChat在多个临床任务中展现出卓越的性能,包括显微镜检查、诊断等。SlideChat用大规模的多模态指令数据集SlideInstruction和评估基准SlideBench,后者包含多个子集,覆盖21种不同的临床任务。

    SlideChat

    SlideChat的主要功能

    • 全切片图像理解:处理和理解千兆像素级别的全切片病理图像(WSIs),提供对图像的深入分析。
    • 多模态对话能力:支持与用户进行多模态对话,理解自然语言指令,结合视觉信息提供响应。
    • 复杂指令响应:响应和执行复杂的视觉查询和病理学相关的指令。
    • 临床任务覆盖:在多种临床设置中,如显微镜检查和诊断,展现出卓越的性能,覆盖21种不同的临床任务。

    SlideChat的技术原理

    • 图像分割:将全切片图像分割成224×224像素的小块(patches),便于计算处理。
    • 局部编码器:每个图像块基于局部编码器转换为视觉嵌入,捕获局部特征。
    • 幻灯片级编码器:用幻灯片级编码器处理局部编码器的输出,生成包含全局上下文信息的上下文嵌入。
    • 多模态投影:多模态投影器将视觉特征映射到与大型语言模型(LLM)对齐的统一空间。
    • 两阶段训练
      • 跨域对齐:在第一阶段,模型学习将LLM的词嵌入与从WSI提取的视觉特征对齐。
      • 视觉指令学习:在第二阶段,模型学习如何准确响应特定于WSI的领域问题。

    SlideChat的项目地址

    SlideChat的应用场景

    • 病理诊断辅助:帮助病理学家分析和解释全切片图像,辅助诊断各种疾病,包括癌症等严重病理状况。
    • 教育和培训:在医学教育中,作为教学工具,帮助学生和住院医师学习如何解读病理切片,提高诊断技能。
    • 研究和开发:研究人员探索新的生物标志物,进行疾病亚型分类,及预测疾病进展和患者预后。
    • 临床决策支持:集成到临床工作流程中,提供实时的病理分析,帮助医生做出更准确的治疗决策。
    • 质量控制和标准化:在病理实验室中,确保诊断的一致性和准确性,基于自动化分析减少人为错误。
  • Frames – Runway 推出的AI图像生成模型

    Frames是什么

    Frames是Runway推出的最新AI图像生成模型,在风格控制和视觉保真度方面取得巨大进步。Frames能维持风格一致性,支持广泛的创意探索,为项目建立特定外观,并生成符合用户美学的变体。基于Frames,用户能精确设计想要创造的世界的外观、感觉和氛围,在更大的创意流程中构建更多的世界。

    Runway正逐步在Gen-3 Alpha和Runway API中推出Frames,便于用户能在更大的、更无缝的创意流程中构建更多的世界。

    Frames

    Frames的主要功能

    • 风格控制:提供风格控制能力,支持用户生成与特定风格一致的图像。
    • 视觉保真度:模型在生成图像时保持高视觉保真度,确保图像的清晰度和细节。
    • 创意探索:支持广泛的创意探索,使用户能够在保持一致性的同时尝试不同的创意方向。

    Frames创建的示例展示

    • World 1089:场面调度。经典电影的视觉语言重新构想数字肖像,其中每个图像都捕捉标志性构图风格的精髓。主体用精心编排的光影场景浮现出来。

    Frames

    • World 4027:日本杂志风格。复古动漫美学与梦幻科幻在五彩斑斓的花朵和飞碟爆炸中相遇。那种独特的70年代漫画感觉——粗犷的线条、宇宙背景,以及浪漫与超现实主义的不可抗拒的混合。

    Frames

    • World 0981:动态范围景观大自然的全貌用生动的细节展现出来 – 从远处山峰最深的阴影到矿物形成的绚丽纹理。从结晶盐滩到阴沉的山脉,大地和天空的交相辉映,以广阔的色调细节呈现。

    Frames

    • World 3107:运动中的物体。日常物品在大胆的单色背景下爆发出完美编排的混乱。每个构图都定格了受控破坏的瞬间,将简单的物体变成了充满运动和能量的动态雕塑。

    Frames

    Frames的官网地址

    Frames的应用场景

    • 电影和电视制作:为电影或电视剧中需要特效化妆的场景提供设计原型和视觉参考。
    • 游戏开发:在游戏角色设计中融入1980年代特效化妆风格,增加游戏的复古感和独特性。
    • 艺术和插画:创作具有1980年代特效化妆风格的数字艺术作品,探索复古与现代技术的结合。
    • 广告和营销:为复古主题的广告活动提供视觉素材,唤起观众的怀旧情感。
    • 教育和研究:作为教学工具,展示1980年代特效化妆技术的发展和特点。
  • MobA – 上海交通大学推出的移动智能体

    MobA是什么

    MobA(Mobile Agent)是上海交通大学团队推出的新型移动智能体,基于多模态大型语言模型(MLLMs)提升移动设备的自动化任务执行能力。MobA采用两级架构:高级全局智能体(GA)负责理解用户指令、管理历史记录和规划任务;低级局部智能体(LA)根据GA的规划执行具体动作。系统内建的反思模块使得MobA能高效处理复杂任务,包括之前未曾遇到的。

    MobA

    MobA的主要功能

    • 用户指令理解:理解用户的自然语言指令,转化为可执行的任务。
    • 任务规划与分解:高级全局智能体(GA)负责将复杂任务分解为更小、更易于管理的子任务。
    • 动作执行:低级局部智能体(LA)根据GA的指导,执行具体的子任务和动作。
    • 历史记忆跟踪:GA跟踪历史记忆,在规划新任务时考虑过去的经验和信息。
    • 反思与自我优化:集成的反思模块支持MobA在执行任务后进行自我评估,优化未来的任务执行。
    • 跨应用操作:处理涉及多个应用程序的复杂任务,实现跨应用的自动化操作。

    MobA的技术原理

    • 多模态大型语言模型(MLLMs):基于MLLMs,模型能处理和理解多种类型的数据,如文本、图像等。
    • 两级智能体架构:系统由高级全局智能体(GA)和低级局部智能体(LA)组成,分别负责任务规划和动作执行。
    • 任务规划模块:GA中的规划模块负责将用户指令分解为一系列子任务,并评估任务的可行性。
    • 动作模块:LA中的动作模块负责识别任务是否可以一步完成,并提供相应的动作指令。
    • 记忆模块:系统包含记忆模块,用在存储和更新任务执行痕迹、用户偏好和应用信息。

    MobA的项目地址

    MobA的应用场景

    • 个人助理:在日常生活中,作为个人助理,帮助用户管理日程、设置提醒、查询信息等。
    • 智能家居控制:与智能家居设备集成,基于语音或文本指令控制家中的智能设备,如灯光、温度调节、安全监控等。
    • 移动设备自动化:在移动设备上,自动执行复杂的操作流程,如自动填写表单、管理邮件、优化应用设置等。
    • 老年人和残疾人士辅助:为老年人和残疾人士提供辅助,简化使用智能设备的过程,提高生活质量。
    • 教育和学习:在教育领域,帮助学生获取信息、管理学习资料、甚至辅助完成作业。