Category: AI项目和框架

  • LangGraph – 基于图结构构建与部署多代理动态工作流的开源框架

    LangGraph是什么

    LangGraph是为构建状态化、多智能体(Multi-Agent) 系统而设计的,特别是与大型语言模型(LLMs)一起使用时,用在创建代理和多代理工作流。作为 LangChain 生态系统的一部分,LangGraph 是图结构的 Agent 框架。LangGraph的核心优势包括支持循环、可控性和持久性,支持定义涉及循环的流程,提供细粒度的流程和状态控制,及内置的持久性功能,支持高级的人工干预和记忆功能。LangGraph平台是一个商业解决方案,用在将应用程序部署到生产环境。

    LangGraph

    LangGraph的主要功能

    • 循环和分支:支持在应用程序中实现循环和条件逻辑,对于构建复杂的代理架构至关重要。
    • 持久性:在图的每一步之后自动保存状态,支持在任何点暂停和恢复图的执行,以支持错误恢复、人工干预工作流、时间旅行等功能。
    • 人工干预:LangGraph能中断图的执行,用便人工批准或编辑代理计划的下一个行动。
    • 流式支持:支持按每个节点生成的顺序流式传输输出,包括令牌流。
    • 与LangChain集成:LangGraph与LangChain和LangSmith无缝集成,但也能独立使用。

    LangGraph的技术原理

    • 状态管理:LangGraph中的每个图执行都能创建一个状态,状态在图的节点之间传递,在每个节点执行后基于返回值更新内部状态。
    • 节点和边:LangGraph用节点表示执行的步骤,边定义节点之间的执行顺序和条件。
    • 条件边:LangGraph支持条件边,下一个节点的执行取决于图的状态。
    • 图类型:支持选择不同类型的图定义状态更新的方式,或用自定义函数定义。
    • 内存和持久性:基于内置的持久性功能,如MemorySaver,保存状态,在不同的执行之间保持上下文。
    • 与LLMs的集成:与大型语言模型(LLMs)一起工作,支持模型调用定义的工具,根据模型的输出决定下一步的行动。

    LangGraph的项目地址

    LangGraph的应用场景

    • 客户服务自动化:构建聊天机器人和虚拟助手,自动化客户服务流程,提供个性化的客户支持。
    • 数据检索和分析:创建能执行复杂数据检索和分析任务的代理,例如,根据用户查询自动从多个数据源中提取和汇总信息。
    • 业务流程自动化:在企业中自动化复杂的业务流程,如订单处理、库存管理和供应链协调,提高效率和减少错误。
    • 个性化推荐系统:开发根据用户行为和偏好提供个性化推荐和建议的系统。
    • 自然语言处理(NLP)任务:执行复杂的NLP任务,如语言翻译、文本摘要、情感分析等。
  • HuatuoGPT-o1 – 港中文联合深圳大数据研究院开源的医学高级推理大模型

    HuatuoGPT-o1是什么

    HuatuoGPT-o1是香港中文大学(深圳)和深圳大数据研究院联合推出的,针对医学领域开发的复杂推理模型,基于复杂的推理能力提高解决医学问题的性能。模型用两个阶段的训练方法实现:首先,用医学验证器引导搜索正确的推理路径来微调模型;其次,应用基于验证器反馈的强化学习进一步增强模型的复杂推理能力。HuatuoGPT-o1能生成长链的思考过程,识别错误,并尝试不同的策略精细化答案。实验结果表明,模型在多个医学基准测试中优于通用和特定于医学的基线模型,且从复杂推理和强化学习中显著受益。

    HuatuoGPT-o1

    HuatuoGPT-o1的主要功能

    • 复杂推理:HuatuoGPT-o1能进行复杂的推理,解决医学领域的复杂问题。
    • 错误识别与修正:模型能识别其答案中的错误,尝试不同的策略修正和优化答案。
    • 长链思考:HuatuoGPT-o1能产生长的思考链(Chain-of-Thought, CoT),展示推理过程。
    • 自我改进:基于强化学习(Reinforcement Learning, RL),模型能自我改进,进一步提升复杂推理能力。

    HuatuoGPT-o1的技术原理

    • 两阶段训练方法
      • 第一阶段:学习复杂推理:基于策略搜索引导下的验证器反馈(正确或错误)构建复杂推理轨迹,微调LLM。
      • 第二阶段:通过RL增强复杂推理:在第一阶段获得复杂推理技能后,用基于验证器的稀疏奖励进一步优化模型。
    • 可验证医学问题:构建40K个可验证的医学问题,问题具有客观的、唯一的正确答案,支持模型验证解决方案的正确性。
    • 医学验证器:用GPT-4o作为验证器,检查模型生成的答案(CoT和结果)是否与真实答案相符,提供二进制反馈。
    • 强化学习(RL):用Proximal Policy Optimization(PPO)算法进行RL训练,基于验证器提供的奖励指导模型自我改进,优化复杂推理路径。
    • 链式思考(CoT):模型生成的CoT包括“内部思考”、“最终结论”和“验证”三个部分,模拟人类解决问题的思维方式。

    HuatuoGPT-o1项目地址

    HuatuoGPT-o1的应用场景

    • 医学诊断辅助:辅助医生进行疾病诊断,基于分析病人的症状、体征和实验室检查结果,提供可能的诊断建议。
    • 治疗方案制定:帮助医生制定个性化的治疗方案,考虑病人的具体情况和最新的医学研究。
    • 医学教育和培训:在医学教育中作为教学辅助工具,帮助学生理解复杂的医学概念和推理过程。
    • 医学研究:支持医学研究人员在文献回顾和数据分析中进行复杂的推理,加速研究进程。
    • 药物研发咨询:在药物研发过程中,提供关于药物作用机制、副作用和临床试验设计的咨询。
  • AIGCPanel- 开源的一站式AI虚拟数字人系统

    AIGCPanel是什么

    AIGCPanel是开源AI数字人系统,支持视频合成声音合成声音克隆等核心功能。系统基于TypeScript开发,跨平台兼容,遵循AGPL-3.0协议,便于小白用户和专业开发者使用。AIGCPanel用自然流畅的口型匹配、智能音视频同步优化、精准声音克隆和自然语音合成技术,提供沉浸式视觉和听觉体验。AIGCPanel支持多模型导入、一键启动、精细模型设置、性能优化和全面的日志查看,满足个性化创作需求。

    AIGCPanel

    AIGCPanel的主要功能

    • 视频合成:将数字人的视频画面与声音高度同步,实现自然流畅的口型匹配,为视频内容增添真实感和可信度。
    • 声音克隆与合成:捕捉并还原人声的细微特征,实现声音的精准复制,及将文字转换为自然流畅的语音,适用于多种场景。
    • 模型管理:支持多模型导入和一键启动,简化模型使用流程,提供模型参数的精细调整和性能优化。
    • 国际化支持:系统支持多种语言,包括简体中文和英语,满足全球用户的多元化语言需求。
    • 模型日志查看:提供全面的模型运行状态监控和分析,帮助用户及时发现并优化问题。
    • 多种模型一键启动包:提供不同的模型启动包,如MuseTalk、cosyvoice等,满足不同创作需求和应用场景。

    AIGCPanel的技术原理

    • 深度学习与神经网络:基于深度学习技术,特别是神经网络,模拟和学习人类的声音和视觉特征。
    • 自然语言处理(NLP):理解和生成自然语言,让系统将文本转换为自然流畅的语音。
    • 计算机视觉技术:用早视频合成中的视觉处理,包括面部识别、表情捕捉和口型分析,实现视频与声音的同步。
    • 声音处理技术:包括声音克隆和语音合成技术,分析和模仿声音特征,生成逼真的人声。
    • 跨平台开发框架:基于TypeScript开发,确保系统的跨平台兼容性,能在不同操作系统上运行。

    AIGCPanel的项目地址

    AIGCPanel的应用场景

    • 影视制作:用在电影、电视剧的后期制作,如角色动画、特效合成等,提高制作效率和质量。
    • 虚拟主播:在新闻播报、网络直播等领域,创建虚拟主播,提供24小时不间断的节目内容。
    • 教育培训:制作教育视频,如语言学习、技能培训等,基于虚拟教师提供更加生动的教学体验。
    • 客服与支持:在客户服务领域,提供更加亲切和自然的交互体验。
    • 游戏开发:为游戏角色创建逼真的声音和动画,增强游戏的沉浸感和玩家的游戏体验。
  • ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型

    ILLUME是什么

    ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 + 离散图像输出”的架构,融合了多模态理解与生成的双重能力,深度挖掘了统一框架下理解与生成能力协同增强的潜力。ILLUME通过语义视觉分词器和三阶段训练流程实现高效训练,仅使用15M数据量就达到了与现有统一多模态大模型相当的性能。

    ILLUME的主要功能

    • 多模态理解与生成的整合:ILLUME能在单一的大语言模型中无缝整合视觉理解与生成功能,通过统一的“下一个token预测”公式实现。
    • 高效的数据利用:ILLUME通过设计一个融合语义信息的视觉分词器和渐进式多阶段训练程序,将预训练的数据集大小减少到仅15M。
    • 自增强多模态对齐策略:为了促进理解和生成能力之间的协同增强,ILLUME引入了一种新颖的自我增强多模态对齐方案,监督MLLM自我评估文本描述和自动生成图像之间的一致性,帮助模型更准确地解释图像,避免图像生成中的不现实和不正确的预测。
    • 广泛的多模态任务处理能力:ILLUME能处理包括视觉理解(包括自然图像和文档图表)、生成、编辑等多元任务,并在这些任务上展现出与专用单任务模型相媲美的表现。
    • 连续图像输入与离散图像输出:ILLUME模型采用了连续图像输入的方式,允许用户上传一系列连续的图像帧,特别适用于视频分析、动态场景识别等应用场景。采用离散图像输出的设计,可以根据输入的文本或其他模态数据生成单张或多张独立的图像。
    • 协同作用机制:ILLUME的核心在于其统一框架下的协同作用机制,共享同一套神经网络结构,使得理解与生成功能之间的信息传递更加高效和流畅。

    ILLUME的技术原理

    • 统一的多模态大模型(MLLM):ILLUME通过统一的“下一个token预测”公式,将视觉理解与生成能力整合在单一的大型语言模型(LLM)中。
    • 语义视觉分词器:为了提高数据效率,ILLUME设计了一个语义视觉分词器,该分词器将图像量化为离散的token,嵌入了语义信息,显著加速了图像-文本对齐过程。
    • 三阶段训练流程:ILLUME采用了一个渐进式的多阶段训练程序,包括视觉嵌入初始化、图文对齐和多模态任务训练,有效减少了预训练所需的数据量至15M,仅为传统需求的四分之一。

    ILLUME的项目地址

    ILLUME的应用场景

    • 视频分析与动态场景识别:ILLUME模型采用连续图像输入的方式,特别适用于视频分析和动态场景识别等应用场景。能捕捉到图像序列中的时间变化和空间关系,提供更加细致和全面的分析结果。
    • 医疗诊断:通过学习大量的医学影像和病历文本数据,ILLUME模型能生成与实际病情相符的诊断图像,为医生提供支持。可以帮助医生发现隐藏在数据背后的深层次关系,为医学研究提供新的思路和方向。
    • 自动驾驶:在自动驾驶系统中,ILLUME模型可以处理来自摄像头、雷达等多种传感器的数据,提高系统的响应速度和可靠性。能实时分析车辆周围的动态情况,预测潜在的风险,及时采取相应的措施。
    • 智能客服:ILLUME模型通过对用户语音和文本输入的协同处理,提供更加个性化和精准的服务。它可以根据用户的语气、情感和问题内容,生成更加贴切的回复,提高用户的满意度。
    • 艺术创作:ILLUME模型可以根据一段描述性的文字生成多个不同的插图选项,供艺术家选择最合适的那一张。能保持生成图像的高度一致性和准确性,为创作者提供无限的灵感源泉。
  • VersaGen – 实现文本到图像合成中视觉控制能力的生成式 AI 代理

    VersaGen是什么

    VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景,这些元素的任意组合在内的多种视觉控制类型。基于在已有的文本主导的扩散模型上训练适配器,VersaGen成功地将视觉信息融入图像生成过程中。VersaGen引入优化策略,提升生成图像的质量和用户的体验。VersaGen的灵活性和包容性让用户根据自己的需求和偏好选择控制级别,让创意过程变得更加有趣。

    VersaGen

    VersaGen的主要功能

    • 多样化视觉控制:支持用户通过四种类型的视觉控制生成图像,包括单个视觉主题、多个视觉主题、场景背景,及这些元素的任意组合。
    • 适配器训练:在文本到图像(T2I)模型上训练适配器,整合视觉信息到文本主导的扩散过程中。
    • 优化策略:在推理阶段引入三种优化策略,改善生成结果和提升用户体验。
    • 用户友好的交互:通过直观的输入方法和强大的生成能力,提高用户在图像生成过程中的效率和满意度。

    VersaGen的技术原理

    • 基础生成模型(FGM):基于Stable Diffusion作为基础生成模型,负责文本到图像的生成。
    • 用户绘图编码器(UDE):处理用户输入的绘图,将混合绘图编码成潜在表示,用在更新基础生成模型的可训练副本进行微调。
    • 多模态冲突解决器(MCR):在推理阶段解决用户绘图和文本提示之间的潜在冲突,确保生成的图像能够整合不同模态的一致性信息。
    • 视觉定位:基于T2I模型的语义分割能力,自动定位用户提供的视觉控制元素在适当的局部上下文中。
    • 推理优化:包括多对象解耦和自适应控制强度策略,适应现实世界的应用,解决用户输入的多样性和不精确性问题。

    VersaGen的项目地址

    VersaGen的应用场景

    • 创意设计:设计师快速将创意概念转化为视觉图像,用在平面设计、插画创作等。
    • 数字艺术:艺术家生成独特的数字艺术作品,探索新的艺术风格和表现形式。
    • 广告与品牌营销:营销团队制作吸引人的广告图像和营销材料,更直观的方式传达品牌信息。
    • 游戏开发:游戏开发者生成游戏内的角色、场景概念图,加速游戏设计和开发流程。
    • 电影和电视制作:在影视制作中生成电影场景的概念图,帮助导演和制作团队预览最终视觉效果。
  • Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术

    Wonderland是什么

    Wonderland是多伦多大学、Snap和UCLA的研究团队推出的技术,能够从单张图像生成高质量、广范围的3D场景,允许控制摄像轨迹。证明了三维重建模型可以有效地建立在扩散模型的潜在空间上,实现高效的三维场景生成,是单视图3D场景生成领域的一次突破性进展。通过结合视频扩散模型和大规模3D重建模型,Wonderland解决了传统3D重建技术中的视角失真问题,实现了精确的视角控制和多视角视频生成。

    Wonderland的主要功能

    • 视频生成:基于单张图和camera condition,Wonderland能实现视频生成的精准视角控制,生成3D-geometry一致的高质量视频,具有很强的泛化性,可以遵循各种复杂的轨迹,适用于各种风格的输入图片。
    • 3D场景生成:基于单张图,基于LaLRM,Wonderland可以生成高质量的、广阔的3D场景,能够深度探索和生成高质量的、广阔的3D场景。
    • Zero-shot 3D 场景生成:在单图像输入的前提下,Wonderland可进行高效的3D场景前向重建,在多个基准数据集上的3D场景重建质量均优于现有方法。
    • 广覆盖场景生成能力:Wonderland能高效生成广范围的复杂场景,生成的3D场景具备高度的几何一致性,还具有很强的泛化性,能处理out-of-domain的场景。

    Wonderland的技术原理

    • 视频扩散模型与3D重建模型的结合:Wonderland首次证明了三维重建模型可以有效地建立在扩散模型的潜在空间上,实现高效的三维场景生成。视频扩散模型可以精确地按照指定的相机轨迹创建视频,生成包含多视角信息的潜在特征,同时保持三维一致性。
    • 双分支相机控制机制:利用ControlNet和LoRA模块,Wonderland实现了在视频生成过程中对于丰富的相机视角变化的精确控制,显著提升了多视角生成的视频质量、几何一致性和静态特征。
    • 大规模latent-based 3D重建模型(LaLRM):Wonderland创新地引入了3D重建模型LaLRM,利用视频生成模型生成的latent直接重构3D场景(feed-forward reconstruction)。重建模型的训练采用了高效的逐步训练策略,将视频latent空间中的信息转化为3D高斯点分布(3D Gaussian Splatting, 3DGS),显著降低了内存需求和重建时间成本。
    • 从单张图像到三维世界的关键创新:传统的3D重建技术往往依赖于多视角数据或逐个场景的优化,且在处理背景和不可见区域时容易失真。Wonderland通过结合视频生成模型和大规模3D重建模型,实现了高效高质量的大规模3D场景生成。
    • 向视频扩散模型中嵌入3D意识:通过向视频扩散模型中引入相机位姿控制,Wonderland在视频latent空间中嵌入了场景的多视角信息,并能保证3D一致性。

    Wonderland的项目地址

    Wonderland的应用场景

    • 建筑设计:在建筑设计领域,Wonderland可以用于创建高质量的3D模型和场景,帮助设计师和客户更直观地理解和展示建筑设计。
    • 虚拟现实(VR):在虚拟现实领域,Wonderland可以生成广范围的3D场景,为用户提供沉浸式体验,适用于虚拟旅游、教育训练等应用。
    • 影视特效:Wonderland的技术可以用于生成高质量的3D场景和视频,为电影和电视制作提供更加逼真的特效和背景。
    • 游戏开发:在游戏开发领域,Wonderland可以用于快速生成游戏环境和场景,提高游戏开发的效率和质量。
    • 商业演示:企业可以用Wonderland创建引人入胜的产品演示,构建虚拟商店、在线展览等,为客户提供全新的购物体验。
    • 虚拟产品演示:电子产品制造商可以开发虚拟演示系统,让用户在购买前体验产品的各项功能,包括外观设计、硬件配置和软件应用等。
  • MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳

    MinT是什么

    MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRoPE),让模型能将特定的文本提示与视频中的相应时间段关联起来,确保事件按顺序发生,控制每个事件的持续时间。作为首个提供视频中事件时间控制的模型,MinT在生成连贯、动态连接的事件方面超越现有的开源模型,为视频内容创作带来新的灵活性和控制能力。

    MinT

    MinT的主要功能

    • 多事件视频生成:根据文本提示生成包含多个事件的视频,事件可以是动作、表情或日常活动等。
    • 时间控制:支持用户指定每个事件的开始和结束时间,实现对视频中事件顺序和时长的精确控制。
    • 连贯性保持:在生成多事件视频时,保持视频内容的连贯性,包括一致的主题和背景。
    • 高质量的视频合成:优化模型生成高质量的视频内容,确保视频的动态度和视觉质量。
    • 基于LLM的提示增强器:提供基于大型语言模型(LLM)的提示增强器,能将简短的提示扩展为详细的全局和时间字幕,生成更丰富的视频内容。

    MinT的技术原理

    • 时间基位置编码(ReRoPE):引入了eRoPE,一种时间基位置编码方法,指导模型如何将文本提示与视频帧相关联,确保事件在正确的时间范围内发生。
    • 预训练的视频扩散变换器(DiT):基于预训练的潜在扩散变换器(DiT),变换器基于编码器将视频编码为视频令牌,用去噪网络生成视频。
    • 全局和时间字幕的交叉注意力:在每个DiT块中用两个交叉注意力层,分别处理全局字幕和时间字幕,实现对事件的精确控制。
    • 事件时间范围的关联:提供时间定位的字幕,模型一次关注一个事件,在生成过程中保持对事件时间范围的控制。
    • 场景切换控制:基于条件化模型识别视频中的场景切换,在生成视频中控制镜头转换的效果。
    • 提示增强:用大型语言模型(LLM)扩展简短的文本提示,生成详细的全局字幕和时间字幕,支持用户从简单的提示生成复杂的视频内容。

    MinT的项目地址

    MinT的应用场景

    • 娱乐产业:用在电影、电视剧的预制作阶段,生成剧本的动态预览,帮助团队理解场景和事件的流程。
    • 广告行业:创建动态广告,通过精确控制广告中产品展示的时间点,增强信息传递的有效性。
    • 教育领域:制作教育视频,如历史重现、科学实验模拟,用视觉化的方式辅助学习和理解复杂概念。
    • 游戏行业:生成游戏中的剧情动画和过场动画,提升游戏的叙事体验。
    • 新闻媒体:快速制作新闻事件的动态摘要视频,提高新闻报道的吸引力和信息传递效率。
  • SEMIKONG – 专为半导体领域设计的大型语言模型

    SEMIKONG是什么

    SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深入的领域知识,解决半导体制造和设计中的独特挑战,如复杂的物理和化学问题。SEMIKONG整合专家知识和优化预训练过程,提供能专家级理解刻蚀问题的基础模型。相较于通用LLMs,SemiKong在半导体制造任务中展现出更优的性能,为公司或工具特定的专有模型开发奠定了基础,推动了领域特定AI模型的进一步研究和应用。

    SEMIKONG

    SEMIKONG的主要功能

    • 理解半导体领域的专业知识:理解半导体制造和设计中的复杂问题,尤其是在刻蚀领域。
    • 优化制造过程:基于学习大量的半导体相关数据,协助优化半导体制造过程,如参数优化、异常检测和预测性维护。
    • 辅助IC设计:SEMIKONG能辅助集成电路(IC)设计任务,包括设计规则检查、布局生成和设计空间探索。
    • 提高AI解决方案的性能:基于微调预训练的大型语言模型,提高AI驱动的半导体制造任务的性能。
    • 专家知识整合:引入一个框架,整合专家知识推进领域特定AI模型的评估过程。

    SEMIKONG的技术原理

    • 数据策划:SEMIKONG的开发始于大规模、高质量的半导体领域特定文本数据集的策划,包括技术书籍、论文和专利。
    • 预训练和微调:用预训练和微调的方法训练模型。预训练阶段用特定领域的数据增强模型的领域知识,微调阶段让模型执行特定的任务。
    • 领域本体论:与半导体专家合作,构建系统化的半导体制造过程本体论,有助于AI研究人员更有效地开发领域特定的AI模型。
    • 专家反馈循环:基于专家反馈循环,用专家评估模型生成的答案,生成评估标准和高质量的基准测试。
    • 模型量化和适配:在预训练和微调之后,进行模型量化和适配处理,便于模型部署。

    SEMIKONG的项目地址

    SEMIKONG的应用场景

    • 过程参数优化:调整半导体制造过程中的参数,提高生产效率和产品质量。
    • 异常检测系统:辅助识别制造过程中的异常,减少缺陷和提高可靠性。
    • IC设计辅助工具:帮助工程师在集成电路设计中遵守设计规则,生成优化的布局。
    • 专家决策支持:作为专家系统,为复杂技术问题提供解决方案和决策支持。
    • 技术教育平台:用作教育工具,帮助学员理解半导体制造和设计的复杂概念。
  • LaDeCo – 西安交大联合微软推出的自动图形设计构图方法

    LaDeCo是什么

    LaDeCo是西安交通大学和微软研究院联合推出的自动图形设计构图方法,基于将设计任务分解为层次化的步骤来实现。LaDeCo对输入的设计元素进行层规划,将它们分配到不同的语义层,比如背景、底层、图像/标志、文本和装饰。然后,LaDeCo逐层预测,生成每个设计层的元素属性,将之前生成层的渲染图像作为上下文信息,指导后续层的生成。LaDeCo基于大型多模态模型(LMMs)处理多模态输入,支持无需特定任务训练的设计子任务,如分辨率调整、元素填充和设计变化。

    LaDeCo

    LaDeCo的主要功能

    • 层规划:自动将输入的多模态设计元素(如图像、文本)分配到不同的语义层,例如背景、底层、图像/标志、文本和装饰层。
    • 层级设计生成:基于层规划的结果,逐步预测和生成每个层的元素属性,创建完整的设计构图。
    • 分辨率调整:根据不同的画布尺寸调整设计,让设计在不同大小的画布上都具有吸引力。
    • 元素填充:在现有设计中添加新的元素,增强设计的吸引力。
    • 设计变化:给定相同的输入元素,创造出多种不同的设计,为用户提供多种选择。

    LaDeCo的技术原理

    • 大型多模态模型(LMMs):基于大型多模态模型,理解多模态上下文,生成跨领域响应。
    • 层规划模块:基于预训练的LMMs(例如GPT-4o)预测输入元素的语义标签,实现元素到设计层的自动分类。
    • 层级生成过程:根据层规划的结果,逐层生成设计元素的属性,将已生成层的渲染图像作为上下文信息反馈给模型,指导后续层的生成。
    • 视觉编码器和投影器:用在编码元素图像和中间设计,生成图像嵌入,并将投影以匹配LMMs主干所需的隐藏状态维度。
    • 链式思考(Chain-of-Thought)推理:LaDeCo的层级生成方法体现了链式思考推理的理念,基于逐步生成和调整设计层提高推理性能。

    LaDeCo的项目地址

    LaDeCo的应用场景

    • 设计师:帮助设计师自动完成图形设计构图任务,提升设计效率和质量。
    • 研究人员和规划人员:在景观变化研究、美学评估和视觉影响评估中,让研究人员和规划人员快速、客观地计算图像中视觉元素的比例,简化评估过程。
    • 评估人员:评估视觉景观元素具有重要作用,帮助评估人员进行更高效的视觉元素分析。
    • 开发者:对于开发者来说,基于LaDeCo开发不同的应用。
    • 泛年轻人群:LaDeCo在自动图形设计领域的应用吸能19-35岁的人群对创意内容、分享、音乐、短视频、游戏、时尚等有较高偏好的人群。
  • StockMixer – 上海交大推出的股票价格预测架构

    StockMixer是什么

    StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据,有效捕捉股票指标、时间和股票间的复杂相关性。时间混合用多尺度时间片段信息,股票混合基于市场状态影响个股,实现更准确的预测。StockMixer在减少内存使用和计算成本的同时,在多个股票市场基准测试中表现优异,超越多种先进的预测方法。

    StockMixer

    StockMixer的主要功能

    • 指标混合:用矩阵乘法和激活函数模拟每只股票-时间对内部指标之间的相互作用,提取对未来股票趋势有信息量的高级别潜在特征。
    • 时间混合(Time Mixing):基于多尺度时间片段的信息交换来捕捉股票价格运动中的时间趋势和模式,支持模型从不同时间尺度提取特征。
    • 股票混合(Stock Mixing):学习从整个市场到个股再回到整个市场的股票状态,模拟股票之间的复杂相关性,更稳健地建模股票相关性。
    • 预测股票价格:结合上述混合得到的特征表示,预测下一个交易日的收盘价。

    StockMixer的技术原理

    • 多层感知器(MLP)架构:基于MLP,基于线性计算复杂度和简单的架构处理股票数据。
    • 信息交换:基于MLP结构在不同维度(指标、时间和股票)之间交换信息,增强模型的表现力。
    • 残差连接和层归一化:用残差连接保持输入和混合特征之间的平衡,层归一化减少数据偏移的影响。
    • 多尺度时间片段:将时间序列分割成不同大小的片段,捕获不同时间尺度上的特征。
    • 股票到市场和市场到股票的影响:基于两个MLP结构学习潜在的股票状态,用这些状态影响个股,模拟股票之间的相关性。
    • 损失函数设计:结合点回归和成对排名感知损失,优化模型用最小化预测和实际回报率之间的均方误差,保持高预期回报股票的相对顺序。

    StockMixer的项目地址

    StockMixer的应用场景

    • 量化投资:用StockMixer预测股票价格变动,帮助量化投资策略制定者制定交易策略,获得超额回报。
    • 风险管理:金融机构更好地评估和管理投资组合的市场风险。
    • 算法交易:在高频交易中提供快速的股票价格预测,帮助算法交易系统做出即时的买卖决策。
    • 投资组合优化:投资经理优化投资组合,选择预期表现较好的股票,或避开潜在的风险。
    • 市场分析和研究:分析师分析市场趋势,进行行业比较,及研究特定事件对股票价格的影响。