Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

    X-Dancer是什么

    X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器(Transformer)和扩散模型,用 2D 人体姿态建模,基于广泛可用的单目视频数据捕捉舞蹈动作与音乐节奏的复杂对齐关系。X-Dancer 用多部分的 2D 姿态表示和置信度感知的量化方法,生成与音乐同步的舞蹈姿态序列,基于扩散模型将姿态序列转化为连贯的视频帧。X-Dancer 在运动多样性、音乐对齐和视频质量方面均优于现有方法,能适应不同体型和风格的参考图像,支持零样本生成和特定编舞的微调。

    X-Dancer

    X-Dancer的主要功能

    • 从单张静态图像生成舞蹈视频:用一张人物图像和一段音乐,生成与音乐节奏同步的全身舞蹈视频。
    • 多样化和个性化的舞蹈动作:支持生成多种风格和复杂动作,包括头部、手部等细节动作,支持不同体型和风格的人物动画。
    • 音乐节奏对齐:舞蹈动作与音乐节奏紧密同步,捕捉音乐的节拍和风格。
    • 零样本生成与定制化:支持零样本生成,针对特定编舞风格进行微调,适应不同舞蹈需求。
    • 高质量视频合成:生成的舞蹈视频具有高分辨率和逼真的视觉效果,同时保持与参考图像的一致性。

    X-Dancer的技术原理

    • 姿态建模:基于 2D 人体姿态估计从单目视频中提取舞蹈动作,避免 3D 姿态估计的复杂性和数据限制。
    • 多部分姿态量化:将人体分为多个部分(如上半身、下半身、头部、双手),分别编码量化为姿态标记(tokens),基于共享解码器组合成完整姿态。
    • 自回归变换器:用 GPT 类的自回归模型,根据音乐特征和历史姿态信息预测未来的姿态标记序列,实现与音乐的同步。
    • 扩散模型合成:将生成的姿态标记用可训练的运动解码器转换为空间引导信号,结合参考图像特征,基于扩散模型生成连贯的舞蹈视频。
    • AdaIN 与时空模块:用自适应实例归一化(AdaIN)和时空模块,确保生成视频的时空连贯性和身份一致性。

    X-Dancer的项目地址

    X-Dancer的应用场景

    • 社交媒体分享:用户将照片和音乐转化为个性化舞蹈视频,增加社交平台内容趣味性。
    • 虚拟角色动画:为虚拟现实、元宇宙中的角色生成同步舞蹈动作,提升表现力。
    • 音乐游戏互动:实时生成舞蹈动作,增强音乐节奏游戏的视觉效果和互动性。
    • 广告宣传:结合品牌音乐生成舞蹈视频,用在广告推广,吸引用户关注。
    • 舞蹈教育:生成不同风格舞蹈视频,辅助舞蹈教学或展示文化特色。
  • Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

    Liquid是什么

    Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。Liquid摒弃传统外部视觉模块,用LLM的语义理解能力进行多模态任务,显著降低训练成本(相比从头训练节省100倍),在视觉生成和理解任务中表现出色,超越部分扩散模型。Liquid揭示了多模态任务的尺度规律,证明随着模型规模增大,视觉与语言任务的冲突逐渐消失,且两者能相互促进。

    Liquid

    Liquid的主要功能

    • 视觉生成:根据文本描述生成高质量的图像,支持多种分辨率和风格。
    • 视觉理解:处理图像相关的任务,如视觉问答(VQA)和图像描述生成。
    • 多模态融合:将视觉和语言任务无缝结合,支持同时处理文本生成、图像生成和视觉理解任务。
    • 高效扩展:基于现有的大型语言模型(LLM),用少量数据和低成本训练,快速扩展多模态能力。
    • 语言能力保留:在增加视觉生成能力的同时,保持强大的语言生成和理解能力,适用于多模态混合任务。

    Liquid的技术原理

    • 图像分词器(Image Tokenizer):VQGAN(Vector Quantized Generative Adversarial Network)将图像编码为离散的视觉token。视觉token与文本token共享同一词汇表空间,让图像和文本用统一的方式处理。
    • 统一的特征空间:视觉token和文本token在同一个特征空间中学习,基于“下一token预测”任务进行训练。支持模型在视觉和语言任务之间无缝切换和优化。
    • 基于LLM的生成:Liquid扩展现有的大型语言模型(LLM),基于强大的语义理解能力进行视觉生成和理解。在LLM中添加视觉token的嵌入,处理视觉任务,无需额外的视觉模块(如CLIP或扩散模型)。
    • 多模态数据训练:用混合数据(文本数据、图文对数据)进行预训练,模型同时学习语言和视觉任务。基于调整数据比例,优化模型在不同任务上的表现。
    • 双向促进机制:视觉生成和视觉理解任务共享统一的token空间,优化目标一致,两者能相互促进。增加视觉生成或理解任务的数据,提升模型在另一任务上的表现。

    Liquid的项目地址

    Liquid的应用场景

    • 创意设计:根据文字描述生成高质量图像,辅助艺术创作、广告设计和游戏美术。
    • 内容创作:自动生成与文本相关的图片,用于社交媒体、博客和新闻报道。
    • 视觉问答:理解图像内容并回答相关问题,用于教育、客服和智能助手。
    • 多模态对话:结合图像和文字进行智能交互,提升对话系统的自然性和实用性。
    • VR/AR应用:生成虚拟场景和物体,增强沉浸感和交互体验。
  • DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架

    DiffBrush是什么

    DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成。DiffBrush用预训练的文本到图像(T2I)模型,基于颜色引导、实例与语义引导及潜在空间再生等技术,精准控制生成图像的颜色、语义和实例分布。DiffBrush兼容多种T2I模型(如Stable Diffusion、SDXL等),支持LoRA风格调整,用户在画布上简单绘制实例的轮廓和颜色,能生成符合需求的图像。DiffBrush解决了传统T2I模型依赖文本提示的局限性,降低AI绘画的门槛,为用户提供更直观、高效的创作方式。

    DiffBrush

    DiffBrush的主要功能

    • 用户友好的图像生成:用户用手绘草图控制生成图像的内容,无需复杂的文本提示或技术知识。
    • 颜色控制:根据用户绘制的颜色信息,精确控制生成图像中对应区域的颜色。
    • 实例与语义控制:绘制实例的轮廓和标注语义信息,控制生成图像中特定对象的位置和语义属性。
    • 图像编辑:在已有图像的基础上进行编辑,例如添加、修改或替换图像中的对象。
    • 风格化生成:支持与LoRA(Low-Rank Adaptation)风格调整结合,生成具有不同艺术风格的图像,如油画、国画等。
    • 多模型兼容:与多种T2I模型(如Stable Diffusion、SDXL、Flux等)兼容,具有广泛的适用性。

    DiffBrush的技术原理

    • 扩散模型的引导机制:基于预训练的T2I模型(如Stable Diffusion)的扩散过程。扩散模型逐步去噪,将随机噪声映射为真实图像。DiffBrush修改扩散过程中的去噪方向,引导生成的图像向用户手绘的草图靠拢。
    • 颜色引导:基于扩散模型的潜在空间(latent space)与颜色空间的高度相似性,调整潜在空间中的特征,实现对生成图像颜色的精确控制。用户绘制的颜色信息被编码到潜在空间中,用能量函数(如MSE损失)引导生成图像的颜色与用户需求一致。
    • 实例与语义引导:基于扩散模型中的注意力机制(如交叉注意力和自注意力)实现实例和语义的控制。用户绘制的实例轮廓被用作注意力图的监督目标,基于调整注意力图的分布,确保生成图像中对象的位置和语义与用户需求一致。
    • 潜在空间再生:基于迭代优化初始噪声分布,接近用户手绘草图的目标分布,在扩散过程的早期阶段调整潜在空间,进一步优化生成图像的质量。
    • 用户交互与兼容性:将用户的手绘草图与文本提示相结合,用简单的用户界面实现直观的交互。DiffBrush支持多种预训练的T2I模型,用户根据需要调整引导强度等超参数,实现最佳生成效果。

    DiffBrush的项目地址

    DiffBrush的应用场景

    • 创意绘画:艺术家和设计师快速将手绘创意转化为高质量图像,支持多种风格,方便实现艺术构思。
    • 图像编辑:在已有图片上添加、替换或修改内容,用简单手绘完成操作,适合普通用户和设计师。
    • 教育工具:用在艺术和设计教学,帮助学生通过手绘理解色彩、构图和创意表达。
    • 游戏设计:快速生成游戏场景、角色或动画草图,支持风格化输出,助力创意迭代。
    • 广告设计:根据创意草图快速生成广告图像,满足客户对色彩和布局的要求,提升设计效率。
  • WeGen – 中科大联合上海交大等推出的统一多模态生成模型

    WeGen是什么

    WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型(MLLM)和扩散模型,处理文本到图像生成、条件驱动生成、图像编辑、风格迁移等多种任务。WeGen 的核心优势能在用户指令较模糊时提供多样化的创意输出,在用户有具体需求时保持生成结果与指令和参考图像的一致性。WeGen 基于动态实例一致性(DIIC)数据管道和提示自重写(PSR)机制,解决实例身份一致性和生成多样性两大挑战,展现出作为用户友好型设计助手的潜力。

    WeGen

    WeGen的主要功能

    • 文本到图像生成:根据文本描述生成高质量的图像。
    • 条件驱动生成:基于特定条件(如边缘图、深度图、姿态图)生成图像。
    • 图像编辑与修复:对现有图像进行修改、修复或扩展。
    • 风格迁移:将一种图像的风格应用到另一张图像上。
    • 多主体生成:在生成图像时保留多个参考对象的关键特征。
    • 交互式生成:基于自然对话与用户交互,逐步优化生成结果。
    • 创意设计辅助:为用户提供多样化的生成选项,激发创意。

    WeGen的技术原理

    • 多模态大语言模型(MLLM)与扩散模型结合:基于CLIP作为视觉编码器,将图像转化为语义特征;用扩散模型(如SDXL)作为解码器,生成高质量图像。,LLM(如LLaMA)处理自然语言指令,实现文本与视觉信息的融合。
    • 动态实例一致性(DIIC):用视频序列跟踪对象的自然变化,保持其身份一致性。DIIC数据管道解决传统方法在实例身份保持上的不足,让模型在修改图像时保留关键特征。
    • 提示自重写(PSR)机制:基于语言模型重写文本提示,引入随机性,生成多样化的图像。PSR用离散文本采样,让模型探索不同的解释,保持语义一致性。
    • 统一框架与交互式生成:WeGen将多种视觉生成任务整合到一个框架中,基于自然对话与用户交互,逐步优化生成结果,保留用户满意的部分。
    • 大规模数据集支持:WeGen从互联网视频中提取的大规模数据集进行训练,数据集包含丰富的对象动态和自动标注的描述,帮助模型学习一致性和多样性。

    WeGen的项目地址

    WeGen的应用场景

    • 创意设计:帮助设计师快速生成创意概念图,激发灵感,适用于广告、包装、建筑等领域。
    • 内容创作:为影视、游戏、动漫等行业生成场景、角色或道具的概念图,加速创作流程。
    • 教育辅助:生成与教学内容相关的图像,帮助学生更直观地理解抽象概念。
    • 个性化定制:根据用户需求生成定制化的设计方案,如服装、家居装饰等。
    • 虚拟社交与娱乐:生成虚拟形象、场景或道具,增强虚拟社交和游戏的体验感。
  • Proxy Lite – 开源视觉语言模型,支持自动化网页任务

    Proxy Lite是什么

    Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。Proxy Lite用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。Proxy Lite 提供完整的浏览器交互框架,支持网页自动化测试、数据提取、智能任务助手等多种应用场景,适合开发者快速部署和使用。

    Proxy Lite

    Proxy Lite的主要功能

    • 网页自动化操作:自动完成浏览器中的各种操作,如点击按钮、填写表单、滚动页面、处理弹窗等。
    • 网页数据抓取:解析网页内容,提取结构化数据,支持新闻、社交媒体、电商平台等多类型网页的数据抓取。
    • AI驱动的交互式Web代理:结合视觉感知能力,实现UI自动化测试和前端行为分析。
    • 智能任务助手:帮助用户搜索、筛选和总结信息,提升网页导航体验。
    • 低资源占用:仅3B参数,支持在消费级GPU上高效运行,无需依赖大型云计算资源。

    Proxy Lite的技术原理

    • 视觉语言模型(VLM):结合视觉感知(图像识别)和自然语言处理能力,理解和操作网页内容。
    • 三步决策机制
      • 观察:评估上一操作是否成功,并获取当前网页的状态信息。
      • 思考:根据当前页面状态进行推理,决定下一步操作。
      • 工具调用:基于浏览器API进行交互,如点击、输入、滚动等。
    • 浏览器交互框架:内置完整的浏览器交互控制框架,用Playwright库驱动浏览器操作,支持无头模式(Headless)和隐身模式(Stealth)以降低被反爬风险。
    • 执行反馈机制:借鉴DeepSeek R1等模型的反馈机制,在任务执行中不断优化决策流程,提升执行准确性。

    Proxy Lite的项目地址

    Proxy Lite的应用场景

    • 网页自动化操作:自动完成点击、填写表单、滚动页面等任务,减少人工操作。
    • 网页数据抓取:提取新闻、电商等网页的结构化数据,用在数据分析或内容聚合。
    • 自动化测试:实现Web应用的UI自动化测试,快速检测界面功能。
    • 智能任务助手:帮助用户搜索、筛选信息,提升网页使用效率。
    • 企业级任务自动化:企业内部流程自动化,如数据录入和跨系统发布信息。
  • TrendPublish – AI内容发布工具,支持智能总结和自动发布

    TrendPublish是什么

    TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter/X、网站等渠道获取信息,用 DeepseekAI千问等 AI 服务进行智能总结、关键信息提取和标题生成。系统支持自动发布内容到微信公众号,具备自定义模板和定时发布功能。TrendPublish集成通知系统,可实时反馈任务状态和错误告警。TrendPublish 基于 Node.js 和 TypeScript 开发,支持快速部署和扩展,帮助用户高效发现趋势生成高质量内容。

    TrendPublish

    TrendPublish的主要功能

    • 多源数据采集:支持从 Twitter/X、网站等多渠道抓取内容。支持自定义数据源配置,灵活扩展数据采集范围。
    • AI 智能处理:用 DeepseekAI、千问等 AI 服务进行内容总结和关键信息提取。自动生成智能标题,提升内容吸引力。
    • 自动发布:支持将生成的内容自动发布到微信公众号。提供自定义文章模板和定时发布任务,满足多样化需求。
    • 通知系统:集成 Bark 通知,实时反馈任务执行状态和错误告警。
    • 其他功能:支持大模型每周排行榜、热门 AI 相关仓库推荐等功能。

    TrendPublish的技术原理

    • 数据采集:基于 Twitter/X API 和 FireCrawl 等工具从多源获取数据。支持自定义数据源配置,用 API 或爬虫技术抓取目标内容。
    • AI 处理:集成 DeepseekAI、千问等 AI 服务,对采集到的内容进行自然语言处理(NLP)。实现内容总结、关键信息提取和标题生成,提升内容质量和可读性。
    • 内容发布:用微信公众号 API,将生成的内容自动发布到公众号。支持自定义模板和定时任务,基于 node-cron 实现自动化发布。
    • 通知系统:集成 Bark 等通知工具,实时推送任务状态和错误信息。提升系统运维效率,确保任务稳定运行。
    • 技术栈:基于 Node.js 和 TypeScript 开发,确保高性能和可维护性。用 EJS 模板引擎实现内容渲染,支持灵活的模板定制。

    TrendPublish的项目地址

    TrendPublish的应用场景

    • 科技媒体与公众号运营:快速生成和发布 AI 领域内容,提升更新频率。
    • 企业品牌推广:监测行业动态,发布相关内容,增强品牌曝光。
    • 学术研究与科普:总结热门论文和研究动态,助力知识传播。
    • 开发者社区:采集开源项目和技术动态,生成技术分享文章。
    • 个人知识管理:辅助创作者快速生成个性化内容,提升创作效率。
  • OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集

    OmniAlign-V是什么

    OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据集。OmniAlign-V包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识丰富的问答对。OmniAlign-V 的设计注重任务的多样性,包括知识问答、推理任务和创造性任务,基于复杂问题和多样化回答格式提升模型的对齐能力。OmniAlign-V 引入图像筛选策略,确保语义丰富且复杂的图像被用于数据生成。

    OmniAlign-V

    OmniAlign-V的主要功能

    • 提供高质量的多模态训练数据:包含约20万个多模态训练样本,涵盖自然图像和信息图表(如海报、图表等),结合复杂问题和多样化回答格式,帮助模型更好地理解人类的偏好和需求。
    • 增强模型的开放式问答能力:数据集设计注重开放式问题、跨学科知识和综合回答,让模型生成更符合人类偏好的回答。
    • 提升模型的推理和创造性能力:训练模型进行更复杂的思考和创作,从而提升其在多模态交互中的表现。
    • 优化多模态指令调优:基于高质量的指令调优数据,帮助模型更好地遵循人类指令,保持基础能力(如目标识别、OCR等)。
    • 支持多模态模型的持续优化:OmniAlign-V用于监督微调(SFT),结合直接偏好优化(DPO)进一步提升模型的对齐能力。

    OmniAlign-V的技术原理

    • 图像筛选与分类:基于图像复杂度(IC)评分和对象类别(OC)过滤,筛选出语义丰富且复杂的图像。图像被分类为自然图像和信息图表,针对不同类型的图像设计不同的任务。
    • 任务设计与数据生成:自然图像任务包括知识问答、推理任务和创造性任务,提升模型对真实场景的理解和生成能力。信息图表任务针对图表、海报等设计特定任务,要求模型具备对复杂信息的理解和解释能力。用GPT-4o等先进模型生成高质量的问答对,基于后处理优化数据质量。
    • 后处理优化:对生成的问答对进行后处理,包括指令增强、推理增强和信息图表答案的精细化处理,确保数据的多样性和高质量。
    • 多模态训练与优化:基于监督微调(SFT)和直接偏好优化(DPO)提升模型的对齐能力。数据集设计注重多样性和复杂性,让模型在多模态交互中更好地理解人类偏好。
    • 基准测试与评估:引入MM-AlignBench基准测试,评估MLLMs在人类偏好对齐方面的表现,确保模型在真实场景中的适用性。

    OmniAlign-V的项目地址

    OmniAlign-V的应用场景

    • 多模态对话系统:提升智能助手与用户的交互质量,回答更符合人类偏好。
    • 图像辅助问答:结合图像信息提供更全面、准确的问答服务,适用于教育、旅游等领域。
    • 创意内容生成:帮助用户快速生成高质量的创意文本,如广告文案、故事创作等。
    • 教育与学习辅助:为学生提供更丰富的学习材料,辅助理解复杂的图表和插图。
    • 信息图表解读:帮助用户解读复杂图表,提供背景知识和推理结果,提升数据理解能力。
  • 谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具

    DiffRhythm是什么

    DiffRhythm(中文名称:谛韵) 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示,DiffRhythm 能在10秒内生成长达4分45秒的高质量音乐作品。解决了传统音乐生成模型复杂、耗时和只能生成片段的问题,支持多语言输入,生成的音乐在旋律和歌词表达上具有高音乐性和可理解性。

    DiffRhythm

    DiffRhythm的主要功能

    • 快速生成完整音乐:能在短时间内(约10秒)生成长达4分45秒的完整歌曲,包含人声和伴奏,解决了传统音乐生成工具效率低下的问题。
    • 歌词驱动的音乐创作:用户只需提供歌词和风格提示,DiffRhythm 自动生成与歌词匹配的旋律和伴奏,支持多语言输入,满足不同用户的需求。
    • 高质量音乐输出:生成的音乐在旋律流畅性、歌词可理解性以及整体音乐性上表现出色,适合多种应用场景,如影视配乐、短视频背景音乐等。
    • 灵活的风格定制:用户可以通过简单的风格提示(如“流行”“古典”“摇滚”等)调整生成音乐的风格,满足多样化的创作需求。
    • 开源与可扩展性:DiffRhythm 提供完整的训练代码和预训练模型,方便用户进行自定义开发和扩展,支持二次创作和个性化调整。
    • 创新的歌词对齐技术:通过句子级歌词对齐机制,确保人声部分与旋律高度匹配,提升歌词的可理解性和整体听感。
    • 文本条件与多模态理解:支持文本条件输入,用户可以通过歌词、风格提示等文本描述来指导音乐生成。DiffRhythm 结合了多模态信息(如图像、文本和音频)来精准捕捉复杂的风格需求。

    DiffRhythm的技术原理

    • 潜扩散模型(Latent Diffusion):DiffRhythm 使用潜扩散模型来生成音乐。模型通过两个阶段工作:前向加噪和反向去噪。能在短时间内生成高质量的音频,同时保留音乐的连贯性和结构。
      • 前向加噪:将原始音乐片段逐渐加入随机噪声,最终转化为白噪声。
      • 反向去噪:基于预训练的神经网络,从噪声中逐步还原出符合用户要求的音乐。
    • 自编码器结构:DiffRhythm 使用变分自编码器(VAE)对音频数据进行编码和解码。自编码器将音频信号压缩为潜在特征表示,然后通过扩散模型生成新的潜在特征,最后解码为音频输出。
    • 快速生成与非自回归结构:DiffRhythm 采用了非自回归结构,避免了传统自回归模型的逐元素生成方式,显著提高了生成速度。
    • 扩散变换器(Diffusion Transformer):扩散变换器是 DiffRhythm 的核心组件之一,基于变换器架构,通过交叉注意力层和门控多层感知器实现高效的音乐生成。模型能处理长上下文窗口,生成具有连贯结构的完整音乐。

    DiffRhythm的项目地址

    DiffRhythm的应用场景

    • 音乐创作辅助:DiffRhythm 能为音乐创作者提供灵感和初步的音乐框架。创作者只需输入歌词和风格提示,可在短时间内生成包含人声和伴奏的完整歌曲。
    • 影视与视频配乐:对于影视制作、视频游戏开发以及短视频创作,DiffRhythm 可以快速生成与内容情绪相匹配的背景音乐。
    • 教育与研究:在音乐教育领域,DiffRhythm 可以生成用于教学的音乐示例,帮助学生理解不同风格和结构的音乐。
    • 独立音乐人与个人创作:独立音乐人可以用 DiffRhythm 快速生成高质量的音乐作品,无需复杂的音乐制作设备或专业知识。支持多语言歌词输入,适合不同文化背景的创作者。
  • NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型

    NotaGen是什么

    NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于预训练、微调和强化学习相结合的方法,预训练阶段用超过160万首乐曲,微调阶段基于约9000首高质量古典作品,基于“时期-作曲家-乐器”提示进行条件生成。在强化学习阶段,NotaGen 引入 CLaMP-DPO 方法,对比学习模型 CLaMP² 为生成的音乐提供反馈,优化音乐性与可控性,无需人工标注或预定义奖励。NotaGen 在主观 A/B 测试中优于基线模型,接近人类作品的音乐美感,显著提升符号音乐生成的艺术性。

    NotaGen

    NotaGen的主要功能

    • 生成高质量古典乐谱:根据用户指定的时期(如巴洛克、古典、浪漫)、作曲家(如巴赫、莫扎特、肖邦)和乐器(如键盘、弦乐四重奏、管弦乐)生成符合特定风格的乐谱。
    • 提升音乐性:基于预训练、微调和强化学习相结合的方式,生成具有高度音乐性(如旋律优美、和声流畅、结构连贯)的作品。
    • 可控性生成:用户用“时期-作曲家-乐器”等条件提示,控制生成音乐的风格和特点。
    • 支持多种模型规模:提供不同参数规模的模型(如 NotaGen-small、NotaGen-medium 和 NotaGen-large),适应不同的硬件和应用场景。

    NotaGen的技术原理

    • 预训练:在超过160万首乐曲上进行预训练,涵盖多种风格和乐器。基于大规模数据学习音乐的基本结构和模式,类似于语言模型中的“语言理解”阶段。用符号音乐表示(如 ABC 符号)进行编码,预测下一个符号的任务进行训练。
    • 微调:在约9000首高质量古典作品上进行微调,针对特定风格(如巴洛克、古典、浪漫)和作曲家进行优化,生成符合特定风格的音乐。用“时期-作曲家-乐器”提示进行条件生成,增强模型对特定风格的理解和生成能力。
    • 强化学习:基于 CLaMP-DPO(Contrastive Language-Music Pretraining with Direct Preference Optimization)方法,对比学习模型 CLaMP² 提供反馈,优化生成音乐的质量和一致性,无需人工标注或预定义奖励。生成的音乐样本根据 CLaMP² 的评分被分为“选择”和“拒绝”两类,基于 DPO 算法优化模型,提升生成音乐的音乐性和可控性。
    • 符号音乐表示:用 ABC 符号表示乐谱,简化编码和生成过程,支持多声部音乐的生成。基于去除全休止符、添加小节索引等方法优化数据,提升生成效率和质量。
    • 模型架构:基于层次化的 Transformer 解码器,包括 patch-level decoder 和 character-level decoder,分别处理音乐片段和符号生成。结合 CLaMP² 提供的多模态反馈,优化生成音乐的全局特征(如风格、和声、结构)。

    NotaGen的项目地址

    NotaGen的应用场景

    • 音乐创作辅助:为作曲家提供灵感,快速生成符合特定风格的乐谱草稿,节省创作时间。
    • 音乐教育:帮助学生理解不同音乐时期的风格特点,生成教学用乐谱。
    • 音乐制作:为影视、游戏等快速生成背景音乐或配乐,提升制作效率。
    • 音乐表演:生成高质量乐谱,供乐团、合唱团等排练或演出使用。
    • 音乐娱乐:基于互动式演示,让用户实时生成音乐,体验创作乐趣。
  • NextGenAI – OpenAI 推出的教育联盟,联合15家顶尖大学和机构

    NextGenAI是什么

    NextGenAI是OpenAI推出的全球性联盟,基于AI技术推动教育和研究的进步。NextGenAI联合包括哈佛大学、麻省理工学院、牛津大学等在内的15所顶尖大学和机构,OpenAI为其提供5000万美元的资金支持、计算资源和API接口。各成员机构基于AI技术在医疗、教育、图书馆等领域展开创新应用,例如缩短罕见病诊断时间、开发先进学习模型、数字化罕见文献等。NextGenAI加速了AI在教育中的应用,强化了学术界与产业界的合作,推动全球范围内的知识共享和研究突破,为未来教育和科研模式带来变革。

    NextGenAI

    NextGenAI的主要功能

    • 加速研究突破:帮助成员机构在医疗、能源、农业、数字健康等关键领域开展前沿研究,例如缩短罕见病的诊断时间、开发先进疗法等。
    • 变革教育模式:支持成员机构开发AI驱动的教学方法和课程,创建个性化学习模型,提升教育质量和效率,满足学生多样化的学习需求。
    • 提升知识共享:成员机构基于AI技术对图书馆的罕见文献、公有领域材料等进行数字化和转录。
    • 培养AI人才:为学生和研究人员提供实践机会,帮助他们掌握AI技术,培养下一代能够驾驭AI的科研人才和教育工作者。
    • 强化学术与产业合作:联合顶尖大学、医院、图书馆等机构,加强学术界与产业界的合作,推动AI技术在全球范围内的应用和普及。

    NextGenAI的官网地址

    NextGenAI的应用场景

    • 医疗健康:加速罕见病诊断,开发个性化治疗方案,提升医疗决策的准确性和效率。
    • 教育创新:创建个性化学习模型,开发AI驱动的教学内容,提升教育质量和学生学习体验。
    • 知识共享:数字化和转录图书馆的罕见文献,让古老知识可供全球学者搜索和研究。
    • 农业与能源:优化农业生产和能源管理,提高效率,推动可持续发展。
    • 跨学科研究:支持多学科领域的研究突破,分析科学数据,探索新的研究方向和解决方案。