Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Midjourney V1 – Midjourney推出的首个AI视频生成模型

    Midjourney V1是什么

    Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮转变为视频。模型提供自动和手动动画设置,及高、低运动模式,用户能根据需要选择合适的模式制作视频。模型支持用户对生成的视频进行扩展,每次延长约 4 秒,总共能延长四次。Midjourney V1 的推出为用户提供探索动态内容创作的新工具。模型基础订阅费仅需 10 美元/月。Midjourney V1 目前已在Midjourney官网上线。

    Midjourney V1

    Midjourney V1的主要功能

    • 图像到视频的转换:用户将Midjourney生成的图像作为起始帧或从外部上传的图像,基于“Animate”按钮将其变为视频。
    • 自动与手动动画设置:提供自动动画功能,系统自动生成“运动提示”,让图像动起来;支持手动动画,用户自行描述运动方式。
    • 运动模式选择:设有“高运动”和“低运动”模式。“低运动”适合主体缓慢或有意识地移动的场景;“高运动”适合主体和镜头都大幅移动的场景。
    • 视频扩展功能:支持用户将喜欢的视频进行扩展,每次延长约4秒,总共延长四次。
    • 外部图像支持:支持用户上传外部图像作为起始帧,基于输入运动提示描述想要的运动效果,生成视频。

    如何使用Midjourney V1

    • 访问Midjourney平台:访问Midjourney的官方网站,按提示完成注册和登录。
    • 选择“Image-to-Video”功能:在平台上找到“Image-to-Video”的视频制作功能入口。
    • 上传图像:在平台根据提示词生成静态图像或用已有图像,上传到Midjourney平台。
    • 选择动画模式
      • 自动动画:选择“自动”动画模式,系统会自动生成一个“运动提示”,自动让图像动起来。这种方式适合快速生成有趣的动画效果,无需用户过多干预。
      • 手动动画:选择“手动”动画模式,需要输入一个“运动提示”,详细描述你希望图像如何运动,
    • 选择运动模式
      • 低运动模式:适合主体缓慢或有意识地移动的场景。
      • 高运动模式:适合主体和镜头都大幅移动的场景。
    • 调整其他参数:根据需要调整视频的其他参数,如帧率、分辨率等(如果平台提供这些选项)。
    • 生成视频:完成上述设置后,点击“Animate”按钮开始生成视频。系统根据设置和提示词生成动态视频。
    • 扩展视频:如果对生成的视频满意,用“扩展”功能,每次延长约4秒,总共可延长四次,得到更长的视频。
    • 下载和分享:视频生成完成后,下载到本地设备,或将视频分享到社交媒体或其他平台,与他人分享你的创作成果。

    Midjourney V1的应用场景

    • 内容创作与娱乐:将静态图像转化为动态视频,用在制作动画短片、广告或社交媒体内容,增加吸引力和趣味性。
    • 教育与培训:将静态教学图像转化为动态视频,帮助学生更好地理解和记忆复杂概念,提升教学效果。
    • 广告与营销:将产品图片或品牌标识转化为动态视频,用于广告宣传,吸引消费者注意力,提升品牌影响力。
    • 艺术与设计:将静态艺术作品转化为动态视频,创作独特的动态艺术作品,为艺术展览或个人创作增添活力。
    • 影视制作:为电影、电视剧制作视觉特效和动态预告片,提升影视作品的视觉冲击力和宣传效果。
  • LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

    LinGen是什么

    LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块(包含MA-branch和TE-branch),替换传统Diffusion Transformers中的二次复杂度的自注意力模块,实现在单个GPU上高效生成高分辨率、分钟级时长的视频。LinGen显著降低计算成本,保持高质量的视频输出,在视频质量和生成效率上均优于现有的先进模型,为长视频生成和实时交互式视频应用开辟新的道路。

    LinGen

    LinGen的主要功能

    • 高分辨率视频生成:支持生成高分辨率(如512p、1024p)的视频,满足高质量内容创作的需求。
    • 长时长视频生成:支持生成分钟级时长的视频,突破传统模型只能生成短视频(10-20秒)的限制。
    • 线性计算复杂度:基于采用线性复杂度的MATE模块,显著降低计算成本,让视频生成更加高效,适合在单个GPU上运行。
    • 高质量视频输出:生成的视频在视觉质量和文本对齐方面与现有的先进模型相当,同时保持帧间的一致性。
    • 实时交互式视频生成:LinGen为实时交互式视频生成和编辑提供可能,适用各种动态内容创作场景。

    LinGen的技术原理

    • MA-branch(多尺度注意力分支)
      • 双向Mamba2模块:Mamba2是高效的线性复杂度的序列模型,基于双向设计,捕捉序列中的双向依赖关系。
      • Rotary Major Scan(RMS):基于不同的扫描方式(如空间行优先、空间列优先、时间行优先、时间列优先)重新排列3D视频token张量,增强短距离相关性,同时减少计算延迟。
      • Review Tokens:在序列处理前添加平均池化的token序列,提供对整个序列的全局概览,增强长距离相关性。
    • TE-branch(时间注意力分支):将3D视频token张量划分为小窗口,在窗口内计算自注意力,TESA能捕捉空间上相邻和时间上中等距离的token之间的相关性。窗口在不同层之间交替移动,扩大感受野并增强视频的一致性。
    • 线性复杂度:基于MATE模块的设计,LinGen的计算复杂度与生成视频中的像素数量呈线性关系,而不是传统的二次关系。这使得LinGen能够在保持高质量输出的同时,显著降低计算成本,提高生成效率。
    • 训练策略:LinGen用渐进式训练策略,先在低分辨率的文本到图像任务上进行预训练,再逐步增加视频分辨率和长度进行预训练。在文本到视频预训练阶段,结合文本-图像对进行混合训练,提高生成视频的一致性。基于在高质量视频数据集上进行微调,进一步提升生成视频的质量。

    LinGen的项目地址

    • 项目官网:https://lineargen.github.io/
    • GitHub仓库:https://github.com/jha-lab/LinGen
    • arXiv技术论文:https://arxiv.org/pdf/2412.09856

    LinGen的应用场景

    • 内容创作:快速生成高质量的视频内容,如广告、电影、电视剧等,显著缩短创作周期和成本。
    • 娱乐行业:生成游戏中的过场动画和背景视频,增强游戏的视觉效果和沉浸感。
    • 教育与培训:生成教育视频,如课程讲解和实验演示,提高教学的趣味性和互动性;生成培训视频,帮助员工快速理解和掌握知识,提升培训效果。
    • 广告视频:快速生成广告视频,满足不同广告场景的需求,提高广告制作的效率和效果。
    • 艺术创作:生成艺术视频,为艺术家提供新的创作工具,激发创意。
  • EX-4D – 字节跳动Pico团队推出的4D视频生成框架

    EX-4D是什么

    EX-4D是字节跳动(ByteDance)旗下Pico团队推出的新型4D视频生成框架,能从单目视频输入生成极端视角下的高质量4D视频。框架基于独特的深度防水网格(DW-Mesh)表示,显式建模可见和被遮挡区域,确保在极端相机姿态下保持几何一致性。框架用模拟遮挡掩码策略,基于单目视频生成有效的训练数据,用轻量级的LoRA基视频扩散适配器合成物理一致且时间连贯的视频。EX-4D在极端视角下的性能显著优于现有方法,为4D视频生成提供新的解决方案。

    EX-4D

    EX-4D的主要功能

    • 极端视角视频生成:支持生成从-90°到90°的极端视角视频,提供丰富的视角体验。
    • 几何一致性保持:基于深度防水网格(DW-Mesh)表示,确保视频在不同视角下的几何结构保持一致。
    • 遮挡处理:有效处理边界遮挡,避免因视角变化导致的视觉伪影。
    • 时间连贯性:生成的视频在时间上具有高度的连贯性,避免常见的闪烁和跳跃问题。
    • 无需多视角数据:基于模拟遮挡掩码策略,用单目视频进行训练,无需昂贵的多视角数据集。

    EX-4D的技术原理

    • 深度防水网格(DW-Mesh):DW-Mesh支持建模可见表面,还能显式地建模被遮挡的边界,确保在极端视角下几何结构的一致性。为每个视角提供可靠的遮挡掩码,有效处理边界遮挡问题。
    • 模拟遮挡掩码策略:基于DW-Mesh模拟新视角下的遮挡,生成有效的训练数据。用跟踪帧间点确保时间一致性,模拟真实场景中的遮挡变化。
    • 轻量级LoRA基视频扩散适配器:将DW-Mesh中的几何信息与预训练的视频扩散模型高效结合,生成高质量视频。基于仅包含1%的可训练参数,显著降低计算需求,提高训练和推理效率。

    EX-4D的项目地址

    • 项目官网:https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
    • GitHub仓库:https://github.com/tau-yihouxiang/EX-4D
    • arXiv技术论文:https://arxiv.org/pdf/2506.05554

    EX-4D的应用场景

    • 沉浸式娱乐体验:用在体育赛事、演唱会等直播,观众能自由切换视角,增强参与感。
    • 游戏开发:生成自由视角游戏场景和过场动画,提升玩家的沉浸感和交互体验。
    • 教育与培训:创建虚拟教学环境,如虚拟实验室、手术模拟等,提高学习效果。
    • 广告与营销:制作交互式广告和虚拟展厅,让消费者全方位查看产品,提升购物体验。
    • 文化遗产保护:重现历史场景,创建虚拟博物馆,让人们多角度欣赏文物和艺术品。
  • EmbodiedGen – 用于具身智能应用的生成式3D世界引擎

    EmbodiedGen是什么

    EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块,如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等,支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和 URDF 格式,为具身智能研究提供了强大的工具支持。

    EmbodiedGen

    EmbodiedGen的主要功能

    • 图像到 3D 转换:能从输入图像生成具有物理合理性的 3D 资产。
    • 文本到 3D 生成:根据文本描述生成各种几何形状和风格的 3D 资产。
    • 纹理生成功能:为 3D 网格生成视觉丰富的纹理。
    • 复杂场景构建:支持从简单物体到复杂场景的创建,能生成具有真实世界比例且符合统一机器人描述格式(URDF)的高质量 3D 资产。
    • 智能布局生成:提供智能布局生成能力,支持训练与评估中的下游任务。
    • 物理属性支持:生成的 3D 资产具备密封的几何结构和物理上合理的属性,可以直接应用于机器人仿真和描述格式中。

    EmbodiedGen的技术原理

    • 生成式 AI 的应用:EmbodiedGen 基于生成式 AI 技术,能从图像或文本描述生成 3D 模型。
    • 多模块协同工作:EmbodiedGen 包含六个关键模块:图像到 3D、文本到 3D、纹理生成、关节物体生成、场景生成和布局生成。模块协同工作,生成从简单物体到复杂场景的多样化 3D 世界。
    • 物理真实性和真实世界比例:生成的 3D 资产具备密封的几何结构和物理上合理的属性,可以直接应用于 URDF(Unified Robot Description Format)等机器人仿真和描述格式中。
    • 动态环境生成:EmbodiedGen 的生成环境是动态的,能根据 AI 的行为实时生成和修改环境。

    EmbodiedGen的项目地址

    • 项目官网:https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html
    • Github仓库:https://github.com/HorizonRobotics/EmbodiedGen
    • arXiv技术论文:https://arxiv.org/pdf/2506.10600

    EmbodiedGen的应用场景

    • 机器人仿真与训练:EmbodiedGen 可以生成具有物理合理性和真实世界比例的 3D 资产,可以直接应用于 URDF(Unified Robot Description Format)等机器人仿真和描述格式中。
    • 自动驾驶与无人机:EmbodiedGen 生成的动态 3D 环境可以用于自动驾驶和无人机的仿真训练。通过模拟复杂的道路和地形条件,帮助自动驾驶系统和无人机更好地适应现实场景。
    • 虚拟社交:用户可以通过 VR 设备控制虚拟化身(Avatar)进行社交、会议等活动。
    • 医疗与康复:EmbodiedGen 生成的 3D 环境可以用于医疗和康复领域的仿真和训练。通过虚拟环境进行手术操作的仿真训练。
  • SurveyForge – AI自动化学术综述生成框架

    SurveyForge是什么

    SurveyForge是上海AI Lab联合复旦大学、上海交通大学等机构推出的创新框架,用在自动化生成高质量学术综述。框架基于两阶段设计,大纲生成和内容生成。在大纲生成阶段,基于双数据库协同驱动(研究论文数据库和综述大纲数据库)的启发式学习机制,生成结构合理、逻辑清晰的综述框架。在内容生成阶段,学者导航Agent(SANA)用记忆模块和时间感知重排序引擎,精准检索文献生成高质量内容。SurveyForge的并行生成与协调机制能高效生成连贯的长文档,生成约 64k token的综述仅需 10 分钟,成本不到 0.5 美元。团队构建了 SurveyBench 多维度评估基准,用在客观评估综述的质量。

    SurveyForge

    SurveyForge的主要功能

    • 高效生成综述:SurveyForge能在短时间内生成约64k token的综述,整个过程仅需10分钟,成本不到0.5美元。
    • 高质量大纲生成:基于双数据库协同驱动的启发式学习机制,生成结构合理、逻辑清晰的综述大纲,接近人工撰写的水平。
    • 精准文献检索:学者导航Agent(SANA)能精准检索与主题相关的高质量文献,避免引用无关文献,提升文献的准确性和影响力。
    • 内容优化与协调:jiyu 并行生成与协调机制,各章节独立生成后基于精炼阶段消除重复、理顺逻辑,形成连贯的整体。

    SurveyForge的技术原理

    • 大纲生成阶段
      • 双数据库协同驱动:构建研究论文数据库(约60万篇arXiv计算机科学领域论文)和综述大纲数据库(约2万篇综述文章的层次化大纲结构)。基于跨数据库知识融合,检索主题相关论文和已有综述大纲,学习专家级的结构化模式。
      • 递归构建策略:先生成体现全局逻辑的一级大纲,再针对每个章节结合领域文献深入细化二级结构,实现由粗到细、由整体到局部的结构化学习。
    • 内容生成阶段
      • 学者导航Agent(SANA)
        • 子查询记忆模块:将大纲生成阶段检索的文献集合作为记忆上下文,结合原查询,确保查询分解过程始终围绕主题核心,避免语义偏移。
        • 检索记忆模块:将整个大纲相关的文献作为全局记忆,基于嵌入相似度为每个子查询检索最相关的文献,提高检索精度和语义一致性。
        • 时间感知重排序引擎:将检索到的文献按发表时间分组,组内按引用数进行top-k筛选,平衡经典权威文献与前沿新兴研究的代表。
      • 并行生成与协调:各章节独立生成内容,基于共享的记忆系统确保围绕统一主题框架,用精炼阶段消除重复、理顺逻辑,形成连贯的整体。

    SurveyForge的项目地址

    • GitHub仓库:https://github.com/Alpha-Innovator/SurveyForge
    • HuggingFace模型库:https://huggingface.co/datasets/U4R/SurveyBench
    • arXiv技术论文:https://arxiv.org/pdf/2503.04629

    SurveyForge的应用场景

    • 学术研究:帮助初入领域、跨学科研究者和资深学者快速获取领域全景,提升文献调研效率。
    • 教育领域:辅助教师设计课程、学生学习,快速掌握领域知识。
    • 工业界:助力企业进行技术调研和行业分析,为研发决策提供参考。
    • 政策制定:为政策制定者提供科学依据,辅助技术评估和政策规划。
    • 个人学习与研究:帮助个人快速了解感兴趣领域的最新进展,辅助论文写作。
  • Bright Data MCP – 基于MCP的实时网络数据抓取工具

    Bright Data MCP是什么

    Bright Data MCP 是强大的模型上下文协议(MCP)服务器,专为公共网络访问设计。Bright Data MCP能让大型语言模型(LLMs)、agents 和应用程序实时访问、发现和提取网络数据,绕过地理限制和网站的反爬虫机制。服务器支持多种客户端,如 Claude Desktop、Cursor 等,提供无缝集成和可选的远程浏览器自动化功能。Bright Data MCP 适用需要实时网络数据支持的各种应用场景,是网络爬虫和数据采集任务的理想工具。

    Bright Data MCP

    Bright Data MCP的主要功能

    • 实时网络访问:直接从网络获取最新的信息,确保数据的时效性。
    • 绕过地理限制:支持访问受地理位置限制的内容,突破区域封锁。
    • 网络解锁器:具备绕过网站机器人检测保护的能力,避免被封禁。
    • 浏览器控制:提供可选的远程浏览器自动化功能,支持复杂的网页交互。
    • 无缝集成:与所有支持MCP协议的AI助手和工具兼容,易于集成到现有系统中。
    • 数据安全:强调对抓取内容的过滤和验证,避免潜在的安全风险。
    • 灵活配置:支持自定义配置,如设置API令牌、Agent区域等,满足不同用户的需求。

    Bright Data MCP的技术原理

    • 模型上下文协议(MCP):MCP 是连接AI模型和外部数据源的协议。Bright Data MCP 基于MCP协议,为AI模型提供实时的网络数据访问能力,让模型动态获取最新的信息。MCP定义了数据请求和响应的格式,确保数据高效、安全地传输。
    • Agent网络与Web Unlocker:用Agent网络绕过地理限制,jiyu 分布在不同地理位置的Agent服务器访问受限制的内容。Web Unlocker 技术能识别和绕过网站的反爬虫机制,确保数据采集的稳定性。
    • 浏览器自动化:基于集成浏览器自动化工具(如 Puppeteer 或 Selenium),模拟真实用户的行为,访问复杂的动态网页。支持远程控制浏览器,实现更复杂的交互操作。
    • 数据安全与验证:在数据传输和处理过程中,用加密和验证机制,确保数据的安全性。提供数据过滤和验证工具,防止恶意数据注入。
    • API 驱动的架构:基于API接口与客户端通信,支持多种编程语言和工具的接入。用户配置环境变量(如API令牌)管理和认证数据请求。
    • 分布式处理:分布式架构处理大量数据请求,提高系统的可扩展性和性能。支持多线程和异步处理,优化数据采集效率。

    Bright Data MCP的项目地址

    • GitHub仓库:https://github.com/luminati-io/brightdata-mcp

    Bright Data MCP的应用场景

    • 实时信息查询:获取最新新闻、天气、股票行情等。
    • 市场研究:分析竞争对手、消费者行为和行业趋势。
    • 内容创作:为创作者提供参考资料和创意灵感。
    • 数据爬取:自动化采集网页数据,支持批量信息收集。
    • 智能助手增强:为AI助手提供实时数据支持,提升回答能力。
  • OmniFlow – 松下联合加州大学推出的多模态AI模型

    OmniFlow是什么

    OmniFlow是松下与加州大学洛杉矶分校(UCLA)合作推出的多模态AI模型。模型能实现文本、图像和音频之间的任意到任意(Any-to-Any)生成任务,例如将文本转换为图像或音频,或将音频转换为图像等。OmniFlow扩展现有的图像生成流匹配框架,基于连接和处理三种不同数据特征,学习复杂的数据关系,避免简单平均不同模态数据特征的局限性。模型用模块化设计,支持独立预训练和微调,显著提升训练效率和模型的扩展性。OmniFlow在多模态生成领域展现了强大的性能和灵活性。

    OmniFlow

    OmniFlow的主要功能

    • 任意到任意(Any-to-Any)生成:支持实现文本、图像和音频之间的相互转换与生成。
      • 文本到图像(Text-to-Image):根据文本描述生成对应的图像。
      • 文本到音频(Text-to-Audio):将文本内容转换为语音或音乐。
      • 音频到图像(Audio-to-Image):根据音频内容生成相关的图像。
      • 多模态输入到单模态输出:支持多种模态组合输入,如文本+音频生成图像。
    • 多模态数据处理:能同时处理文本、图像和音频等多种模态的数据,支持复杂的多模态生成任务。
    • 灵活的生成控制:基于多模态引导机制,用户灵活控制生成过程中不同模态之间的对齐和交互,例如强调图像中的某个元素或调整音频的语调。
    • 高效训练与扩展:基于模块化设计,支持各个模态的组件独立预训练,在需要时合并进行微调,显著提高训练效率和模型的扩展性。

    OmniFlow的技术原理

    • 多模态修正流(Multi-Modal Rectified Flows):OmniFlow扩展修正流(Rectified Flow)框架,用在处理多模态数据的联合分布。基于连接和处理三种不同数据特征(文本、图像、音频),OmniFlow能学习复杂的数据关系,避免简单平均不同模态数据特征的局限性。修正流框架支持模型在生成过程中逐步减少噪声,生成高质量的目标模态数据。
    • 模块化设计:基于模块化架构,将文本、图像和音频处理模块独立设计。预训练完成后,模块能灵活合并,进行微调适应具体的多模态生成任务。
    • 多模态引导机制:OmniFlow引入多模态引导机制,支持用户基于调整参数控制生成过程中不同模态之间的对齐和交互。
    • 联合注意力机制:OmniFlow基于联合注意力机制,支持不同模态的特征直接交互。在生成过程中,模型能动态地关注不同模态之间的相关性,生成更加一致和高质量的结果。

    OmniFlow的项目地址

    • 项目官网:https://news.panasonic.com/global/press/en250604-4
    • arXiv技术论文:https://arxiv.org/pdf/2412.01169

    OmniFlow的应用场景

    • 创意设计:根据文本描述生成图像或设计元素,帮助设计师快速获得灵感,例如生成广告海报、艺术作品等。
    • 视频制作:结合文本和音频生成视频内容,或根据音频生成相关的视觉效果,用在短视频创作、动画制作等。
    • 写作辅助:根据图像或音频内容生成文本描述,帮助创作者撰写文章、剧本或故事。
    • 游戏开发:根据游戏剧情文本生成游戏场景、角色设计或音效,加速游戏开发流程。
    • 音乐创作:根据文本描述或图像生成音乐,为电影、游戏或广告创作配乐。
  • Hailuo 02 – MiniMax推出的全新AI视频生成模型,排名超越可灵和Veo 3

    Hailuo 02是什么

    Hailuo 02 是 MiniMax 公司推出的全新AI视频生成模型,是Hailuo 01的升级版本。模型目前在图生视频、文生视频的榜单位于第二,超越快手的可灵以及谷歌的Veo3,仅次于字节上周刚刚发布Seedance 1.0 Hailuo 02在多个方面进行了技术创新,包括底层架构的全面重构,训练和推理效率均提升了2.5倍。Hailuo 02 在复杂指令响应率上达到了85%,显著高于竞品,并且能够生成极端复杂物理场景的视频,例如杂技等高难度内容。此外,Hailuo 02在成本效率上表现出色,价格在第一梯队中最低,性价比极高。Hailuo 02新增512p清晰度的视频生成选项,生成速度提升40%,积分消耗降低50%,为用户提供高效且低成本的小屏创作选择。

    Hailuo 02

    Hailuo 02模型升级亮点

    • 成本效率领先:训练和推理效率提升2.5倍,训练成本几乎不变,价格在第一梯队中最低,性价比极高。
    • 底层架构创新:推翻(Hailuo 01)旧架构,设计了更高效的DiT架构,模型参数量提升3倍,数据量提升4倍。
    • 复杂指令响应出色:复杂指令prompt响应率高达85%,优于竞品。
    • 极端复杂场景表现优秀:能够生成极端复杂物理表现的视频,例如杂技等高难度内容。
    • 512p视频生成功能:生成速度提升40%,积分消耗降低50%,为用户提供更高效、低成本的创作选择。

    如何使用Hailuo 02

    目前海螺AI官网均已正式上线图生视频和文生视频的Hailuo 02最新模型,注册登录即可体验

    Hailuo 02

    • 访问官网:打开浏览器,访问海螺AI的官网:hailuoai.com/video ,注册账号登录。
    • 选择图生视频或文生视频(可选):找到最新模型 Hailuo 02 ,输入提示词,开始视频生成。
    • 运镜控制:海螺AI支持通过输入自然语言指令/插入运镜指令,增加对视频运镜的控制。
    • 生成视频:点击“生成视频”按钮,海螺AI将开始处理并生成视频。根据服务器的响应时间和视频的复杂度,生成过程可能需要几分钟到更长时间。
    • 预览和下载:视频生成完成后,可以预览视频效果。如果满意,点击下载按钮将视频保存到本地电脑。

    Hailuo 02的应用场景

    Hailuo 02凭借其高效、低成本和强大的复杂场景生成能力,主要适用于以下场景:
    • 影视制作:快速生成复杂的特效镜头,如杂技、奇幻场景等,降低制作成本和时间。
    • 广告创意:为品牌广告提供低成本、高质量的视频素材,满足多样化创意需求。
    • 内容创作:帮助自媒体创作者快速生成视频内容,提升创作效率。
    • 教育娱乐:生成教育视频或娱乐内容,如科普动画、虚拟表演等,增强趣味性和吸引力。
    • 企业宣传:为中小企业提供低成本的企业宣传视频,提升品牌形象和市场竞争力。
  • LeVo – 腾讯AI实验室推出的AI唱歌模型

    LeVo是什么

    LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生成,可分别生成人声和伴奏音轨,为后期编辑提供便利。技术架构基于语言模型(LM),结合LeLM和音乐编解码器,能并行生成音轨,音质表现接近行业领先水平,在歌词对齐能力上表现卓越。

    LeVo

    LeVo的主要功能

    • 零样本音色克隆:仅需3秒音频片段即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。
    • 分轨生成:LeVo支持双轨生成模式,可分别生成人声和伴奏音轨,为后期混音和编辑提供了更大灵活性。
    • 高保真音乐表现:LeVo在音质表现上接近行业领先水平,尤其在音乐性、人声与伴奏和谐度和音质(MOS评分)等方面表现出色。通过多偏好对齐方法优化生成结果,确保音乐在各种风格和场景下都能保持高保真效果。

    LeVo的技术原理

    • 语言模型架构:LeVo采用语言模型(LM)架构,结合LeLM和音乐编解码器,能并行生成高质量的音乐作品。

    LeVo的性能表现

    • 在多项关键指标上可媲美行业领先的Suno4.5。
    • 在歌词对齐能力(LYC)上,LeVo比Suno4.5高出0.21分,展现出卓越的文本控制能力。

    LeVo的项目地址

    • 项目官网:https://levo-demo.github.io/

    LeVo的应用场景

    • 个人音乐创作者:为热爱音乐创作但缺乏专业技能的个人用户提供低门槛、高质量的音乐创作平台。
    • 专业音乐制作人:分轨生成功能和高保真音乐表现能够提升创作效率和质量。
    • 音乐教育机构:可用于为学生提供生动、有趣的音乐教学体验。
  • Sparc3D – 南洋理工等机构推出的3D模型生成框架

    Sparc3D是什么

    Sparc3D是南洋理工大学联合Sensory Universe和帝国理工学院推出的用在高分辨率3D模型生成框架,解决传统3D生成方法中细节丢失和效率低下的问题。框架结合稀疏可变形Marching Cubes表示(Sparcubes)和稀疏卷积变分自编码器(Sparconv-VAE)。Sparcubes 将原始网格快速转换为高分辨率(1024³)的闭合表面,保留细节并减少计算成本。Sparconv-VAE基于稀疏卷积网络实现高效的3D重建,无需复杂的注意力机制。Sparc3D在3D重建和生成任务中表现出色,能处理复杂几何形状和开放表面,显著降低训练和推理成本,为高分辨率3D生成提供新的解决方案。

    Sparc3D

    Sparc3D的主要功能

    • 高分辨率3D重建:将原始网格快速转换为高分辨率(1024³)的闭合表面,同时保留细节。
    • 细节保留:在处理复杂几何形状时,能保留细小的几何细节,避免细节丢失。
    • 高效的训练和推理:基于稀疏卷积网络,显著降低训练和推理成本,提高生成效率。
    • 兼容性:与现有的隐式扩散模型(如 TRELLIS)无缝集成,提升生成 3D 物体的分辨率。
    • 处理复杂输入:能处理开放表面、不连通组件和复杂几何形状,生成闭合的、可打印的 3D 模型。

    Sparc3D的技术原理

    • Sparcubes(稀疏可变形 Marching Cubes):从输入网格中提取稀疏的激活体素,仅对靠近表面的体素进行采样,减少计算和存储成本。基于洪水填充算法为体素分配粗略的内外标记,结合梯度优化进一步细化 SDF,让体素网格更好地贴合表面。基于梯度下降优化体素网格的顶点位置,让网格更精确地匹配目标表面。用可微渲染技术,结合多视图图像、轮廓或深度图进一步优化几何细节。
    • Sparconv-VAE(稀疏卷积变分自编码器):将 Sparcubes 的参数(符号距离和变形向量)编码为稀疏潜在特征。在解码过程中,基于自剪枝机制动态调整体素的分辨率,恢复原始几何细节。直接在稀疏体素表示上进行编码和解码,避免从表面点到 SDF 的模态转换,减少信息损失。基于最小化占用率、符号、大小、变形和 KL 散度损失,实现高效的训练和高质量的重建。

    Sparc3D的项目地址

    Sparc3D的应用场景

    • 虚拟现实(VR)和增强现实(AR):快速生成高分辨率的3D模型,为VR和AR提供逼真的虚拟环境,提升沉浸感。
    • 3D打印:生成的闭合、高分辨率3D模型直接用在3D打印,确保打印结果的精确性和完整性。
    • 游戏开发:支持快速生成高分辨率的游戏场景和角色,同时优化实时渲染,减少开发时间和成本。
    • 机器人仿真:提供高精度的3D环境模型,助力机器人在复杂场景中进行更有效的仿真和路径规划。
    • 影视特效和动画制作:快速生成高分辨率的3D角色和场景模型,提升影视特效和动画制作的视觉效果。