Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • Skywork UniPic – 昆仑万维开源的多模态统一预训练模型

    Skywork UniPic是什么

    Skywork UniPic 是昆仑万维开源的多模态统一预训练模型,具备图像理解、文本生成图像及图像编辑三大核心能力。模型基于自回归范式,融合 MAR 编码器和 SigLIP2 主干,构建轻量级架构,用 1.5B 参数规模实现高性能,逼近大模型效果。模型基于渐进式多任务训练和优化策略,确保在理解、生成和编辑任务上的卓越表现,支持在消费级显卡上流畅运行,为开发者提供高效、实用的多模态解决方案。

    Skywork UniPic

    Skywork UniPic的主要功能

    • 图像理解:基于文本提示理解图像内容,完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息,实现对图像的深度理解。
    • 文本到图像生成:根据用户输入的文本提示,模型能生成高质量的图像。
    • 图像编辑:用户提供参考图像和编辑指令,模型根据指令对图像进行修改,例如替换图像中的元素、调整风格等,支持多种复杂的编辑操作。

    Skywork UniPic的技术原理

    • 自回归架构:模型延续 GPT-4o 的自回归范式,基于序列化的方式处理图像和文本数据,确保生成和理解任务的高效性。
    • MAR 编码器:在图像生成路径中,用 MAR 编码器作为视觉表征基础,基于掩码自回归的方式逐步生成图像的 patch,实现高质量的图像生成。
    • SigLIP2 主干:在图像理解路径中,引入 SigLIP2 主干网络,专注于语义信息的提取,提升模型对图像内容的理解能力。
    • 渐进式多任务训练:模型基于渐进式多任务训练策略,先专注于单一任务(如文本生成图像),待收敛后逐步引入理解与编辑任务,避免多任务早期相互干扰,确保模型在不同任务上都能达到顶尖性能。
    • 数据与奖励模型优化:用约亿级规模的精选预训练语料和数百万级任务精调样本,同时构建 Skywork-ImgReward 和 Skywork-EditReward 奖励模型,用在筛选高质量数据和评估生成与编辑任务的质量。

    Skywork UniPic的项目地址

    • GitHub仓库:https://github.com/SkyworkAI/UniPic
    • HuggingFace模型库:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
    • 技术论文:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

    Skywork UniPic的应用场景

    • 创意设计与广告制作:广告公司根据文案快速生成创意图像,为新产品设计吸引人的宣传海报,大幅缩短设计周期,提升工作效率。
    • 教育与在线学习:在线教育平台借助该模型根据教学内容生成直观图像或动画,帮助学生更好地理解复杂知识点,例如将历史事件转化为生动场景图,增强学习趣味性。
    • 游戏开发:游戏开发者输入剧情描述,让Skywork UniPic生成游戏场景和角色设计图,加速开发流程,为美术设计提供创意参考,提升游戏视觉效果。
    • 文化遗产保护:博物馆修复文物图像或根据历史文献复原古代场景,如重现古代丝绸之路的繁华景象,帮助观众更直观地了解历史,增强文化传承效果。
    • 智能家居与物联网:智能家居系统根据用户语音指令生成相应场景图像,如温馨客厅场景,为用户提供直观的场景预览和定制服务,提升用户体验。
  • WebShaper – 阿里通义推出的AI训练数据合成系统

    WebShaper是什么

    WebShaper 是阿里巴巴通义实验室推出的创新的 AI 训练数据合成系统。通过形式化建模和智能体扩展机制,为 AI 智能体(Agent)的训练提供了高质量、可扩展的数据。WebShaper 首次引入了基于集合论的“知识投影”(Knowledge Projection, KP)概念,通过 KP 的交集、并集和递归操作,构造复杂的问题结构,精准控制推理路径和任务复杂度。WebShaper 的 Expander 智能体能从简单的“种子问题”出发,逐步扩展成复杂的推理任务,让 AI 自己“出题”。训练策略结合了监督微调(SFT)和 GRPO 强化学习,使模型在复杂信息检索任务中表现出色。

    WebShaper

    WebShaper的主要功能

    • 形式化建模:WebShaper 首次提出了基于集合论的 IS(信息搜寻)任务形式化建模方法。通过“知识投影”(Knowledge Projection, KP)将复杂的信息搜寻任务分解为多个集合操作(如交集、并集、递归操作)。每个 KP 是一个包含特定实体的集合,通过这些操作可以构造出复杂的问题结构,精准控制推理路径和任务复杂度。
    • 智能体扩展机制:WebShaper 的一大创新是让 AI 自己“出题”。通过 Expander 智能体,系统从一个简单的“种子问题”开始,逐步扩展成复杂的推理任务。Expander 智能体调用搜索、摘要、验证等工具,逐步构造出更复杂、逻辑清晰的问题,并验证答案的正确性。确保了推理链条清晰,任务结构可控。
    • 高质量数据生成:WebShaper 通过形式化建模和智能体扩展机制,生成的训练数据不再是“靠猜题”,而是可控、可解释、可扩展的高质量任务。突破了预检索数据的边界,实现了更广泛的任务类型、能力激发和知识覆盖,减少了数据合成中的错误和冗余信息。
    • Agent 训练策略:WebShaper 采用监督微调(SFT)和 GRPO 强化学习的组合策略,让 AI 智能体在模糊、多跳信息中逐步掌握推理与检索能力。训练从高质量的训练轨迹开始,通过奖励机制引导模型进行多步推理,避免“走捷径”或“猜答案”。

    WebShaper的技术原理

    • 形式化驱动框架:WebShaper 采用集合论对信息检索任务进行系统形式化,核心是“知识投影”(Knowledge Projections, KP)概念。KP 是基于特定关系的实体集合,
    • 知识投影操作
      • R-并集:用于处理不确定性条件,例如“2000-2010年参赛的球员”可以通过并集操作表示。
      • 交集:用于处理多条件约束,例如“2000年参赛且90年代出生的球员”。
    • 任务扩展机制:WebShaper 通过“种子任务”开始,利用扩展器(Expander)逐步扩展问题复杂度。扩展器基于形式化框架,结合检索和验证工具,将简单问题扩展为复杂问题,确保逻辑一致性和任务难度。
    • 数据合成与训练:生成的复杂问题被转换为训练数据,通过监督微调(SFT)和强化学习(如 GRPO 算法)进行模型训练,提升模型在复杂信息检索任务中的推理能力。

    WebShaper的项目地址

    • Github仓库:https://github.com/Alibaba-NLP/WebAgent
    • HuggingFace模型库:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
    • arXiv技术论文:https://arxiv.org/pdf/2507.15061

    WebShaper的应用场景

    • 文献整理与分析:WebShaper 可以帮助研究人员快速收集和整理相关文献,进行跨学科的知识发现。
    • 市场调研:WebShaper 可以用于市场调研、竞争分析和投资决策支持。企业分析师可以让 AI 系统自动收集行业数据、分析市场趋势、评估竞争对手的策略。
    • 智能学习助手:WebShaper 可以成为智能学习助手,帮助学生进行深度学习和研究性学习。
    • 生活决策:WebShaper 可以在出行规划、健康查询、生活决策等场景下,即开即用,为用户提供个性化的信息支持。
    • 医疗信息查询:WebShaper 可以帮助用户查询医疗健康信息,提供专业的医疗建议和健康咨询。
  • 通义万相Wan2.2 – 阿里开源的AI视频生成模型

    通义万相Wan2.2是什么

    通义万相2.2(Wan2.2)是阿里巴巴开源的先进AI视频生成模型。共开源文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-IT2V-5B)三款模型,总参数量达270亿。模型首次引入混合专家(MoE)架构,有效提升生成质量和计算效率,同时首创电影级美学控制系统,能精准控制光影、色彩、构图等美学效果。此次开源的5B参数紧凑视频生成模型,支持文本和图像生成视频,能在消费级显卡上运行,基于高效的3D VAE架构,实现高压缩率和快速生成高清视频的能力。目前,开发者可通过GitHub、HuggingFace等平台获取模型和代码,企业可通过阿里云百炼调用API进行应用开发,用户能在通义万相官网和通义APP直接体验。

    通义万相2.2

    通义万相Wan2.2的主要功能

    • 文生视频(Text-to-Video):根据输入的文本描述生成相应的视频内容。例如,输入“一只猫在草地上奔跑”,模型能生成一段符合描述的视频。
    • 图生视频(Image-to-Video):根据输入的图片生成视频,模型根据图片内容生成动态场景,让图片“活”起来。
    • 统一视频生成(Text-Image-to-Video):结合文本和图片生成视频,同时用文本描述和图片信息,生成更精准的视频内容。
    • 电影级美学控制:通过光影、色彩、构图、微表情等控制,生成具有专业电影质感的视频。用户通过输入相关关键词(如“暖色调”“中心构图”)定制视频的美学风格。
    • 复杂运动生成:能生成复杂的运动场景和人物交互,提升视频的动态表现力和真实感。

    通义万相Wan2.2的技术原理

    • 混合专家(MoE)架构:引入MoE架构,将模型分为高噪声专家和低噪声专家。高噪声专家负责视频的整体布局,低噪声专家负责细节完善。在保持计算成本不变的情况下,大幅提升模型的参数量和生成质量。
    • 扩散模型(Diffusion Model):基于扩散模型作为基础架构,通过逐步去除噪声来生成高质量的视频内容。MoE架构与扩散模型结合,能进一步优化生成效果。
    • 高压缩率3D VAE:为提高模型的效率,通义万相2.2基于高压缩率的3D变分自编码器(VAE)。架构实现了时间、空间的高压缩比,让模型能在消费级显卡上快速生成高清视频。
    • 大规模数据训练:模型在大规模数据集上进行训练,包括更多的图像和视频数据,提升模型在多种场景下的泛化能力和生成质量。
    • 美学数据标注:基于精心标注的美学数据(如光影、色彩、构图等),模型能生成具有专业电影质感的视频内容,满足用户对视频美学的定制需求。

    通义万相Wan2.2的项目地址

    • GitHub仓库:https://github.com/Wan-Video/Wan2.2
    • HuggingFace模型库:https://huggingface.co/Wan-AI/models

    如何使用通义万相Wan2.2

    • 访问官网: 访问通义万相的官方网站或下载通义APP进行体验
    • 选择模型:在模型选择下拉框中选择通义万相2.2。
    • 选择体验模式
      • 文生视频(Text-to-Video):输入文本描述,例如“一只猫在草地上奔跑”,点击生成按钮,能看到生成的视频。
      • 图生视频(Image-to-Video):上传一张图片,模型根据图片内容生成动态视频。
      • 统一视频生成(Text-Image-to-Video):结合文本描述和上传的图片,生成更精准的视频内容。
    • 调整参数(可选):用户根据需要调整视频的分辨率、帧率等参数。用电影级美学控制系统,通过输入关键词(如“暖色调”“中心构图”)定制视频的美学风格。
    • 查看生成结果:生成的视频直接在网页上显示,用户能下载或分享生成的视频。

    通义万相Wan2.2的应用场景

    • 短视频创作:创作者快速生成吸引人的短视频内容,用于社交媒体平台,节省创作时间和成本。
    • 广告与营销:广告公司和品牌生成高质量的广告视频,提升广告效果和品牌影响力。
    • 教育与培训:教育机构和企业生成生动的教育视频和培训材料,提升学习效果和培训质量。
    • 影视制作:影视制作团队快速生成场景设计和动画片段,提升创作效率,降低制作成本。
    • 新闻与媒体:新闻机构和媒体生成动画和视觉效果,增强新闻报道的视觉效果和观众参与度。
  • GLM-4.5 – 智谱推出的面向推理、代码与智能体的开源 SOTA 模型

    GLM-4.5是什么

    GLM-4.5 是智谱推出的新一代旗舰模型,专为智能体应用打造,是首款原生融合推理、代码和智能体能力的开源 SOTA 模型。采用混合专家(MoE)架构,有两个版本:GLM-4.5(3550 亿参数,320 亿激活)和 GLM-4.5-Air(1060 亿参数,120 亿激活)。模型在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。支持混合推理模式,提供思考模式和非思考模式,兼顾复杂任务和即时响应需求。

    参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。

    GLM-4.5

    GLM-4.5的主要特点

    • 多能力融合:首次在单个模型中实现了推理、代码生成和智能体能力的原生融合,能满足复杂智能体应用的需求。
    • 推理能力:在多个推理评测基准中表现优异,支持复杂推理任务,推理性能达到开源模型的顶尖水平。
    • 代码生成:在代码生成和编程任务中表现出色,支持多种编程语言,能生成高质量的代码片段,胜任全栈开发任务。
    • 智能体应用:支持工具调用、网页浏览等功能,能接入代码智能体框架,如 Claude Code 和 Roo Code,适用于智能体任务。
    • 混合推理模式:提供“思考模式”用于复杂推理和工具使用,以及“非思考模式”用于即时响应,兼顾效率和性能。

    GLM-4.5的技术亮点

    • 混合专家(MoE)架构:GLM-4.5 采用了混合专家(Mixture of Experts, MoE)架构,是一种高效的模型扩展方法。MoE 架构通过将模型参数划分为多个专家模块(Experts),在每个前向传播过程中动态选择部分专家进行激活,实现参数的稀疏激活。在保持模型强大表达能力的同时,显著降低了计算成本和内存占用。
      • GLM-4.5:总参数量为 3550 亿,激活参数为 320 亿
      • GLM-4.5-Air:总参数量为 1060 亿,激活参数为 120 亿
    • 多模态能力:GLM-4.5 支持多模态输入和输出,能处理文本、图像等多种数据类型。使模型能更好地理解和生成复杂的智能体应用内容,例如在智能体任务中处理网页浏览、工具调用等多模态交互场景。
    • 混合推理模式:GLM-4.5 提供两种推理模式:
      • 思考模式(Thinking Mode):适用于复杂推理和工具使用场景,模型会进行更深入的思考和推理,以生成更准确的结果。
      • 非思考模式(Non-Thinking Mode):适用于即时响应场景,模型会快速生成结果,满足低延迟的需求。
    • 高效的训练流程:GLM-4.5 的训练流程包括三个阶段:
      • 通用数据预训练:在 15 万亿 token 的通用数据上进行预训练,以学习语言和知识的基础表示。
      • 针对性训练:在代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练,以增强模型在特定任务上的表现。
      • 强化学习优化:通过强化学习进一步优化模型的推理、代码生成和智能体能力,以提升模型在实际应用中的表现。
    • 参数效率优化:GLM-4.5 在参数效率上实现了显著提升。尽管参数量仅为 DeepSeek-R1 的 1/2 和 Kimi-K2 的 1/3,但在多项标准基准测试中表现更为出色。例如,在 100B 总参数 – 10B 激活参数规模的模型系列中,GLM-4.5 在 Artificial Analysis 基准测试中的推理性能媲美甚至超越了其他国际顶级模型。

    GLM-4.5的项目地址

    • GitHub仓库:https://github.com/zai-org/GLM-4.5
    • HuggingFace仓库: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
    • ModelScope仓库:https://modelscope.cn/collections/GLM-45-b8693e2a08984f
    • 体验地址
      • HuggingFace: https://huggingface.co/spaces/zai-org/GLM-4.5-Space
      • ModelScope:https://modelscope.cn/studios/ZhipuAI/GLM-4.5-Demo

    GLM-4.5的技术指标

    • 综合性能SOTA最具有代表性的12个评测基准,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3 和BrowseComp。综合平均分,GLM-4.5 取得了全球模型、国产模型,开源模型第一。

    GLM-4.5

    • 更高的参数效率:GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于GLM模型的更高参数效率。在衡量模型代码能力的 SWE-bench Verified 榜单上,GLM-4.5 系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5 系列实现了最佳性能。

    GLM-4.5

    • 低成本、高速度:在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。同时,高速版本实测生成速度最高可至 100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。

    GLM-4.5

    GLM-4.5

    如何使用GLM-4.5

    • 体验平台
      • 智谱清言 (chatglm.cn):可以直接访问智谱清言平台,免费体验 GLM-4.5 的满血版功能。用户可以进行对话生成、代码生成、推理任务等多种操作,感受模型的强大能力。
      • Z.ai:用户也可以通过 Z.ai 平台体验 GLM-4.5 的功能。
    • API 调用
      • BigModel.cn:智谱 AI 提供了 API 接口,用户可以通过 BigModel平台进行 API 调用。API 接口支持多种功能,包括文本生成、代码生成、推理任务等。

    GLM-4.5的模型定价

    API 调用价格低至:输入 0.8 元/百万 tokens、输出 2 元/百万 tokens,生成速度最高可达 100 tokens/秒,支持低延迟和高并发部署。

    GLM-4.5的应用场景

    • 全栈开发任务:GLM-4.5 能胜任复杂的全栈开发任务,支持编写较为复杂的应用、游戏、交互网页等。
    • 代码生成:GLM-4.5 在代码生成方面表现出色,能生成高质量的代码片段,支持多种编程语言。可以帮助开发者快速生成代码框架、修复代码错误、优化代码结构等。
    • 编程辅助:模型可以作为编程辅助工具,提供代码补全、代码生成建议、代码注释等功能,提高开发效率。
    • 内容生成:模型可以生成各种类型的内容,如文章、新闻报道、创意文案等,适用于内容创作、文案撰写等场景。
    • 学术研究:GLM-4.5 可以用于学术研究,帮助研究人员探索自然语言处理、人工智能等领域的前沿问题。
  • 日日新 V6.5 – 商汤科技推出的多模态推理大模型

    日日新 V6.5是什么

    日日新 V6.5是商汤科技推出的日日新新型多模态推理大模型。模型独创图文交错思维链,图像用本体形式参与推理,显著提升跨模态推理精度,超越Gemini 2.5 Pro。相比日日新6.0,推理能力提升6.99%,推理成本仅为30%,性价比提升5倍。模型依托轻量Vision Encoder+和纵深LLM架构,具备高效推理能力,能广泛应用在自动驾驶、机器人等具身智能场景。

    日日新 V6.5

    日日新 V6.5的主要功能

    • 多模态推理:支持处理图像和文本的混合输入,进行复杂的推理任务,例如理解图像内容并结合文本信息生成准确的描述或回答相关问题。
    • 高效推理能力:在多个数据集上表现优异,推理精度显著提升,推理成本大幅降低,性价比提升5倍。

    日日新 V6.5的技术原理

    • 图文交错思维链:图像用本体形式参与推理过程,图文混合的思考模式使得模型能够更准确地理解和处理多模态信息。
    • 轻量Vision Encoder+:基于优化视觉编码器,提高图像处理效率,同时减少计算资源消耗。
    • 纵深LLM架构:结合深度语言模型(LLM)的强大语言理解和生成能力,实现高效的跨模态推理。
    • 多模态协同训练:同时处理图像和文本数据,模型能学习到更丰富的语义信息,提升推理精度。

    日日新 V6.5的项目地址

    • 项目官网:https://platform.sensenova.cn/

    日日新 V6.5的应用场景

    • 自动驾驶:实时分析道路环境,精准识别交通标志、行人和车辆,为自动驾驶系统提供高效、安全的决策支持,提升自动驾驶车辆的智能化水平。
    • 机器人:在工业、服务和物流机器人领域,助力机器人实现精准的物体抓取、灵活的导航避障和自然的人机交互,显著提升机器人的工作效率和适应性。
    • 智能家居:实时监控家庭环境,提供智能安全警报和个性化的家居管理服务,为用户打造更加便捷、智能的家居生活体验。
    • 智能教育:为学生提供个性化的学习辅导,通过图像识别和自然语言处理技术,快速解答数学题、批改作业,同时生成多媒体教材,提升教学效果和学习体验。
    • 医疗健康:在医疗领域,辅助医生进行医疗影像分析,快速准确地识别病变,同时为患者提供智能导诊服务,优化就医流程,提升医疗服务的智能化水平。
  • 混元3D世界模型 1.0 – 腾讯开源的3D世界生成模型

    混元3D世界模型 1.0是什么

    混元3D世界模型1.0(Hunyuan World 1.0)是腾讯在世界人工智能大会上正式发布并开源的业界首个可沉浸漫游、可交互、可仿真的世界生成模型。模型融合了全景视觉生成与分层3D重建技术,支持通过文字或图片输入,在几分钟内生成一个360度沉浸式的三维场景。用户可以在生成的世界中自由漫游,体验类似游戏或虚拟现实的交互感。模型支持物理仿真与二次编辑,生成的场景可导入Unity、Unreal Engine等主流引擎进行进一步开发。

    hunyuanworld-1-0

    混元3D世界模型 1.0的主要功能

    • 一键生成360度全景世界:用户可以通过简单的文本描述或上传一张图片,快速生成一个完整的360度沉浸式三维场景。例如,输入“一个破旧的加油站,夜晚下着雨,远处有霓虹灯”,模型能够构建出包含加油站主体、环境、天空光照、闪电等元素的完整空间。
    • 可漫游、可交互的3D世界:生成的3D场景不仅支持360度视角切换,支持用户在场景中自由漫游,体验类似游戏或虚拟现实的交互感。用户可以通过WASD键控制角色走动,鼠标拖动切换视角,探索生成的虚拟世界。
    • 支持物理仿真与二次编辑:模型生成的场景支持物理仿真和独立编辑。用户可以对前景物体进行选中、绑定骨骼或添加行为逻辑,也可以对天空、地形等元素进行替换或个性化渲染。生成的场景可以导出为标准的Mesh文件,无缝兼容Unity、Unreal Engine、Blender等主流工具,直接用于游戏开发、影视特效制作、教育仿真等场景。
    • 高质量生成能力:混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力上全面超越当前SOTA的开源模型。采用“语意层次化3D场景表征及生成算法”,将复杂3D世界解构为前景、中景、远景等不同语意层级,实现智能分离,生成的场景不仅视觉效果逼真,还具备高度的灵活性和可扩展性。
    • 多模态输入支持:模型支持多种输入方式,包括自然语言描述和图像输入。用户可以根据自己的需求选择合适的输入方式,快速生成所需的3D场景。

    混元3D世界模型 1.0的技术原理

    • 两阶段生成范式
      • 3D世界的压缩与表征(3D-aware VAE)模型首先通过一个特制的3D感知变分自编码器(3D-aware Variational Autoencoder, VAE),将复杂的3D场景数据编码成低维度但信息量密集的潜在空间表征。
      • 在潜在空间中扩散生成(Diffusion Transformer)在获得高质量的潜在空间后,模型通过一个扩散模型(Diffusion Model),其骨干网络采用强大的Transformer架构(即Diffusion Transformer, DiT),从随机噪声潜在编码开始,在文本或图像提示的语义引导下,逐步将噪声雕琢成符合用户要求的3D世界潜在编码。最后,生成的潜在编码通过VAE的解码器还原成具体的3D世界。
    • 语意层次化3D场景表征及生成算法算法将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离。保证了生成场景的视觉效果逼真,支持对场景内元素的独立编辑和物理仿真,兼容Unity、Unreal Engine、Blender等主流工具。
    • 强大的生成引擎(Diffusion Transformer)模型采用了约20亿参数的Diffusion Transformer,其自注意力机制擅长捕捉长距离依赖关系,确保场景的全局一致性。通过交叉注意力机制,将文本或图像提示的语义信息精准注入到生成过程中,实现精准可控的生成。

    混元3D世界模型 1.0的项目地址

    • 项目官网:https://3d-models.hunyuan.tencent.com/world/
    • Github仓库:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
    • HuggingFace模型库:https://huggingface.co/tencent/HunyuanWorld-1
    • 官网使用腾讯混元3D

    混元3D世界模型 1.0的应用场景

    • 游戏开发:游戏开发者可以通过简单的文本指令或图片输入,快速生成包含建筑、地形、植被等元素的完整3D场景。
    • 沉浸式视觉空间生成:无建模经验的普通用户可以通过混元3D创作引擎,仅需一句话或一张图即可快速生成360°沉浸式视觉空间。
    •  数字内容创作:模型支持文本和图片输入,能快速生成高质量、风格多样的可漫游3D场景,适用于动画制作、影视特效等领域。
    • 物理仿真支持:模型生成的场景支持物理仿真,可用于具身智能仿真,帮助机器人或智能体在虚拟环境中进行训练。
    • 智能体开发:支持零代码搭建Multi-Agent,新手小白也能快速上手,适用于构建复杂的智能体交互场景。
  • Intern-S1 – 上海AI Lab推出的科学多模态大模型

    Intern-S1是什么

    Intern-S1是上海人工智能实验室在世界人工智能大会上正式开源发布的科学多模态大模型,融合了语言和多模态性能,具备高水平的均衡发展能力,并富集多学科专业知识,在科学领域表现出色。Intern-S1首创“跨模态科学解析引擎”,能精准解读化学分子式、蛋白质结构、地震波信号等多种复杂科学模态数据,能预测化合物合成路径、判断化学反应可行性等。在多学科专业任务基准上超越了顶尖闭源模型,展现了卓越的科学推理与理解能力。Intern-S1通过动态Tokenizer和时序信号编码器实现了多种科学模态的深度融合,采用通专融合的科学数据合成方法,具备强大的通用推理能力和多项顶尖专业能力。

    Intern-S1

    Intern-S1的主要功能

    • 跨模态科学解析
      • 化学领域:能精准解读化学分子式,预测化合物的合成路径,判断化学反应的可行性。
      • 生物医学领域:可以解析蛋白质序列,辅助药物靶点发现与临床转化价值评估。
      • 地球科学领域:能识别地震波信号,分析地震波事件,为地震研究提供支持。
    • 语言与视觉融合:结合语言和视觉信息,进行复杂的多模态任务,如图文问答、科学现象解释等。
    • 科学数据处理:支持多种复杂科学模态数据的输入,包括材料科学中的光变曲线、天文学中的引力波信号等。
    • 科学问题解答:能基于输入的科学问题,结合其强大的知识库和推理能力,提供准确的解答。
    • 实验设计与优化:辅助科研人员设计实验方案,优化实验流程,提高科研效率。
    • 多智能体协同:支持多智能体系统,能与其他智能体协同工作,共同完成复杂的科研任务。
    • 自主学习与进化:具备一定的自主学习能力,能通过与环境的交互不断优化自身性能。
    • 数据处理与分析:提供数据处理和分析工具,帮助科研人员快速处理和分析科学数据。
    • 模型部署与应用:支持多种部署方式,包括本地部署和云端服务,方便科研人员在不同场景中使用。

    Intern-S1的技术原理

    • 创新的多模态架构:Intern-S1通过新增动态Tokenizer和时序信号编码器,支持多种复杂科学模态数据,包括化学分子式、蛋白质序列、光变曲线、引力波信号和地震波形等。创新实现了对科学模态数据的深入理解与高效处理,例如其对化学分子式的压缩率相比DeepSeek-R1提升70%以上。
    • 大规模科学领域预训练:模型基于一个2350亿参数的MoE语言模型和一个60亿参数的视觉编码器构建,并经过5万亿token的多模态数据预训练,其中超过2.5万亿token来自科学领域。使模型在通用能力和专业科学领域均表现出色,例如在化学结构解读、蛋白质序列理解等专业任务中表现卓越。
    • 联合优化系统与算法:Intern-S1研发团队实现了大型多模态MoE模型在FP8精度下的高效稳定强化学习训练,相比近期公开的MoE模型,训练成本降低了10倍。在系统层面,采用训推分离的RL方案,通过自研推理引擎进行FP8高效率大规模异步推理;在算法层面,提出Mixture of Rewards混合奖励学习算法,融合多种奖励和反馈信号,提升训练效率和稳定性。
    • 通专融合的科学数据合成:为了应对科学领域高价值任务的专业化需求,Intern-S1采用了通专融合的科学数据合成方法。一方面利用海量通用科学数据拓展模型的知识面,另一方面通过专业模型生成具有高可读性的科学数据,并由领域定制的专业验证智能体进行质量控制。

    Intern-S1的项目地址

    • 项目官网书生大模型
    • Github仓库:https://github.com/InternLM/Intern-S1
    • HuggingFace模型库:https://huggingface.co/internlm/Intern-S1-FP8

    Intern-S1的应用场景

    • 图像与文本融合:Intern-S1可以处理图像和文本的融合任务,例如对图像中的内容进行描述、解释图像中的科学现象等。
    • 复杂科学模态数据处理:支持多种复杂科学模态数据的输入,包括材料科学中的光变曲线、天文学中的引力波信号等,实现这些数据的深度融合与高效处理。
    • 科研工具集成:Intern-S1可以集成到科研工具中,帮助科研人员快速处理和分析科学数据。
    • 科学问题解答:作为智能助手,Intern-S1能基于其强大的知识库和推理能力,解答各种科学问题。
  • Coze Loop – 字节Coze推出的AI Agent开发与调试平台

    Coze Loop是什么

    Coze Loop(扣子罗盘)是字节跳动旗下Coze平台开源的专注于AI智能体(Agent)开发与运维的管理平台,为开发者提供从开发、调试、评估到监控的全生命周期管理能力。包括提示词工程、Agent效果评测、性能监控与调优、透明决策监控以及多模型对比。支持提示词的编写、优化和版本管理,提供AI辅助优化功能,显著提升提示词开发效率。Coze Loop通过系统化的评估体系,能对Agent的输出效果进行多维度自动化检测,确保其准确性和合规性。提供性能监控、异常告警以及透明化的决策链路展示,帮助开发者快速定位问题并优化模型表现。

    Coze Loop

    Coze Loop的主要功能

    • 提示词工程:支持提示词的编写、调试、优化及版本管理,提供AI辅助优化功能,显著提升提示词开发效率。
    • Agent效果评测:提供系统化的Agent性能评估体系,能对Prompt和AI智能体的输出效果进行多维度自动化检测,例如准确性、简洁性和合规性等。
    • 性能监控与调优:通过Trace数据追踪、性能统计和异常告警,快速定位问题根源,优化模型表现。
    • 透明决策监控:可视化展示AI工作流程,包括用户输入、模型调用和工具调用,实现全链路透明化。
    • 多模型对比:支持不同模型(如DeepSeek、豆包等)的性能对比,帮助开发者选择最优方案。

    Coze Loop的项目地址

    • Github仓库:https://github.com/coze-dev/cozeloop
    • 官网地址:https://www.coze.cn/loop

    如何使用Coze Loop

    • 访问与注册:访问Coze Loop的官网,注册并登录平台,创建或导入项目。
    • Prompt开发
      • 编写与调试:使用Prompt智能中枢编写和调试Prompt,实时预览不同模型的回答效果。支持智能优化、多版本对比和版本管理。
      • AI辅助优化:平台提供AI辅助优化功能,帮助提升Prompt开发效率。
    • 评测
      • 配置评测集:自定义评测集(输入数据和预期输出结果),设置评估标准。
      • 运行自动化测试:平台自动调用模型输出并对齐真实结果,支持准确率、语言规范性等多维度统计。
    • 观测
      • 启用观测功能:监控AI工作流程,包括用户输入、模型调用和工具调用,实现全链路透明化。
      • 实时预警:通过Trace数据追踪、性能统计和异常告警,快速定位问题根源。
    • 优化与迭代:根据观测和评测结果,优化Prompt或模型。迭代更新并部署最终版本。
    • 多模型对比:支持不同模型(如DeepSeek、豆包等)的性能对比,帮助选择最优方案。
    • 部署与集成:调试完成后,可通过SDK一键集成至业务代码,实现开发流程无缝对接。

    Coze Loop的应用场景

    • 虚拟陪伴AI开发:通过透明化决策链优化人物设定,提升对话自然度。
    • 营销内容生成:自动化生成公众号、小红书等内容,结合评测确保合规性与质量。
    • 企业智能客服:监控问答链路,快速定位错误并优化响应准确性。
    • 教育领域智能辅导:评测不同模型的教学效果,选择最适合的AI辅导方案。
    • 金融风控分析:实时观测模型决策过程,确保合规并降低风险。
  • Coze Studio – 字节跳动开源的AI Agent开发平台

    Coze Studio是什么

    Coze Studio(扣子开发平台)是字节跳动开源的AI智能体开发平台,帮助开发者快速构建、部署和管理AI智能体。提供一站式开发环境,支持Prompt、RAG、Plugin、Workflow等核心技术,通过可视化工作流编排,开发者可以零代码或低代码开发复杂AI应用。平台内置插件框架,可将第三方API或私有能力封装为插件,扩展智能体功能。Coze Studio采用Golang和React开发,遵循领域驱动设计(DDD)原则,易于二次开发。支持本地及私有化部署,部署门槛低,仅需双核CPU和4GB内存即可运行,提供一键部署脚本。

    Coze Studio

    Coze Studio的主要功能

    • 一站式开发环境:提供从开发到部署的全流程支持,涵盖Prompt、RAG、Plugin、Workflow等核心技术。
    • 可视化工作流编排:通过拖拽节点的方式,快速构建复杂的工作流,支持零代码或低代码开发,方便开发者设计业务逻辑。
    • 智能体构建与管理:提供健全的应用模板和编排框架,支持快速创建、发布和管理AI智能体。
    • 多模型支持:支持集成多种主流大模型(如OpenAI、火山引擎等),并提供统一的模型接口抽象。
    • 知识库管理:集成RAG(检索增强生成)能力,支持向量检索,可上传文档或数据,智能体基于知识库生成精准回答。
    • 插件系统:支持创建、配置和管理插件,可封装第三方API或私有功能,扩展智能体的能力。
    • 数据库支持:集成数据库资源,支持数据存储与查询。
    • API与SDK集成:提供聊天和工作流相关API,支持Python、JavaScript、Java等SDK,方便二次开发。
    • 实时交互:通过WebSocket支持实时聊天、语音合成和转录。

    Coze Studio的项目地址

    • Github仓库:https://github.com/coze-dev/coze-studio

    如何使用Coze Studio

    • 环境准备
      • 确保电脑满足最低配置要求:双核 CPU 和 4GB 内存。
      • 提前安装 Docker 和 Docker Compose,并启动 Docker 服务。
    • 获取源码:打开终端或命令提示符,运行以下命令克隆 Coze Studio 的源码:git clone https://github.com/coze-dev/coze-studio.git
    • 配置模型
      • 进入克隆后的项目目录:cd coze-studio
      • 从模板目录复制模型配置模板文件:cp backend/conf/model/template/model_template_ark_doubao-seed-1.6.yaml backend/conf/model/ark_doubao-seed-1.6.yaml
    • 修改配置文件
      • 进入 backend/conf/model 目录。
      • 打开 ark_doubao-seed-1.6.yaml 文件。
      • 设置以下字段:
        • id:模型 ID,由开发者自行定义,必须是非 0 的整数,且全局唯一。
        • meta.conn_config.api_key:模型服务的 API Key。
        • meta.conn_config.model:模型服务的 model ID。
    • 部署并启动服务
      • 进入 docker 目录,复制环境变量模板文件,启动服务。
      • 首次部署可能需要拉取镜像和构建本地镜像,耗时较长。如果看到提示 “Container coze-server Started”,则表示服务启动成功。
    • 访问平台:打开浏览器,访问 http://localhost:8888/,即可打开 Coze Studio 的前端页面。
    • 注册与登录:在 Coze Studio 的登录页面,使用邮箱或手机号注册并登录。
    • 创建智能体登录后,点击左上角的“创建 Bot”按钮,输入 Bot 的基本信息(如名称、头像等)。
    • 配置智能体
      • 在配置页面,可以设置 Bot 的角色、技能和限制(提示词)。
      • 添加官方提供的插件或自定义插件,配置工作流、知识库或数据库。
      • 在调试页面与 Bot 进行对话,测试其功能。
    • 使用插件
      • 在 Bot 中使用插件
        • 在 Bot 编辑页面,选择插件区域,点击加号图标添加插件。
        • 配置插件参数,并在预览与调试区域测试插件功能。
      • 在工作流中使用插件节点
        • 创建或选择工作流,在工作流中添加插件节点。
        • 配置输入输出参数,并测试插件功能。
    • 发布应用:完成所有配置后,点击右上角的“发布”按钮,将智能体发布到 Coze 的应用商店。

    Coze Studio的应用场景

    • 快速原型验证(POC):开发者可以快速搭建 AI 应用的原型,验证想法和概念。
    • 中小企业 AI 应用落地:中小企业可以通过 Coze Studio 快速利用大模型能力解决业务问题。
    • 私有化部署:对于数据安全要求高的企业,Coze Studio 支持私有化部署,确保业务数据不流出企业内网。
    • 企业内部问答机器人:使用知识库构建公司 SOP 智能体,通过工作流添加审批、填表、发邮件等逻辑。
    • AI 交互式问卷系统:使用工作流引导用户填写问卷,调用插件生成数据图表,将数据同步到后端 BI 系统。
  • Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

    Qwen3-235B-A22B-Thinking-2507是什么

    Qwen3-235B-A22B-Thinking-2507 是阿里巴巴发布的全球最强开源推理模型。基于2350亿参数的稀疏混合专家(MoE)架构,每次激活220亿参数,拥有94层Transformer网络和128个专家节点。模型专为复杂推理任务设计,支持256K原生上下文处理能力,可应对长文本和深度推理链。在性能方面,Qwen3-235B-A22B-Thinking-2507 在逻辑推理、数学、科学分析、编程等核心能力上显著提升,特别是在AIME25(数学)和LiveCodeBench v6(编程)等基准测试中刷新了全球开源模型的最佳成绩,超越了部分闭源模型。在知识、创意写作、多语言能力等通用任务上也表现出色。

    模型采用Apache 2.0开源协议,免费商用,用户可通过QwenChat、魔搭社区或Hugging Face体验和下载。定价为每输入百万token 0.7美元,每输出百万token 8.4美元。

    Qwen3-235B-A22B-Thinking-2507

    Qwen3-235B-A22B-Thinking-2507的主要功能

    • 逻辑推理:在逻辑推理任务中表现出色,能够处理复杂的多步推理问题。
    • 数学运算:在数学能力上显著提升,特别是在 AIME25 等高难度数学测试中刷新了开源模型的最佳成绩。
    • 科学分析:能处理复杂的科学问题,提供准确的分析和解答。
    • 代码生成:能生成高质量的代码,支持多种编程语言。
    • 代码优化:帮助开发者优化现有代码,提高代码效率。
    • 调试支持:提供代码调试建议,帮助开发者快速定位和解决问题。
    • 256K 上下文支持:原生支持 256K 的长文本处理能力,能处理超长上下文,适用于复杂的文档分析和长篇对话。
    • 深度推理链:自动启用多步推理,无需用户手动切换模式,适合需要深度分析的任务。
    • 多语言对话:支持多种语言的对话和文本生成,能满足跨语言交流的需求。
    • 指令遵循:能准确理解和执行用户的指令,生成高质量的文本输出。
    • 工具调用:支持与外部工具结合使用,扩展模型的功能。

    Qwen3-235B-A22B-Thinking-2507的技术原理

    • 稀疏混合专家(MoE)架构:Qwen3-235B-A22B-Thinking-2507 采用稀疏混合专家(Mixture of Experts,MoE)架构,总参数量为2350亿,每次推理激活220亿参数。这种架构包含128个专家节点,每个token动态激活8个专家,平衡了计算效率与模型能力。
    • 自回归Transformer结构:模型基于自回归Transformer结构,拥有94层Transformer层,支持超长序列建模,原生支持256K上下文长度。使模型能处理复杂的长文本任务。
    • 推理模式优化:Qwen3-235B-A22B-Thinking-2507 专为深度推理场景设计,默认强制进入推理模式。在逻辑推理、数学运算、科学分析、编程及学术测评等需要专业知识的领域表现出色。
    • 训练与优化:模型通过预训练与后训练双阶段范式进一步提升性能。在多项基准测试中,如AIME25(数学)、LiveCodeBench(编程)等,模型刷新了全球开源模型的最佳成绩。
    • 动态激活机制:MoE架构中的动态激活机制允许模型在推理过程中根据任务复杂性动态选择专家节点。

    Qwen3-235B-A22B-Thinking-2507的项目地址

    • HuggingFace模型库:https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

    Qwen3-235B-A22B-Thinking-2507的应用场景

    • 代码生成与优化:能生成高质量的代码,帮助开发者优化现有代码。
    • 创意写作:在创意写作、故事创作、文案撰写等方面表现出色,能提供丰富的创意和详细的构思。
    • 学术写作:能辅助撰写学术论文、文献综述等,提供专业的分析和建议。
    • 研究方案设计:帮助设计研究方案,提供科学合理的建议。