Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • WebShaper – 阿里通义推出的AI训练数据合成系统

    WebShaper是什么

    WebShaper 是阿里巴巴通义实验室推出的创新的 AI 训练数据合成系统。通过形式化建模和智能体扩展机制,为 AI 智能体(Agent)的训练提供了高质量、可扩展的数据。WebShaper 首次引入了基于集合论的“知识投影”(Knowledge Projection, KP)概念,通过 KP 的交集、并集和递归操作,构造复杂的问题结构,精准控制推理路径和任务复杂度。WebShaper 的 Expander 智能体能从简单的“种子问题”出发,逐步扩展成复杂的推理任务,让 AI 自己“出题”。训练策略结合了监督微调(SFT)和 GRPO 强化学习,使模型在复杂信息检索任务中表现出色。

    WebShaper

    WebShaper的主要功能

    • 形式化建模:WebShaper 首次提出了基于集合论的 IS(信息搜寻)任务形式化建模方法。通过“知识投影”(Knowledge Projection, KP)将复杂的信息搜寻任务分解为多个集合操作(如交集、并集、递归操作)。每个 KP 是一个包含特定实体的集合,通过这些操作可以构造出复杂的问题结构,精准控制推理路径和任务复杂度。
    • 智能体扩展机制:WebShaper 的一大创新是让 AI 自己“出题”。通过 Expander 智能体,系统从一个简单的“种子问题”开始,逐步扩展成复杂的推理任务。Expander 智能体调用搜索、摘要、验证等工具,逐步构造出更复杂、逻辑清晰的问题,并验证答案的正确性。确保了推理链条清晰,任务结构可控。
    • 高质量数据生成:WebShaper 通过形式化建模和智能体扩展机制,生成的训练数据不再是“靠猜题”,而是可控、可解释、可扩展的高质量任务。突破了预检索数据的边界,实现了更广泛的任务类型、能力激发和知识覆盖,减少了数据合成中的错误和冗余信息。
    • Agent 训练策略:WebShaper 采用监督微调(SFT)和 GRPO 强化学习的组合策略,让 AI 智能体在模糊、多跳信息中逐步掌握推理与检索能力。训练从高质量的训练轨迹开始,通过奖励机制引导模型进行多步推理,避免“走捷径”或“猜答案”。

    WebShaper的技术原理

    • 形式化驱动框架:WebShaper 采用集合论对信息检索任务进行系统形式化,核心是“知识投影”(Knowledge Projections, KP)概念。KP 是基于特定关系的实体集合,
    • 知识投影操作
      • R-并集:用于处理不确定性条件,例如“2000-2010年参赛的球员”可以通过并集操作表示。
      • 交集:用于处理多条件约束,例如“2000年参赛且90年代出生的球员”。
    • 任务扩展机制:WebShaper 通过“种子任务”开始,利用扩展器(Expander)逐步扩展问题复杂度。扩展器基于形式化框架,结合检索和验证工具,将简单问题扩展为复杂问题,确保逻辑一致性和任务难度。
    • 数据合成与训练:生成的复杂问题被转换为训练数据,通过监督微调(SFT)和强化学习(如 GRPO 算法)进行模型训练,提升模型在复杂信息检索任务中的推理能力。

    WebShaper的项目地址

    • Github仓库:https://github.com/Alibaba-NLP/WebAgent
    • HuggingFace模型库:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
    • arXiv技术论文:https://arxiv.org/pdf/2507.15061

    WebShaper的应用场景

    • 文献整理与分析:WebShaper 可以帮助研究人员快速收集和整理相关文献,进行跨学科的知识发现。
    • 市场调研:WebShaper 可以用于市场调研、竞争分析和投资决策支持。企业分析师可以让 AI 系统自动收集行业数据、分析市场趋势、评估竞争对手的策略。
    • 智能学习助手:WebShaper 可以成为智能学习助手,帮助学生进行深度学习和研究性学习。
    • 生活决策:WebShaper 可以在出行规划、健康查询、生活决策等场景下,即开即用,为用户提供个性化的信息支持。
    • 医疗信息查询:WebShaper 可以帮助用户查询医疗健康信息,提供专业的医疗建议和健康咨询。
  • MasterAgent – 全球首个L4级多智能体生成与协作平台

    MasterAgent是什么

    MasterAgent 是深圳深元人工智能科技有限公司推出的全球首个 L4 级多智能体生成与协作平台,定位为 AI 时代的“成果交付系统”。通过 Master Builder 引擎实现“一句话生成数字团队”,将复杂任务拆解并分配给多个专业智能体协同完成,复杂指令遵循率高达 99%。核心技术包括 100% 全国产化自研架构、领先的工程化能力以及强大的场景解决能力。MasterAgent 已在地产分析、旅行规划、多模态内容创作等多个领域得到应用验证,获得海尔、广汽、中银国际等上百家企业及政府机构的认可。

    MasterAgent

    MasterAgent的主要功能

    • 复杂任务分解与智能体集群生成:MasterAgent 能将复杂任务自动拆解为多个子任务,生成由不同专业智能体组成的集群。例如,用户输入“分析近期港股TOP5并出具投资策略报告”,系统会迅速生成“数据收集专家”“财务分析专家”“策略报告专家”等智能体,协同完成任务。
    • 高效协同与动态调度:通过 Agent Group 引擎,MasterAgent 支持智能体集群的去中心化自治协作,能根据任务需求动态优化任务分配策略。复杂指令遵循率高达 99%,采用改进的 PBFT 协议实现快速共识,避免多智能体系统中的“内耗”。
    • 自主学习与进化:MasterAgent 具备自我进化能力,知识库和技能模型每周自动更新,通过强化学习和增量训练不断提升性能。支持领域微调技术(如 LoRA/Adapter),快速适应不同行业的专业需求。
    • 一键生成专业工作团队:用户只需通过自然语言输入需求,MasterAgent 能在分钟级生成专业的智能体集群。例如,在地产分析场景中,用户输入购房需求后,系统会生成筛选房源、评估价格、分析通勤等智能体,协同提供解决方案。
    • AI 驱动的全流程自动化:MasterAgent 的工作流程本身由 AI 驱动,能生成执行型智能体操作图形用户界面(GUI),实现从软件到网页的端到端自动化,彻底打通数字世界的壁垒。
    • 高兼容性与定制化:MasterAgent 支持企业接入自己的知识库或智能体,快速适配并扩展成更强大的 Agent 团队。生成的智能体具备可复用、可进化、可学习的特点,满足个性化需求。

    MasterAgent的官网地址

    MasterAgent的核心优势

    • 自主学习与泛化能力:MasterAgent 达到 L4 级别,拥有自主学习和泛化能力,能更广泛地应用学到的知识,在不同情境下进行泛化,接近人类的认知能力。
    • 多智能体自治协作:其 Agent Group 引擎打破了传统 AI 的“中心化控制”模式,数百个智能体可通过“去中心化自治”模式协同工作。
    • Master Builder 架构:支持用户通过自然语言指令在数分钟内定制化部署“智能体助手集群”,开发效率提升数十倍。
    • 动态进化能力:系统每周自动更新知识库和技能模型,通过强化学习优化任务分配,能将一个领域的经验迁移到新场景。
    • 全自主化技术基因:从底层架构到训练数据实现 100% 自主研发,彻底摆脱了对海外大模型与算力的依赖。
    • 高效协作与开发:支持数百个智能体并行协作,开发效率较传统模式提升数十倍。
    • 深度适配国内需求:能深度适配国内数据安全与合规要求,为数据敏感性极高的领域提供可靠的智能体解决方案。

    MasterAgent的应用场景

    • 智能投顾:多智能体可同步完成数据挖掘、风险评估与投资建议,预判股价波动区间。
    • 智能问诊:系统可根据患者症状自动匹配诊疗方案,预判重症患者病情发展趋势。
    • 定制行程:根据出发地、目的地、预算、兴趣点等条件,生成详细的旅行行程方案。
    • 工业流程优化:协同多个子智能体(如规划、调度、感知等角色),提升系统整体的智能化执行能力。
  • 阶跃深研 – 阶跃星辰推出的AI深度研究工具

    阶跃深研是什么

    阶跃深研是阶跃星辰推出的AI深度研究工具,能在大约十分钟内自主完成复杂问题的研究任务,生成深度、专业的研究报告。专为金融、咨询、医疗、法律、政策及学术研究等领域设计,凭借强大的深度搜索与信息整合能力,在红杉中国发布的xbench-DeepSearch评测中以70%的通过率位列第一,在OpenAI的BrowseComp基准测试中通过率达23%,达到行业领先水平。阶跃深研基于端到端自主强化学习和多智能体架构研发,能理解用户需求、澄清研究目标、规划研究计划,自主调用搜索、知识库、代码执行及可视化输出等工具完成研究任务。具备聚焦搜索、自选信源及专属知识库等高级功能,支持多种格式导出研究报告。

    阶跃深研

    阶跃深研的主要功能

    • 需求澄清与目标厘清:阶跃深研能理解用户提出的研究问题,主动反问以帮助用户厘清研究的范围、重点和目标。会根据用户的输入,进一步明确研究方向,确保研究任务的准确性和针对性。
    • 研究计划规划:根据用户的需求,阶跃深研会制定详细的研究计划。用户可以通过自然语言对计划进行修改或补充,更符合实际需求。研究计划包括搜索策略、信息来源选择以及研究步骤的安排。
    • 自主完成研究任务:阶跃深研能自主调用多种工具来完成研究任务,在研究过程中,它会动态调整计划,确保研究的高效性和准确性。
      • 搜索:从互联网和专业信源获取信息。
      • 知识库查询:从用户上传的本地文档或专业文献中提取数据。
      • 代码撰写与执行:自动执行代码以获取或处理数据。
      • 可视化输出:将数据和结果以图表形式呈现,便于理解和分析。
    • 输出高质量研究报告:完成研究后,阶跃深研会生成一份内容详实、结构清晰的研究报告。报告特点包括:
      • 内容全面且专业:涵盖研究背景、分析结果、数据支持等。
      • 图表可视化:支持交互式图表,用户可以导出图表或查看源数据。
      • 数据可溯源:所有数据和信息均有明确来源,确保报告的可信性。
      • 多种格式导出:支持PDF、Word、HTML等多种格式,便于分享和协作。
    • 高级搜索功能:阶跃深研提供了多种高级搜索功能,满足个性化研究需求:
      • 聚焦搜索:提高特定专业内容的搜索偏好,确保获取更精准的信息。
      • 自选信源:用户可以指定信任的网站,仅从这些网站中获取信息。
      • 知识库:用户可以上传本地文档,构建专属知识库,结合互联网搜索完成研究任务。
    • 信息可靠性保障:在遇到不可靠信息源时,阶跃深研会主动制定搜索策略,交叉验证信息,确保研究结果的可靠性。
    • 个性化研究支持:产品积累了超过2000个专业信源和1000万篇专业文献,支持聚焦搜索、自选信源及专属知识库等高级功能,满足个性化研究需求。

    如何使用阶跃深研

    • 访问平台:访问阶跃AI的官网:https://www.stepfun.com/,申请体验阶跃深研,或访问阶跃AI APP体验
    • 提供研究需求
      • 输入主题:用户可以通过输入文本、提供链接或上传表格和文档等方式,向阶跃深研提供研究主题和背景信息。
      • 澄清需求:阶跃深研会主动询问一些问题,以澄清研究目标和范围。提供更准确的需求信息,可以显著提高报告的质量。
    • 制定研究计划:阶跃深研会根据用户的需求,制定详细的研究计划。如果用户对计划不满意,可以通过对话进行修改。
    • 自主完成研究
      • 搜索与分析:确认计划后,阶跃深研会搜索超过130个网页,浏览关键网站,必要时执行代码进行计算和分析。
      • 可视化输出:它会利用可视化工具创建简洁明了的图表,将复杂数据以直观的方式呈现。
    • 生成报告:阶跃深研会在短时间内生成高质量、最新的研究报告。
    • 多格式导出:用户可以将报告导出为PDF、Word等格式,便于分享和使用。
    • 持续优化:通过与用户的互动,阶跃深研会不断学习,优化研究方法,逐渐适应用户的专业知识和认知模式。

    阶跃深研的应用场景

    • 市场分析:快速生成特定金融市场的研究报告,分析市场趋势、竞争对手和投资机会。
    • 行业调研:帮助投资者或金融机构深入了解特定行业的现状、市场规模、增长趋势和主要参与者。
    • 疾病研究:帮助研究人员快速获取特定疾病的最新研究成果、治疗方法和临床试验信息。
    • 药物研发:支持药物研发团队快速了解相关领域的研究进展,加速研发进程。
    • 法规解读:帮助法律从业者快速了解和解读新法规,评估其对业务的影响。
    • 合同分析:通过智能搜索和分析工具,快速提取合同中的关键条款和风险点。
  • Runway Aleph – Runway推出的AI视频编辑模型

    Runway Aleph是什么

    Runway Aleph 是 Runway 推出的强大的 AI 视频编辑模型。能通过简单的文字指令,快速实现视频内容的增删、风格转换、环境变换和镜头运动调整等功能。用户可以轻松移除视频中的多余元素,或者将白天场景变为夜晚,将视频风格从现实变为卡通。Aleph 的核心优势在于其基于上下文的编辑能力,能理解视频的叙事逻辑和时空关系,避免常见的编辑错误。

    Runway Aleph

    Runway Aleph的主要功能

    • 内容增删:能精准识别视频中的对象,支持添加新元素或移除不需要的内容。比如可以轻松去除玻璃反光或背景中的杂物,也可以在街头采访视频中加入飘落的樱花。
    • 环境与氛围变换:用户可通过文本指令更改视频中的环境、天气或季节,像把晴天场景变为雨天,或将白天画面调整为夜景,赋予视频全新的叙事氛围。
    • 风格迁移:支持将视频风格转换为卡通、油画或其他艺术风格,保持画面内容的一致性,为艺术创作和品牌宣传提供多样化选择。
    • 镜头运动迁移:用户可保留原始视频的镜头运动方式,生成新的内容或视角,特别适合需要动态镜头效果的场景,比如模仿原视频的推拉摇移节奏生成新画面。
    • 绿幕抠像与灯光优化:内置绿幕抠像功能,无需专业绿幕设备,AI 自动识别主体并抠图。支持重新打光,可根据场景需求自动调整光线效果。

    如何使用Runway Aleph

    • 访问官网:打开 Runway Aleph 的官方网站:https://runwayml.com/research/introducing-runway-aleph。
    • 上传视频:将需要编辑的视频上传到平台,目前支持 360p 分辨率、时长 5-30 秒的视频。
    • 输入指令:在文本框中输入简单的文字指令,描述你想要的编辑效果,比如“移除视频中的路人”“将视频风格改为赛博朋克风”等。
    • 调整参数:根据需要调整一些参数,以优化生成的视频效果。
    • 生成视频:点击生成按钮,等待 Aleph 处理,通常 30-60 秒内即可完成。
    • 下载使用:生成的视频可直接下载,且无版权限制,可用于商业用途。

    Runway Aleph的应用场景

    • 短视频制作:创作者可以轻松移除视频中的路人、杂物等干扰元素,让画面更干净。比如旅行视频中碍眼的电线杆,用 Aleph 一键即可移除。
    • 影视后期制作:能生成新机位与视角,如输入一段视频后,通过指令生成中景镜头或低角度拍摄的画面。可无缝续写故事,理解视频最后一帧内容,生成逻辑连贯的下一段镜头。
    • 风格迁移:将任意图像或视频的艺术风格应用到目标视频上,实现整体美学转换。比如将写实视频变为动漫风格,满足不同创意需求。
    • 影视特效:修改视频中的环境元素,如改变天气、时间或地点,同时保持主体对象动态和结构基本不变。
    • 个人视频美化:用户可以对个人视频进行美化,如调整光线、添加特效等,提升视频质量
  • HuHu.ai – AI模特图生成平台,支持自定义模特

    HuHu.ai是什么

    HuHu.ai 是专为时尚电商设计的 AI 平台,通过智能技术帮助品牌快速生成高质量的模特试穿图,优化内容创作流程,提升电商转化率。能将平铺图、衣架图或幽灵模特图转化为逼真的模特试穿图,仅需几秒即可完成,支持用户自定义模特的身材、肤色、发型和姿势,匹配品牌形象和目标受众。HuHu.ai 提供多种解决方案,包括自助应用、工作室模式、企业定制服务以及技术赋能,满足不同规模品牌的需求。

    HuHu.ai

    HuHu.ai的主要功能

    • 虚拟试穿:将平铺图、衣架图或幽灵模特图转化为逼真的模特试穿图,支持多种服装类型,如 T 恤、连衣裙、西装、泳装等。
    • 自定义模特:用户可以调整模特的身材、肤色、发型、姿势等,匹配品牌形象和目标受众。
    • 多视角支持:生成服装的前视、侧视和后视效果,满足电商平台的多样化展示需求。
    • 批量处理:一次性上传多件服装图片,快速生成大量模特展示图,适合大规模电商需求。
    • API 集成:企业可以通过 API 将虚拟试穿功能嵌入现有工作流程,实现自动化处理。
    • 模型上传:支持用户上传自己的模特照片,用于个性化展示。
    • AI 视频生成:将静态模特照片转化为动态视频,展示服装的动态效果,适合社交媒体和产品详情页。

    HuHu.ai的官网地址

    • 官网地址:https://huhu.ai/

    HuHu.ai的应用场景

    • 本地化营销:品牌可以定制模特的外貌,匹配不同市场的消费者特征,提升广告的针对性和转化率。
    • 社交媒体广告:HuHu.ai 可以快速生成多样化的模特图片,用于社交媒体广告测试,优化广告效果,吸引更多点击。
    • 动态内容创建:HuHu.ai 能将产品和模特照片转换成动态视频,自动设置样式以匹配品牌形象,优化以吸引注意力和互动。
    • 产品页面优化:HuHu.ai 的电商代理功能可以自动生成逼真的试穿图像,优化产品页面的文字和视觉效果,实时更新网站,提升转化率。
  • 通义万相Wan2.2 – 阿里开源的AI视频生成模型

    通义万相Wan2.2是什么

    通义万相2.2(Wan2.2)是阿里巴巴开源的先进AI视频生成模型。共开源文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-IT2V-5B)三款模型,总参数量达270亿。模型首次引入混合专家(MoE)架构,有效提升生成质量和计算效率,同时首创电影级美学控制系统,能精准控制光影、色彩、构图等美学效果。此次开源的5B参数紧凑视频生成模型,支持文本和图像生成视频,能在消费级显卡上运行,基于高效的3D VAE架构,实现高压缩率和快速生成高清视频的能力。目前,开发者可通过GitHub、HuggingFace等平台获取模型和代码,企业可通过阿里云百炼调用API进行应用开发,用户能在通义万相官网和通义APP直接体验。

    通义万相2.2

    通义万相Wan2.2的主要功能

    • 文生视频(Text-to-Video):根据输入的文本描述生成相应的视频内容。例如,输入“一只猫在草地上奔跑”,模型能生成一段符合描述的视频。
    • 图生视频(Image-to-Video):根据输入的图片生成视频,模型根据图片内容生成动态场景,让图片“活”起来。
    • 统一视频生成(Text-Image-to-Video):结合文本和图片生成视频,同时用文本描述和图片信息,生成更精准的视频内容。
    • 电影级美学控制:通过光影、色彩、构图、微表情等控制,生成具有专业电影质感的视频。用户通过输入相关关键词(如“暖色调”“中心构图”)定制视频的美学风格。
    • 复杂运动生成:能生成复杂的运动场景和人物交互,提升视频的动态表现力和真实感。

    通义万相Wan2.2的技术原理

    • 混合专家(MoE)架构:引入MoE架构,将模型分为高噪声专家和低噪声专家。高噪声专家负责视频的整体布局,低噪声专家负责细节完善。在保持计算成本不变的情况下,大幅提升模型的参数量和生成质量。
    • 扩散模型(Diffusion Model):基于扩散模型作为基础架构,通过逐步去除噪声来生成高质量的视频内容。MoE架构与扩散模型结合,能进一步优化生成效果。
    • 高压缩率3D VAE:为提高模型的效率,通义万相2.2基于高压缩率的3D变分自编码器(VAE)。架构实现了时间、空间的高压缩比,让模型能在消费级显卡上快速生成高清视频。
    • 大规模数据训练:模型在大规模数据集上进行训练,包括更多的图像和视频数据,提升模型在多种场景下的泛化能力和生成质量。
    • 美学数据标注:基于精心标注的美学数据(如光影、色彩、构图等),模型能生成具有专业电影质感的视频内容,满足用户对视频美学的定制需求。

    通义万相Wan2.2的项目地址

    • GitHub仓库:https://github.com/Wan-Video/Wan2.2
    • HuggingFace模型库:https://huggingface.co/Wan-AI/models

    如何使用通义万相Wan2.2

    • 访问官网: 访问通义万相的官方网站或下载通义APP进行体验
    • 选择模型:在模型选择下拉框中选择通义万相2.2。
    • 选择体验模式
      • 文生视频(Text-to-Video):输入文本描述,例如“一只猫在草地上奔跑”,点击生成按钮,能看到生成的视频。
      • 图生视频(Image-to-Video):上传一张图片,模型根据图片内容生成动态视频。
      • 统一视频生成(Text-Image-to-Video):结合文本描述和上传的图片,生成更精准的视频内容。
    • 调整参数(可选):用户根据需要调整视频的分辨率、帧率等参数。用电影级美学控制系统,通过输入关键词(如“暖色调”“中心构图”)定制视频的美学风格。
    • 查看生成结果:生成的视频直接在网页上显示,用户能下载或分享生成的视频。

    通义万相Wan2.2的应用场景

    • 短视频创作:创作者快速生成吸引人的短视频内容,用于社交媒体平台,节省创作时间和成本。
    • 广告与营销:广告公司和品牌生成高质量的广告视频,提升广告效果和品牌影响力。
    • 教育与培训:教育机构和企业生成生动的教育视频和培训材料,提升学习效果和培训质量。
    • 影视制作:影视制作团队快速生成场景设计和动画片段,提升创作效率,降低制作成本。
    • 新闻与媒体:新闻机构和媒体生成动画和视觉效果,增强新闻报道的视觉效果和观众参与度。
  • GLM-4.5 – 智谱推出的面向推理、代码与智能体的开源 SOTA 模型

    GLM-4.5是什么

    GLM-4.5 是智谱推出的新一代旗舰模型,专为智能体应用打造,是首款原生融合推理、代码和智能体能力的开源 SOTA 模型。采用混合专家(MoE)架构,有两个版本:GLM-4.5(3550 亿参数,320 亿激活)和 GLM-4.5-Air(1060 亿参数,120 亿激活)。模型在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。支持混合推理模式,提供思考模式和非思考模式,兼顾复杂任务和即时响应需求。

    参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。

    GLM-4.5

    GLM-4.5的主要特点

    • 多能力融合:首次在单个模型中实现了推理、代码生成和智能体能力的原生融合,能满足复杂智能体应用的需求。
    • 推理能力:在多个推理评测基准中表现优异,支持复杂推理任务,推理性能达到开源模型的顶尖水平。
    • 代码生成:在代码生成和编程任务中表现出色,支持多种编程语言,能生成高质量的代码片段,胜任全栈开发任务。
    • 智能体应用:支持工具调用、网页浏览等功能,能接入代码智能体框架,如 Claude Code 和 Roo Code,适用于智能体任务。
    • 混合推理模式:提供“思考模式”用于复杂推理和工具使用,以及“非思考模式”用于即时响应,兼顾效率和性能。

    GLM-4.5的技术亮点

    • 混合专家(MoE)架构:GLM-4.5 采用了混合专家(Mixture of Experts, MoE)架构,是一种高效的模型扩展方法。MoE 架构通过将模型参数划分为多个专家模块(Experts),在每个前向传播过程中动态选择部分专家进行激活,实现参数的稀疏激活。在保持模型强大表达能力的同时,显著降低了计算成本和内存占用。
      • GLM-4.5:总参数量为 3550 亿,激活参数为 320 亿
      • GLM-4.5-Air:总参数量为 1060 亿,激活参数为 120 亿
    • 多模态能力:GLM-4.5 支持多模态输入和输出,能处理文本、图像等多种数据类型。使模型能更好地理解和生成复杂的智能体应用内容,例如在智能体任务中处理网页浏览、工具调用等多模态交互场景。
    • 混合推理模式:GLM-4.5 提供两种推理模式:
      • 思考模式(Thinking Mode):适用于复杂推理和工具使用场景,模型会进行更深入的思考和推理,以生成更准确的结果。
      • 非思考模式(Non-Thinking Mode):适用于即时响应场景,模型会快速生成结果,满足低延迟的需求。
    • 高效的训练流程:GLM-4.5 的训练流程包括三个阶段:
      • 通用数据预训练:在 15 万亿 token 的通用数据上进行预训练,以学习语言和知识的基础表示。
      • 针对性训练:在代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练,以增强模型在特定任务上的表现。
      • 强化学习优化:通过强化学习进一步优化模型的推理、代码生成和智能体能力,以提升模型在实际应用中的表现。
    • 参数效率优化:GLM-4.5 在参数效率上实现了显著提升。尽管参数量仅为 DeepSeek-R1 的 1/2 和 Kimi-K2 的 1/3,但在多项标准基准测试中表现更为出色。例如,在 100B 总参数 – 10B 激活参数规模的模型系列中,GLM-4.5 在 Artificial Analysis 基准测试中的推理性能媲美甚至超越了其他国际顶级模型。

    GLM-4.5的项目地址

    • GitHub仓库:https://github.com/zai-org/GLM-4.5
    • HuggingFace仓库: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
    • ModelScope仓库:https://modelscope.cn/collections/GLM-45-b8693e2a08984f
    • 体验地址
      • HuggingFace: https://huggingface.co/spaces/zai-org/GLM-4.5-Space
      • ModelScope:https://modelscope.cn/studios/ZhipuAI/GLM-4.5-Demo

    GLM-4.5的技术指标

    • 综合性能SOTA最具有代表性的12个评测基准,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3 和BrowseComp。综合平均分,GLM-4.5 取得了全球模型、国产模型,开源模型第一。

    GLM-4.5

    • 更高的参数效率:GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于GLM模型的更高参数效率。在衡量模型代码能力的 SWE-bench Verified 榜单上,GLM-4.5 系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5 系列实现了最佳性能。

    GLM-4.5

    • 低成本、高速度:在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。同时,高速版本实测生成速度最高可至 100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。

    GLM-4.5

    GLM-4.5

    如何使用GLM-4.5

    • 体验平台
      • 智谱清言 (chatglm.cn):可以直接访问智谱清言平台,免费体验 GLM-4.5 的满血版功能。用户可以进行对话生成、代码生成、推理任务等多种操作,感受模型的强大能力。
      • Z.ai:用户也可以通过 Z.ai 平台体验 GLM-4.5 的功能。
    • API 调用
      • BigModel.cn:智谱 AI 提供了 API 接口,用户可以通过 BigModel平台进行 API 调用。API 接口支持多种功能,包括文本生成、代码生成、推理任务等。

    GLM-4.5的模型定价

    API 调用价格低至:输入 0.8 元/百万 tokens、输出 2 元/百万 tokens,生成速度最高可达 100 tokens/秒,支持低延迟和高并发部署。

    GLM-4.5的应用场景

    • 全栈开发任务:GLM-4.5 能胜任复杂的全栈开发任务,支持编写较为复杂的应用、游戏、交互网页等。
    • 代码生成:GLM-4.5 在代码生成方面表现出色,能生成高质量的代码片段,支持多种编程语言。可以帮助开发者快速生成代码框架、修复代码错误、优化代码结构等。
    • 编程辅助:模型可以作为编程辅助工具,提供代码补全、代码生成建议、代码注释等功能,提高开发效率。
    • 内容生成:模型可以生成各种类型的内容,如文章、新闻报道、创意文案等,适用于内容创作、文案撰写等场景。
    • 学术研究:GLM-4.5 可以用于学术研究,帮助研究人员探索自然语言处理、人工智能等领域的前沿问题。
  • SkyRouter – AI模型聚合平台,提供低延迟用户体验

    SkyRouter是什么

    SkyRouter 是面向 AI 模型的高性能平台,为用户提供快速、高效且易于部署的 AI 解决方案。通过硬件和软件的端到端优化,实现了更快的生成速度和更高的吞吐量,显著提升了 AI 应用的性能表现。借助全球分布式网络,SkyRouter 能提供低延迟的用户体验,在高并发请求下能保持快速响应。平台采用简单易用的 API 设计,用户无需管理复杂的基础设施或硬件,可轻松运行领先的 AI 模型实现大规模部署。SkyRouter 提供透明的定价模式,无需前期投资,适合从个人开发者到大型企业的各类用户。

    SkyRouter

    SkyRouter的主要功能

    • 高性能优化:SkyRouter 通过硬件和软件的端到端优化,实现了更快的每秒生成令牌数(tokens per second)、更高的吞吐量以及更短的首次令牌生成时间。使 AI 模型能更高效地处理请求,提升整体性能。
    • 全球分布式网络:利用全球分布式网络,SkyRouter 提供低延迟的用户体验和快速响应。通过多节点冗余和故障转移机制,确保系统的高可用性和稳定性,在部分节点出现问题时能无缝切换,保障服务的连续性。
    • 简单易用的 API:SkyRouter 提供简单易用的 API,用户可以轻松运行领先的 AI 模型并实现大规模部署。用户无需管理复杂的基础设施或硬件,大大降低了使用门槛和运维成本。
    • 透明定价:SkyRouter 采用简单透明的定价模式,无需前期投资,用户可以根据实际使用情况准确预算,适合从个人开发者到大型企业的各类用户。
    • 快速扩展:SkyRouter 的基础设施能快速扩展,根据需求动态调整资源,保持低延迟。支持大规模并发请求,能满足高流量场景下的使用需求。
    • 高稳定性:SkyRouter 提供 99.9% 的系统正常运行时间,具备全面的健康监控和自动修复功能。用户可以放心使用,无需担心系统故障或停机问题。
    • SkyRouter Playground:SkyRouter 提供了一个 Playground 环境,供用户测试和探索不同的 AI 模型。需要注意,Playground 的使用需遵守相关条款,生成的输出内容未经过验证,不代表 SkyRouter 的观点。

    SkyRouter的官网地址

    • 官网地址:https://www.skyrouter.ai/

    SkyRouter的应用场景

    • AI Agent 协作平台:为 AI Agent 提供更智能、更快速的搜索能力,解决传统搜索结果碎片化、搜索入口不一致、服务器延迟等问题。
    • 垂直 AI Agents:作为上下文丰富的决策引擎,提供完整的检索结果、实时网络适应能力以及快速稳定的用户体验。
    • 物联网智能中心:通过自然语言命令实现设备间的语义协调,支持多模态搜索,确保低延迟和高可用性。
  • 灵动画布 – 可灵AI推出的AI创意工作台

    灵动画布是什么

    灵动画布是快手可灵AI在世界人工智能大会(WAIC)期间发布的全新创意工作台功能。为创作者提供了一个多人协同创作的平台,支持最多5人同时在一个画布内进行创作,实现素材共享、实时联动和一键导出,打造更流畅的创作闭环。特别适合团队协作项目,能有效激发创意,提升创作效率。通过“灵动画布”,创作者可以将零散的创意想法转化为文本、图像或视频节点,高效串联成完整的视觉作品。

    灵动画布的主要功能

    • 多人协同创作:支持最多5人协作,创作者可以在同一画布内进行实时创作,适合团队合作。团队成员可以共享素材,实时看到彼此的操作和修改。
    • 一站式创作流程:从创意构思到最终成品,创作者可以在一个平台上完成。
    • 一键导出功能:创作完成后,可以快速将作品导出为最终的视频或图像。
    • 无限可视化空间:创作者可以在画布上自由布局创意节点,包括文本、图像和视频。
    • 灵活的创意组织:通过节点连接,创作者可以将创意元素高效串联,形成完整的创作思路。
    • 智能创作辅助:借助AI技术,自动识别和理解创意元素,提供智能建议和优化。
    • 提升创作效率:AI可以帮助创作者快速生成初步内容,减少重复性工作。
    • 局部参考功能:精准素材引用,创作者可以指定参考图中的特定部分(如人物、场景、道具等),避免不必要的元素干扰。
    • 生成结果更可控:确保生成的内容更符合创作者的预期,提升创作的精准度。
    • 操作记录与回溯:记录创作过程中的每一步操作,方便创作者随时回溯和修改。
    • 版本管理:支持不同版本的保存和比较,确保创作的灵活性和可追溯性。

    如何使用灵动画布

    • 使用平台
      • 网页端:访问可灵AI的官网,注册登录后即可在线使用。
      • 手机端:下载可灵AI APP的Android或iOS版进行使用。
    • 使用步骤
      • 创建画布:登录后,进入“灵动画布”功能界面,创建一个新的画布。
      • 添加元素:在画布上添加创意节点,包括文本、图像或视频等元素。
      • 多人协作:邀请最多4名其他用户加入画布,共同创作。团队成员可以在同一画布内实时操作,共享素材、实时联动。
      • 智能辅助:利用AI的智能辅助功能,系统会根据添加的元素和描述,自动提供创作建议和优化方案。
      • 编辑与调整:根据需要对画布上的元素进行编辑和调整,如修改文本内容、调整图像位置等。
      • 生成作品:完成创作后,点击“一键导出”功能,将画布上的内容导出为最终的视频或图像作品。
    • 注意事项
      • 灵感值:首次注册用户会获赠一定数量的灵感值,可用于生成图片及视频,每日登录也会获赠灵感值,但获赠灵感值会在24小时内过期。
      • 素材管理:合理利用画布内的素材共享功能,确保团队成员都能高效获取所需素材。

    灵动画布的应用场景

    • 图像与视频生成:创作者可以在“灵动画布”上将零散的创意想法转化为文本、图像或视频节点,高效串联成完整的视觉作品。
    • 教学演示动画:教师可以用“灵动画布”快速制作教学演示动画,将复杂的知识点以更直观的方式呈现给学生。
    • 学生创意项目:学生可以用工具进行创意项目的协作创作,提升团队合作能力和创造力。
    • 产品展示视频:企业可以快速生成产品展示视频,用于广告、营销等场景,提升产品宣传效果。
    • 个人创意表达:个人创作者可以用“灵动画布”实现自己的创意想法,快速生成个性化的图像和视频。
  • Seko – 商汤科技推出的AI视频创作Agent,首个创编一体

    Seko是什么

    Seko是商汤科技推出的全球首个创编一体的AI短视频创作Agent。可以根据用户输入的创意灵感,通过大模型智能代理,完成从剧本创作、美术风格定位、配音配乐到分镜图绘制的成片全流程。用户只需用自然语言描述需求,无需复杂操作技巧,即可实现角色一致性控制和高质量视频生成。Seko适用于短视频创作、短剧制作、产品宣传和角色二创等多种场景,大幅降低创作门槛,让零基础用户也能轻松产出专业级短片。

    Seko

    Seko的主要功能

    • 视频策划与剧本创作:根据用户输入的创意灵感,自动生成完整的视频剧本。用户无需具备编剧知识,只需简单描述想法,Seko能构思出结构完整、逻辑清晰的剧本。
    • 自然语言编辑:支持用户用自然语言与Seko进行交互,轻松进行各种编辑操作。
    • 角色一致性控制:用户轻松导入或创建角色,Seko能确保角色在所有分镜和场景中的形象始终保持一致。
    • 多模态内容生成:Seko整合多种AI模型,根据用户的需求和视频风格,智能选择最适合的模型生成高质量的视频内容,包括画面、配音和配乐等。
    • 全流程智能Agent:从剧本创作到最终成片,Seko能实现全流程的智能代理,用户只需输入创意灵感,能一键生成结构完整、风格统一的短片,无需用户进行复杂的后期剪辑和拼接。
    •  推荐主体与灵感广场:Seko提供推荐主体和灵感广场的内容,帮助用户获取更多创意灵感。

    如何使用Seko

    • 访问平台:访问Seko官网 https://seko.sensetime.com ,注册和登录。
    • 输入创意:用自然语言描述视频创意,比如“一个科幻短片,主角是机器人,场景在太空”。
    • 生成内容:点击生成按钮,Seko自动创作剧本、分镜图,并生成视频。
    • 编辑调整:如果需要修改,直接用自然语言指令,如“把背景音乐换成轻快的”。
    • 导出成片:生成满意的内容后,导出视频并分享。

    Seko的应用场景

    • 短视频创作:通过自然语言输入创意,快速生成个性化短视频,适合零基础用户和自媒体创作者。
    • 短剧制作:AI自动生成剧本和分镜图,快速修改角色和场景,降低短剧制作门槛,适合独立创作者和影视团队。
    • 产品宣传:上传商品图,生成多版本产品介绍视频,提升产品吸引力,助力电商营销。
    • 角色二创:保持IP角色形象一致性,通过简单对话创作二创内容,激发粉丝创意,扩大IP影响力。
    • 知识科普:生成结构清晰、逻辑严谨的知识科普视频,快速制作高质量内容,提升知识传播效率。