Skip to main content

Author: Chimy

智谱CoCo – 智谱推出的首个企业级超级助手Agent

智谱CoCo是什么

智谱CoCo是智谱AICO平台推出的首个企业级超级助手Agent,具备交付导向、记忆机制和无缝嵌入三大企业级特性。智谱CoCo能全流程辅助工作,根据员工职能和需求主动服务,无缝接入企业资源,提供个性化服务。在政务场景中,支持解读政策、接入本地数据库定制方案、跟踪政策执行效果;在企业场景中,能无缝接入企业资源;在个人助理场景中,能记住每位员工的需求,主动提供个性化服务,一键编排工作流,让人类专注创新。

智谱coco

智谱CoCo的主要功能

  • 专属个人助手:为每位用户提供专属的个人助手服务,具备强大的思考规划能力,支持自主调度AICO站内多种资源,如工具、知识库、数据库等,具备个性化记忆能力,支持页面唤起一键完成工作流自动编排。
  • 多种对话方式
    • 快思考:对于日常聊天等对话,智谱CoCo将直接基于模型能力提供快速响应和回答,回答内容支持编辑、复制。
    • 慢思考:对于需要思考规划、工具调度的场景,智谱CoCo将自主进入慢思考模式。
    • 页面唤起:智谱CoCo支持基于自然语言对话收集用户意图,在意图收集完成后自动弹出页面跳转的选项,无缝衔接AICO站内的功能操作。
  • 配置功能
    • 记忆配置:智谱CoCo支持配置记忆,包括KV对形式的记忆变量和自动提取的长期记忆。
    • 资源配置:用户能为自己的CoCo配置资源,包括AICO站内工具、知识库、数据库。CoCo统一基于MCP协议对工具、资源进行调度。

如何使用智谱CoCo

  • 访问官网:智谱CoCo目前内测阶段,访问申请页面填写信息申请或使用 智谱CoCo邀请码 提前体验。
  • 进入“我的CoCo”:初次进入时,根据提示输入个人信息(如个人介绍、名片、文档等),完成记忆初始化。
  • 选择对话方式
    • 快思考:直接输入问题或指令,智谱CoCo快速给出回答。
    • 慢思考:对于复杂任务,智谱CoCo进入慢思考模式,进行规划和工具调度。
    • 页面唤起:当需要操作AICO站内页面时,智谱CoCo收集意图后自动跳转。
  • 进行对话操作
    • 规划介入:在慢思考模式下,10分钟内点击“修改规划”进行调整。
    • 查看记录:点击“查看工作记录”或工具调用内容的“查看”按钮,溯源工具调用过程。
    • 异步对话:等待时将对话折叠到悬浮球,随时查看状态。
    • 终止对话:如需结束对话,主动点击终止。
    • 对话后操作:对话结束后,支持编辑、复制、重新回答等。
  • 配置智谱CoCo
    • 记忆配置:设置记忆变量和长期记忆,增强个性化服务。
    • 资源配置:为智谱CoCo配置工具、知识库、数据库等资源,提升其功能。
  • 使用智谱CoCo的智能体应用:在“应用门户”中选择或创建智能体应用,基于对话框与智能体进行交互,完成特定任务。
  • 创建和管理智能体:根据需求创建智能体,配置基本信息、职责、模型、上下文历史等,并进行调试和发布。
  • 使用工具集:在“工具集”中选择或创建工具,如工作流、API插件等,用在扩展智谱CoCo的功能。

智谱CoCo的应用场景

  • 政务场景:解读政策文件、生成图文解读报告,结合本地政策与数据定制规划方案,跟踪执行效果提供建议。
  • 企业场景:无缝接入企业资源,提供智能客服支持,协助项目管理与任务跟踪,提升企业运营效率。
  • 个人助理:依据用户职能和习惯推送定制化服务,一键编排工作流自动化任务,管理个人知识库并提供快速检索。
  • 教育与培训:生成课程大纲和学习资料,辅助教学和学习,提高教育效率。
  • 金融与医疗:分析金融数据生成投资报告,提供健康咨询并生成健康报告,辅助金融投资和医疗决策。

Lillian – AI网红营销助手,快速创建高回复率邮件

Lillian是什么

Lillian是Scrumball推出的AI网红营销助手,专为解决网红营销中的效率和数据分析痛点而设计。Lillian基于集成最新的Claude 4技术,将网红数据分析时间从30分钟缩短至3秒,实现真正的实时洞察。Lillian提供自定义多维分析,包括受众画像、内容表现对比和竞品策略剖析,帮助品牌精准定位目标受众。Lillian支持智能内容创作、多平台统一管理和全流程自动化,助力品牌高效管理网红合作。Lillian的智能可视化报告功能,支持一键生成专业级分析报告,实时监控关键指标,为品牌提供全面的营销支持

Lillian

Lillian的主要功能

  • AI智能分析引擎:3秒内完成网红主页全面解析,深度评估受众质量、内容真实性与品牌契合度,支持TikTok、Instagram、YouTube等主流平台。
  • 精准匹配算法:覆盖60+国家的网红资源库,多维度智能筛选(行业、地域、互动率、受众构成等),精准筛选小体量高转化网红。
  • 智能可视化报告:AI自动生成专业级分析报告,自动识别最适合的图表类型,一键生成多维度可视化展示,支持动态仪表板实时监控关键指标。
  • 高效转化工具链:个性化开发信生成器,提高网红回复率,支持全球语言,突破全球市场沟通障碍。
  • 智能内容创作:根据网红风格自动生成匹配的合作brief,支持多语言内容创作,适配不同平台的内容优化。
  • 全流程自动化:智能匹配最适合的网红资源,自动生成个性化合作提案,实时监控执行效果和数据反馈,提高合作效率。

Lillian的官网地址

Lillian的应用场景

  • 新手品牌营销策略定制:为缺乏经验的品牌或营销人员提供从网红选择到合作落地的全流程解决方案,助力快速进入网红营销领域。
  • 网红深度洞察评估:帮助品牌深入了解网红的粉丝画像、偏好及消费能力,精准评估合作价值,确保投资回报合理。
  • 实时网红发现与沟通:实时抓取浏览中的网红信息,生成个性化开发信,提高与网红沟通的效率和成功率。
  • 基于大数据的精准匹配:用庞大的网红数据库,基于多维度筛选功能,为品牌精准匹配最适合的网红,提升合作效果。
  • 全球市场支持:支持多平台、多语言,覆盖60+国家的网红资源,助力品牌突破地域限制,拓展全球市场。

美亚影擎 – 美亚光电联合影擎推出的口腔影像智能体

美亚影擎是什么

美亚影擎是美亚光电联合影擎推出的口腔影像智能体。美亚影擎集成先进的成像技术和智能算法,为口腔医生提供高清晰度的口腔影像,帮助更精准地诊断口腔疾病。美亚影擎具备快速成像、智能分析等功能,能有效提升诊断效率和准确性。美亚影擎支持与医疗信息系统集成,方便医生进行病例管理和远程会诊,为口腔医疗领域带来智能化的解决方案。

MEYER ImaGine

美亚影擎的主要功能

  • 硬件智能
    • 智慧成像:快速、高分辨率成像,7秒完成扫描,连拍稳定。
    • 影像质检:自动分析影像质量,提供改进建议。
    • 自主监测与预警:实时监测设备状态,智能校准,预警异常。
  • 软件智能
    • 多模态影像解析:自动解析多种影像,快速生成诊断报告。
    • AI辅助诊断:针对不同场景提供AI诊断工具,提升诊断效率。
    • 患者管理:影像数据自动同步至患者管理系统,支持长期健康管理。
  • 互联智能
    • 设备协同:与多种数字化设备互联互通,打破数据孤岛。
    • 数据共享:实现全流程数据共享与协同,优化诊疗流程。
    • 持续升级:云端更新AI算法,保持技术领先,提升诊断精度。

美亚影擎的核心优势

  • 智能成像:高速、高分辨率成像,结合自动影像质检,确保采集高效且质量可靠。
  • 精准诊断:多模态影像解析与AI辅助诊断,快速生成专业报告,提升诊断效率和精准度。
  • 智能运维:实时监测与预警,保障设备稳定运行,精细化管理助力高效运维。
  • 持续进化:云端更新AI算法,智能物联,支持自主建模,确保设备始终领先。
  • 用户体验:操作简单,全流程智能化,显著提升工作效率,适合不同技术水平的医护人员。
  • 数据安全与隐私:数据加密,符合行业标准,确保患者信息安全和隐私保护。

美亚影擎的应用场景

  • 数据采集
    • 黄金视野:提供根管、正畸、种植、颌面外科等多临床场景的专属视野,满足口腔全科需求。
    • 智慧成像:最快7秒完成扫描,高分辨率与“去伪存真”技术,确保影像清晰。
    • 影像质检:自动分析成像效果,提供使用建议和拍摄改善方案,提升采集效率。
  • 临床诊疗
    • 多模态数据应用:自动解析CT、全景、正侧位等多种影像,快速输出辅助诊断建议。
    • AI辅助诊断:针对正畸、种植等场景,提供丰富的AI诊断工具,提升诊断效率。
    • 数字化患者管理:影像数据自动同步至患者管理系统,支持长期健康管理。
  • 设备运维
    • 自主监测与预警:设备自带“安全保镖”,实时监测、智能校准、预警异常。
    • 数字化设备管理:随时查看设备运行数据,生成报表,助力精细化管理。
  • 自主进化
    • 动态优化算法:云端实时更新AI算法,持续提升诊断精度。
    • 智能物联:与口内扫描仪、3D打印机等设备互联互通,实现全流程数据协同。
    • AI自主建模:用户自主采集样本、标注病灶,训练专属诊断模型,打造差异化竞争力。

dots.llm1 – 小红书hi lab开源的文本大模型

dots.llm1是什么

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练,用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,训练效率显著提升。基于精心设计的数据处理流程和两阶段监督微调,dots.llm1 在中英文通用场景、数学、代码等任务上表现出色,与 Qwen2.5-72B 等模型相比具有较强的竞争力。hi lab 团队开源了 Pretrain 阶段每 1T token 的 checkpoint 和 Instruct 模型,为大模型社区提供丰富的研究基础,助力推动大模型技术的发展。

dots.llm1

dots.llm1的主要功能

  • 多语言文本生成:支持生成高质量的中英文文本,适用多种场景,如写作辅助、内容创作等。
  • 复杂指令遵循:理解和执行复杂的指令,完成特定任务,如数据整理、代码生成等。
  • 知识问答:提供准确的知识问答服务,帮助用户获取所需信息。
  • 数学与代码推理:具备数学计算和代码推理能力,解决数学问题和编写简单代码。
  • 多轮对话:支持多轮对话,与用户进行自然流畅的交流,理解上下文并给出恰当回应。

dots.llm1的技术原理

  • Mixture of Experts (MoE) 架构:dots.llm1 是基于 Decoder-only Transformer 的 MoE 模型,用 6in128 Expert 配置,即每个 token 最多激活 6 个专家,共有 128 个专家。在 1420 亿参数中,每次前向传播只激活 140 亿参数,基于门控机制选择最相关的专家进行计算,提高计算效率。
  • 高效的数据处理和训练框架:用 11.2T 高质量 token 数据进行预训练,数据来源包括 Common Crawl 和自有 Spider 抓取的 web 数据,经过多轮清洗和过滤,确保数据质量。基于 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 实现,显著提升训练效率。
  • 两阶段监督微调:对全量数据进行两轮基础训练,基于采样、动态学习率调整等技术,初步释放模型潜力。针对数学与代码等特定领域,引入拒绝采样微调,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。
  • 学习率调度与超参数优化:基于 WSD 学习率调度方式,在学习率稳定阶段保持 3e-4 训练 10T token 语料,退火阶段分两个阶段训练 1.2T token 语料,逐步降低学习率。在训练过程中,调整 batch size 等超参数,确保训练过程稳定,避免出现 loss spike。

dots.llm1的项目地址

dots.llm1的应用场景

  • 内容创作:辅助写作文案、故事、新闻等,提供创意灵感与写作建议。
  • 教育学习:用在语言学习、编程教育和知识问答,辅助学习者提升能力。
  • 商业办公:构建智能客服,生成数据分析和市场调研报告,助力企业运营。
  • 编程开发:生成代码片段、代码文档,提供调试建议,提高开发效率。
  • 个人助理:管理日程、规划任务、整理信息,提升个人工作与生活效率。

AI周刊丨本周不可错过的AI行业动态(6.2-6.8)

本篇内容,带你快速了解本周AI热点资讯

weekly

 

01. AI大事件

 

比人类算法快70%!谷歌DeepMind用AI改进数据排序,登上Nature

Google DeepMind发布三大AI工具AlphaZero、MuZero、AlphaDev,可提高数据中心资源利用率、提升视频压缩效率、发现更快算法。

AlphaDev发现的新算法将短元素序列的排序效率提高70%,其新排序算法已发布到C++库中。

智源发布“悟界”系列大模型,解码物理世界交互新范式

第七届北京智源大会在中关村开幕。

北京智源人工智能研究院发布“悟界”系列大模型,涵盖多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能大脑RoboBrain 2. 0 以及微观生命模型OpenComplex2,构建全链条AI体系。

谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本,多项 AI 性能提升

谷歌更新了Gemini 2.5 Pro预览版模型至06-05版本,多项AI性能基准测试评分提升,放宽了Pro版用户的请求限制。

LMArena Elo评分上升24分,WebDevArena Elo评分上升35分至1443分,取得业界领先地位。

谷歌对模型进行了风格与结构优化,使其更具创意、回答格式更清晰,提升了交互体验。

上海AI实验室造出首个「通才」机器人大脑

上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架VeBrain,通过同时集成视觉感知、空间推理和机器人控制能力,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一样“看到-思考-行动”。

微软宣布 6000 人裁员计划,战略重心转向 AI 领域

微软公司今日宣布启动全球裁员计划,涉及约 6000 个岗位,主要集中在非技术类职能部门及部分子公司业务线。

微软与印度 Yotta Data Services 达成战略合作,协同印度AI使命计划参与者、政府机构、印度理工学院、初创企业及商业组织展开协作。

2025全球人工智能技术大会,近千名政产学研各界人士参会

中国人工智能学会主办的2025全球人工智能技术大会(GAITC2025)在杭州未来科技城开幕,本届大会以“交叉、融合、相生、共赢”为主题,全球200多位专家学者分享前沿报告,政产学研各界人士参会。

现场展示了区域在行业大模型落地应用的多项探索成果。

同时,杭州未来科技城启动了人工智能领域知识产权证券化融资专项支持行动,为AI创新企业开辟了全新的融资路径,预计在未来三年内围绕人工智能领域发行5支知识产权证券化产品,辐射企业超过60家,融资额超过5亿元。

Anthropic 宣布将在5天内切断 Windsurf 的所有API访问权限,联合创始人公布原因

Anthropic 宣布将内切断 Windsurf 的所有API访问权限,具体涉及的模型包括:Claude 3.5 Sonnet、Claude 3.7 Sonnet、Claude 3.7 Sonnet Thinking。

Anthropic 联合创始人兼首席科学官 Jared Kaplan 表示,公司之所以切断了 AI 编程助手 Windsurf 直接访问 Claude 模型的权限,主要原因在于市场传闻称 Windsurf 即将被 Anthropic 最大的竞争对手 OpenAI 收购。

 

02. 新产品发布

 

谷歌推出Veo3-Fast模型,价格比Veo 3便宜80%

谷歌推出Veo3-Fast模型,生成单个视频消耗20积分,是Veo3的五分之一。

Veo3-Fast生成的视频分辨率与Veo3一致,都是8秒720p,自动生成配音。

即梦图片3.0重磅更新,上线智能参考功能

即梦图片3.0模型更新智能参考功能,在原图一致性保持方面表现出色,精细到头发丝级。用户可通过简单提示语实现添加文字、修改文字、复杂设计等多种操作,生成高质量图片。目前功能灰度测试中,下周APP和Web端将全量上线。

图像编辑模型SeedEdit 3.0发布!更强保持力,更高可用率

字节跳动Seed团队发布图像编辑模型SeedEdit 3.0。模型基于文生图模型Seedream 3.0,采用多样化数据融合方法与特定奖励模型,显著提升图像主体、背景和细节保持能力,在人像编辑、背景更改等场景表现出色。

SeedEdit 3.0可处理4K图像,精准识别并移除无关人物及其影子,能将2D绘画转为真实模特,保持细节。

Cursor 1.0 发布:BugBot代码审查、Memories记忆、一键MCP安装等

Cursor 1.0 正式发布,新增 BugBot 自动代码审查工具,可自动审查 PRs 精准识别潜在问题,发现问题后能在 GitHub 的 PR 上评论提供修复提示。

推出测试版 Memories 功能,可按项目存储对话中的关键信息;支持一键安装 MCP 服务器并简化验证流程;聊天界面新增可视化支持,优化了设置和仪表盘界面;简化定价模式。

OpenAI 发布了两项 ChatGPT 新功能:「连接器」与「记录模式」

OpenAI为ChatGPT推出两项新功能:“连接器”与“记录模式”。

连接器可接入GitHub、Google Drive等平台,实现数据查询与整理,助力企业知识管理。

记录模式则能自动录音、记笔记、生成会议纪要,提升会议效率。

Manus推出文生视频功能,挑战OpenAI、Sora等竞争对手

Manus推出原生“文生视频”功能,目前仅对付费会员开放。

功能可将文本命令快速转换为有序视频故事。Manus 提供 Basic、Plus、Pro 三种会员服务,Pro 会员每月收费 199 美元。

Kimi推出全新AI学术研究助手:学术搜索

Kimi推出全新AI学术研究助手“学术搜索”,通过深度推理搜索、遵循用户指令、实时互动等,帮助用户在学术研究和论文写作中提高效率和质量。

用户可在官网注册登录后使用,适用于学术研究支持、技术问题解决等多种场景。

AI视频神器PixVerse国内版“拍我AI”正式上线

PixVerse国内版“拍我AI”正式上线,网页端和移动端同步推出,支持V4.5版本。

用户可通过访问拍我AI官网和各大应用商店下载体验。产品提供AI特效、首尾帧等创新功能,助力用户创作独特视频。

我国水利标准AI大模型正式发布

水利部国科司组织中国水科院自主研发的“水利标准AI大模型”正式发布并应用。

模型基于“SkyLIM”体系,采用“海量知识库+DeepSeek/Qwen双模型+标准服务”架构,集成1800余项水利水电标准、500余项法律法规等多源语料,具备水利标准查重比对、查询、编制、审查、评估等多维功能。

微软Bing推出AI视频生成工具Bing Video Creator,免费使用Sora模型

微软 Bing 团队推出 Bing Video Creator免费的 AI 视频生成工具,由 OpenAI 的 Sora 模型提供支持。

用户只需在 Bing 移动应用中输入详细的文字描述,可生成5秒长的竖屏视频(9:16格式)。

提供快速和标准两种生成速度,初始有10次免费快速生成机会,之后可使用积分兑换或转为标准速度。

ElevenLabs发布最新版TTS模型——Eleven v3

专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型——Eleven v3,狠狠拿捏情感控制。

Eleven v3不仅支持70多种语言(含中文),还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。

官方自信表示,这是“迄今为止最具表现力的文本转语音模型”。

 

其他动态

 

秘塔“今天学点啥”平台上线导出PPT功能。用户在视频讲解页面点击“导出PPT”按钮,可下载包含图文、语音讲解及逐字稿的完整PPT。

阶跃星辰To C产品“冒泡鸭”将停运,团队合并至对话产品“阶跃AI”。2025年以来,阶跃星辰将战略重心从C端转移到模型研发和ToB/G上,将ToB的Agent产品作为重点布局方向。

OpenAI宣布将ChatGPT的记忆功能向免费用户逐步开放。免费用户可体验轻量版记忆功能,支持短期对话连续性,付费用户可引用更久远的对话记录。

OpenAI为ChatGPT付费用户升级了语音功能,它的语音更加自然,语调更细腻,节奏更真实(包括停顿和强调),并且对某些情绪的表达更加精准,包括同理心、讽刺等。在翻译方面也更高效,可以持续进行多轮翻译。

克而瑞推出中国首个房地产垂直领域AI Agent——CRIC深度智。基于克而瑞20年行业经验与海量数据,结合多模态大模型技术,为房地产行业提供智能化解决方案。CRIC深度智联助力房地产从业者提升工作效率与决策质量,被誉为地产人的“第二大脑”。

银河通用发布全球首个产品级端到端具身FSD大模型TrackVLA。模型具备纯视觉环境感知、语言指令驱动、自主推理及零样本泛化能力,无需提前建图和遥操控制,可实现“听→看→懂→走”的闭环运动。有八大核心能力,包括自然语言理解与目标识别、复杂场景下准确跟随、目标丢失找回、陌生环境自主导航等。

 

03. 开源项目

 

阿里开源 Qwen3 新模型 EmbeddingReranker

Qwen3上新Embedding系列,专为文本表征、检索与排序任务设计,有0.6B/4B/8B三种尺寸,8B版本在MTEB多语言Leaderboard榜单中排名第一,性能超越一众商业API服务。还发布了排序模型Reranker系列。

快手开源“Auto Think”大模型,根据问题自动调节思考深度

快手 Kwaipilot 团队开源 KwaiCoder-AutoThink-preview 自动思考大模型。模型针对深度思考大模型“过度思考”问题,提出自动思考模型训练范式,融合“思考”和“非思考”能力,可根据问题难度自动切换思考形态。

开源 AI 设计 Agent —— Jaaz,Lovart 的免费平替项目

开源 AI 设计 Agent —— Jaaz,具备强大的 AI 设计能力,可智能生成设计提示,批量生成图像、海报、故事板等。

Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。

小米多模态大模型 MiMo-VL 开源,多方面领先 Qwen2.5-VL-7B

小米正式开源多模态大模型 MiMo-VL。在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,在 GUI Grounding 任务上比肩专用模型。

Google开源 Deep Research 框架

Google 开源了一个Deep Research 系统模板,详细演示了如何基于 Google Gemini 2.5 模型 和 LangGraph 框架构建研究增强型对话式AI,旨在通过动态生成搜索词、使用 Google 搜索查询网络、反思结果以识别知识空白,并迭代优化搜索,直到能够提供有充分支持的答案并附上引用。

谷歌 DeepMind 推出手语翻译模型:SignGemma,打破手语沟通壁垒

谷歌 DeepMind 推出 SignGemma,是强大的手语翻译模型,可将手语转化为口语文本,主要针对美国手语(ASL)和英语深度优化,为开源模型,将于今年晚些时候加入 Gemma 模型家族。DeepMind 希望借此打破手语使用者的沟通障碍,助力他们在工作、学习和社交中更顺畅地参与。

面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍

面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。

本次在开源社区核心推出 8B 和 0.5B 两个参数规模的版本,均在同级别模型对比中实现了最佳性能。

 

04. 投资融资

 

图灵奖得主Bengio再创业:启动资金就筹集了3000万美元

图灵奖得主、深度学习三巨头之一Yoshua Bengio再次创业,成立非营利组织LawZero,已筹集3000万美元启动资金。

LawZero构建“设计即安全”的AI系统,不做Agent,而是监督Agent,以理解学习世界为核心目标,提供可验证的真实答案。

AMD 收购 AI 软件优化初创公司 Brium

AMD 宣布收购 Brium,Brium 专注于开发可适配多种硬件架构的机器学习推理技术,能让原本为英伟达等特定硬件设计的 AI 模型在其他品牌平台上有效运行。AMD 表示此举在推动“高性能、开放的 AI 软件生态建设”,支持开发者创新。

 

05. 观点洞察

 

Sam Altman建议企业领导者:直接开始,别等下一个版本

在本周旧金山举办的 Snowflake Summit 2025 上,OpenAI CEO Sam Altman 开门见山地指出,对于2025年仍在观望的企业领导者,他的建议只有一句:直接开始,别等下一个版本。

他表示,企业若总是等待更好的模型、更成熟的方案,反而会错过真正的先发优势。真正取得突破的,是那些愿意及早下注、小步快跑的团队。科技在飞速演进,胜负取决于谁拥有快速试错、快速学习的能力。

Snowflake CEO Sridhar Ramaswamy 对此高度认同。他认为,好奇心是今天企业中最被忽视的稀缺能力。很多过去理所当然的工作方式,如今都需要被质疑。

原文链接:AI周刊丨本周不可错过的AI行业动态(6.2-6.8)

建筑学长 – AI建筑绘图创作平台,一键生成效果图

建筑学长是什么

建筑学长是专为建筑师及相关专业人员打造的资源库和AI绘图创作平台。提供了一系列强大的AI工具,如AI绘图创作、AI图转三维模型、AI图转视频高级版、AI消除工具、AI天气季节转换工具、AI画风转换、AI室内风格转换等,可以帮助用户快速生成和优化设计作品,提升工作效率。建筑学长提供丰富的免费资源,包括SU模型库、案例文本、CAD图纸、PS素材等,多种设计软件的插件下载,如AutoCAD、Illustrator、SketchUP、Photoshop、Enscape、Lumion、Vray、Rhino等。

建筑学长

建筑学长的主要功能

  • 一键生成效果图:用户可以通过现场拍照或上传本地草图、模型截图及手绘线稿,基于AI技术快速生成建筑、室内、景观和规划效果图,支持旧房改造和室内装修方案一键生成。
  • 多种AI绘图工具:提供AI室内装修、AI旧房改造、AI局部重绘、AI背景更换、AI画风转换、AI风格模仿、AI线稿上色等多种工具,满足不同设计需求。
  • 海量免费资源:拥有超过64,398份设计资源,涵盖设计案例、CAD图纸、SU模型、PS素材等,全部免费下载。
  • 案例文本与配套资料:提供案例文本、SU模型、CAD图纸配套资料、排版PPT以及各类软件的模型等,满足设计师多样化的设计需求。
  • AI问答助手:可以查规范、查设计手法、分析建筑案例等,成为24小时的专属建筑AI助手。
  • 智能修改工具:利用AI技术,快速修改CAD图纸和SU模型,精准高效,节省大量时间。
  • 其他实用工具:提供AI智能抠图、AI消除工具、AI智能放大等实用的智能工具,提高设计效率。
  • 专业教程:提供丰富的图文教程和视频教程,帮助设计师学习并掌握更多技能。
  • 建聊社区:打造了一个专属的交流社区,设计师可以在其中分享作品、吐槽行业、寻求帮助,还能交流有关建筑的任何事情。
  • 项目管理:帮助用户管理建筑项目,跟踪进度和任务。
  • 团队协作:支持多人协作,团队成员可共享文件和交流意见。
  • 建筑资讯:实时更新建筑行业新闻,提供经典建筑案例分析和解读,帮助用户学习优秀设计。

如何使用建筑学长

  • 登录平台:访问建筑学长的官方网站,注册或登录账户。
  • 安装插件:在官网下载并安装AI渲染SU插件。
  • AI绘图创作
    • 上传底图:上传设计草图、现场照片或模型截图。
    • 设置参数:选择设计类型、风格,输入描述词,设置其他参数。
    • 生成效果图:点击生成,AI快速生成效果图。
  • AI工具应用
    • 选择工具:根据需求选择AI室内装修、旧房改造、图转三维模型等工具。
    • 上传素材:上传相应图片或模型。
    • AI处理:AI根据输入信息处理并生成结果。
  • AI改图智能体
    • 上传效果图:上传需要修改的效果图。
    • 输入指令:输入具体修改指令。
    • AI修改:AI根据指令修改效果图。
  • 浏览资源库:在官网资源库中查找所需资源。
  • 下载资源:选择并下载免费的SU模型、CAD图纸、PS素材等。

建筑学长的应用场景

  • 快速生成概念图:设计师可以通过上传草图或现场照片,使用AI绘图功能快速生成建筑概念图,探索不同的设计方案。
  • 室内风格转换:上传室内毛坯照片,使用AI室内风格转换工具,快速生成不同风格的室内设计方案。
  • 城市风貌模拟:上传城市规划草图或现场照片,用AI绘图功能快速生成城市风貌模拟图,探索不同的规划方案。
  • 学生学习:学生可以通过建筑学长的资源库和教程,学习建筑设计、室内设计、景观设计等专业知识,提升技能。

Style AI – AI图像处理工具,支持图像、视频生成与风格转换

Style AI是什么

Style AI 是 AI 图像视频生成与编辑工具,支持将照片快速转换为各种艺术风格,如古典绘画或现代数字艺术,保留图像的核心元素。用户基于自然语言指令轻松编辑图像,描述修改需求,Style AI 支持智能实现。工具支持无缝合并多张照片,生成自然的集体照或新场景,支持从文字描述直接生成图像和视频。Style AI 提供高效、精准的解决方案,帮助用户快速实现创意。

Style AI

Style AI的主要功能

  • 图像风格转换:将照片转换为任意艺术风格,如古典油画、现代数字艺术等,保留图像的核心元素。
  • 自然语言图像编辑:基于简单文字指令编辑图像,用户描述需求,AI 智能修改。
  • 无缝照片合并:自然合并多张照片,调整光线、阴影和透视,适合创建虚拟集体照或合成新场景。
  • 文本生成图像:根据文字描述生成高质量图像,适用快速可视化创意或设计内容。
  • 视频生成与转换:支持将视频转换为不同艺术风格,或从图像、文字生成视频,保持流畅的运动效果。

Style AI的官网地址

Style AI的产品定价

  • Free(免费):每月0元,每月30个积分,输出带有水印,未登录状态下最多处理2个任务,已登录状态下最多处理3个任务。
  • Mini会员:每月42.56元,每月200个积分,访问所有基本功能,无限图像历史记录,商业用途,无水印输出,最多同时处理6个任务。
  • Plus会员:每月90.30元,每月500个积分,访问所有基本功能,无限图像历史记录,商业用途,无水印输出,最多同时处理6个任务。
  • Pro会员:每月146.30元(年付1755.60元,节省24%,每月950个积分,访问所有基本功能,无限图像历史记录,商业用途,无水印输出,最多同时处理6个任务。

Style AI的应用场景

  • 艺术创作:将照片转换为各种艺术风格,快速生成艺术作品。
  • 创意设计:基于文字描述生成图像,辅助设计概念的可视化。
  • 视频制作:转换视频风格或从图片/文字生成视频,提升创作效率。
  • 照片编辑:用自然语言指令轻松调整照片内容,无需复杂操作。
  • 虚拟场景合成:合并多张照片,创建虚拟集体照或合成新场景。

GitDiagram – 开源AI可视化工具,自动将GitHub仓库转为交互式系统架构图

GitDiagram是什么

GitDiagram是开源工具,支持将GitHub仓库自动转换为交互式系统架构图,帮助开发者快速理解项目结构。工具基于AI技术分析代码库,生成包含组件关系的图表,点击图表组件能跳转到对应源文件。支持私有仓库访问、自定义图表样式,能将图表导出为PNG图片或Mermaid.js代码。GitDiagram适用新项目上手、团队协作、文档编写等多种场景,极大提升代码理解和团队沟通效率。

GitDiagram

GitDiagram的主要功能

  • 智能转换:将任意GitHub仓库快速转换为系统设计图,展示项目的总体结构和组件关系。
  • 交互式组件:图表中的每个组件都能点击,支持直接跳转到对应的源文件或目录。
  • 私有仓库支持:基于GitHub Token访问私有代码库,支持私有项目的架构图生成。
  • 自定义图表:用户根据需求定制图表的样式和内容,满足不同的可视化需求。
  • URL捷径:将GitHub URL中的“hub”替换为“diagram”,能直接访问仓库的架构图。
  • 图表导出:生成的图表支持导出为PNG图片,或直接复制为Mermaid.js代码,方便在其他地方使用。
  • 智能缓存:系统自动缓存已经生成的图表,避免重复生成相同代码库的图表,提高效率。
  • 多语言支持:支持多种编程语言的代码库,能识别不同语言的文件结构和依赖关系。

GitDiagram的官网地址

GitDiagram的应用场景

  • 新项目上手:帮助开发者快速理解陌生代码库的整体架构,减少学习成本。
  • 团队协作:向团队成员清晰展示项目结构,促进沟通,提高协作效率。
  • 文档编写:生成可视化图表用于技术文档,让文档更加直观易懂。
  • 代码审查:基于整体结构图辅助代码审查过程,帮助审查者快速定位关键部分。
  • 教学培训:为新人讲解系统架构设计理念,帮助用户更快地融入项目。

Vocloner – 免费在线AI语音克隆工具,无需语音训练

Vocloner是什么

Vocloner是基于人工智能的在线语音克隆工具,支持用户通过上传目标语音音频文件并输入文本,快速将文本合成为目标语音的克隆声音,无需进行语音网络训练。Vocloner支持多语言,提供经典版本和更新版本两种克隆选项,经典版本使用Coqui的TTS技术,更新版本采用Coqui AI的开源XTTS工具,增强了克隆效果并支持多语言。

Vocloner

Vocloner的主要功能

  • 即时语音克隆:用户只需上传目标语音的音频文件并输入所需语音的文本,Vocloner能在几秒钟内将文本合成为克隆的语音,无需进行语音网络的训练。免费使用Vocloner,每日限制为1000个字符。
  • 模型创建与保存:用户可以创建个性化的语音模型并保存,方便未来使用。
  • 多语言支持:Vocloner提供多语言版本,支持18种语言,用户可以使用单个语音无缝地在多种语言之间切换,无需创建单独的模型。
  • 两种克隆版本:提供经典版本和更新版本两种语音克隆选项。经典版本主要使用Coqui的TTS技术,更新版本采用Coqui AI的开源XTTS工具,后者增强了克隆过程并支持多种语言。
  • 中文方言支持:对多种中文方言口音配音的支持,包括粤语、四川话、上海话等。
  • 不同说话风格:可以使用各种不同语气来配音,比如神秘、凶猛、恐惧、好奇、伤心、开心、惊讶等。
  • 角色模仿:实现了模仿一些特定角色来进行配音的功能,像机器人、忧郁的诗人、威严的古代将军等。

Vocloner的官网地址

Vocloner的应用场景

  • 内容创作:内容创作者可以用工具为视频添加不同声音的解说,无需雇用多个配音演员。
  • 无障碍支持:可用于针对言语障碍者的屏幕阅读器或通信设备等辅助技术。
  • 语言学习:语言学习者可以借助克隆母语者的声音来练习发音。
  • 个性化数字助手:开发者可以为聊天机器人或虚拟助手赋予独特的个性。

MiniCPM 4.0 – 面壁智能开源极致高效的端侧大模型

MiniCPM 4.0是什么

MiniCPM 4.0 是面壁智能推出的极致高效的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构,能高效处理长文本任务;0.5B 版本以低计算资源消耗和高性能著称。自研 CPM.cu 推理框架在极限场景下可实现最高 220 倍提速,常规情况下也能达到 5 倍的速度提升。MiniCPM 4.0 支持在 vLLM、SGLang、LlamaFactory 等开源框架部署,已适配 Intel、高通、MTK、华为昇腾等主流芯片。

MiniCPM 4.0

MiniCPM 4.0开源模型合集

MiniCPM4-8B:MiniCPM4的旗舰模型,拥有80亿参数,在8T tokens上训练。

MiniCPM4-0.5B:MiniCPM4的小型版本,拥有0.5亿参数,在1T tokens上训练。

MiniCPM4-8B-Eagle-FRSpec:用于FRSpec的Eagle头,加速MiniCPM4-8B的推测性推理。

MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu:使用QAT训练的FRSpec的Eagle头,高效地结合推测和量化,实现MiniCPM4-8B的超加速。

MiniCPM4-8B-Eagle-vLLM: vLLM格式的Eagle头,加速MiniCPM4-8B的推测性推理。

MiniCPM4-8B-marlin-Eagle-vLLM: 量化的vLLM格式Eagle头,加速MiniCPM4-8B的推测性推理。

BitCPM4-0.5B:应用极值三进制量化于MiniCPM4-0.5B,将模型参数压缩为三进制值,实现了90%的位宽减少。

BitCPM4-1B:应用极值三进制量化于MiniCPM3-1B,将模型参数压缩为三进制值,实现了90%的位宽减少。

MiniCPM4-Survey: 基于MiniCPM4-8B,接受用户的查询作为输入,并自动生成可信的长篇调查论文。

MiniCPM4-MCP:基于MiniCPM4-8B,接受用户的查询及可用的MCP工具作为输入,并自动调用相关的MCP工具以满足用户需求。

MiniCPM 4.0的主要功能

  • 高效双频换挡机制:MiniCPM 4.0-8B 版本可根据任务特征自动切换注意力模式。处理长文本时启用稀疏注意力,降低计算复杂度;处理短文本时切换至稠密注意力,确保精度。
  • 极致推理速度提升:通过自研 CPM.cu 推理框架,在极限场景下实现最高 220 倍提速,常规场景下也能达到 5 倍的速度提升。
  • 模型瘦身与高效部署:采用创新的稀疏架构和极致低位宽量化技术,实现模型体积缩小 90%,同时保持卓越性能。支持在 vLLM、SGLang、LlamaFactory 等开源框架部署。
  • 端侧推理优化:内置自研 CPM.cu 极速端侧推理框架,从投机采样创新、模型压缩量化创新、端侧部署框架创新几方面,带来 90% 的模型瘦身和速度提升。
  • 多平台适配:已适配 Intel、高通、MTK、华为昇腾等主流芯片,可在多种端侧设备上流畅运行。
  • 多种版本选择:提供 8B 和 0.5B 两种参数规模的版本,满足不同场景需求。

MiniCPM 4.0的技术原理

  • 稀疏注意力机制:MiniCPM 4.0-8B 采用创新的可训练稀疏注意力机制(InfLLM v2),在处理长文本时,每个词元(token)仅需与不到 5% 的其他词元进行相关性计算,极大地降低了长文本处理的计算开销。
  • 高效双频换挡:根据任务特征自动切换注意力模式。处理长文本时启用稀疏注意力以降低计算复杂度,处理短文本时切换至稠密注意力以确保精度。
  • 模型风洞 2.0:引入先进的下游任务 Scaling 预测方法,能更精准地搜索并确定最佳的模型训练配置。
  • BitCPM:实现了极致的三值量化技术,将模型参数的位宽压缩超过 90%,在大幅“瘦身”的同时保持了卓越性能。
  • 高效训练工程:全面采用 FP8 低精度计算技术,结合多词元预测(Multi-token Prediction)训练策略,进一步提升训练效率。
  • 自研推理框架:MiniCPM 4.0 内置自研 CPM.cu 极速端侧推理框架,从投机采样创新、模型压缩量化创新、端侧部署框架创新几方面,带来 90% 的模型瘦身和速度提升。

MiniCPM 4.0的项目地址

MiniCPM 4.0的应用场景

  • 智能辅导系统:MiniCPM 4.0 可以作为智能辅导系统的核心,通过自然语言处理技术,理解学生的问题并提供详细的解答和解释,帮助学生更好地理解和掌握知识。
  • 病例分析与诊断辅助:MiniCPM 4.0 可以辅助医生进行病例分析,通过自然语言处理技术理解病历内容,为医生提供诊断建议和参考信息,提高诊断的准确性和效率。
  • 医学文献检索:帮助医生和研究人员快速检索相关的医学文献和研究成果,提供精准的文献推荐和摘要,节省时间和精力。
  • 智能客服:作为金融客服的核心,快速准确地回答客户的咨询问题,提供个性化的服务和解决方案,提高客户满意度。
  • 游戏剧情生成:MiniCPM 4.0 可以根据游戏设定和玩家行为,自动生成丰富多样的游戏剧情和任务,增加游戏的趣味性和可玩性。