Author: Chimy

  • xbench – 红杉中国推出全新的AI基准测试工具

    xbench是什么

    xbench是红杉中国推出全新的AI基准测试工具。基于双轨评估体系,构建多维度测评数据集,追踪模型的理论能力上限与Agent的实际落地价值。xbench用长青评估机制,动态更新测试内容,确保时效性和相关性。xbench首期推出的两个核心评估集分别是科学问题解答测评集和中文互联网深度搜索测评集。xbench致力于为AI技术突破与产品迭代提供科学、长效的评测指引,推动AI系统在真实场景中的效用价值提升。

    xbench

    xbench的主要功能

    • 双轨评估:一方面评估AI系统的能力上限与技术边界,另一方面量化AI系统在真实场景的效用价值。
    • 长青评估机制:动态更新测试内容,确保评估的时效性和相关性,避免题目泄露导致过拟合和评估失效,追踪模型能力演进,捕捉Agent产品迭代的关键突破。
    • 核心评估集:推出xbench-ScienceQA(测试学科知识和推理能力)和xbench-DeepSearch(考察深度搜索能力)两个核心评估集,按季度或每月更新题目。
    • 垂直领域智能体评测:构建与专家行为对齐的任务、执行环境与验证方式,如招聘和营销领域,标注任务经济价值,预设技术-市场契合点目标。
    • 实时更新与LeaderBoard:实时更新评测结果,展示不同Agent产品在各评估集上的表现,为开发者和研究者提供参考。

    xbench的官网地址

    xbench的应用场景

    • 模型能力评估:帮助基础模型和Agent的开发者评估产品的理论能力上限与技术边界,挖掘模型的智能边界,为技术迭代提供指引。
    • 真实效用量化:量化AI系统在真实场景中的效用价值,如营销、招聘等领域的实际应用价值,助力企业评估AI工具的商业潜力。
    • 产品迭代指导:追踪Agent产品的关键突破,为产品的持续迭代和优化提供实时反馈和方向指引。
    • 行业标准建立:与行业专家合作构建特定行业的动态评估集,推动Agent在更多垂直领域的落地应用,为各行业建立AI应用的评估标准。
    • 技术市场匹配:分析Agent的成本效益,预测技术市场契合点,为市场和开发者提供前瞻性指导,加速AI技术的商业化进程。
  • Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型

    Pixel Reasoner是什么

    Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。

    Pixel Reasoner

    Pixel Reasoner的主要功能

    • 直接视觉操作:直接对视觉输入(如图像和视频)进行操作,例如放大图像区域(zoom-in)、选择视频帧(select-frame)等,更细致地捕捉视觉细节。
    • 增强视觉理解:识别和理解图像中的细小物体、微妙的空间关系、嵌入的小文本及视频中的细微动作。
    • 多模态推理:更全面地处理复杂的视觉语言任务,如视觉问答(VQA)、视频理解等。
    • 自适应推理:根据任务需求自适应地决定是否使用视觉操作,在不同类型的视觉任务中实现更优的推理效果。

    Pixel Reasoner的技术原理

    • 指令调优(Instruction Tuning)
      • 收集种子数据:选择具有丰富视觉信息的图像和视频数据集,如SA1B、FineWeb和STARQA。
      • 定位参考视觉线索:基于数据集的标注或使用GPT-4o生成的标注,确定与问题相关的视觉线索(如边界框或帧索引)。
      • 合成专家轨迹:用模板化方法合成推理轨迹,确保模型在推理过程中正确使用视觉操作。例如,先对整个视觉输入进行分析,再触发特定的视觉操作提取细粒度的视觉细节,最后结合细节得出最终答案。
    • 训练:用监督学习(Supervised Fine-Tuning, SFT)对模型进行训练,让模型熟悉视觉操作。基于插入错误的视觉操作并合成自我修正轨迹,增强模型对意外视觉结果的反应能力。
    • 好奇心驱动的强化学习:设计一个包含好奇心奖励和效率惩罚的奖励函数,激励模型探索像素空间推理。
    • 训练过程:用强化学习(RL)对模型进行训练,基于好奇心奖励激励模型探索像素空间推理,用效率惩罚限制视觉操作的数量。基于近策略RL方法,每512个查询更新一次行为策略和改进策略。在训练过程中,模型逐渐学会在适当的查询中用像素空间推理,在视觉操作失败时进行自我修正。

    Pixel Reasoner的项目地址

    Pixel Reasoner的应用场景

    • 研究人员和开发者:研究人员和开发者进行模型训练和优化,特别是在视觉问答、视频分析等任务中,提升模型的性能和准确性。
    • 教育工作者:教育工作者用在辅助教学,用直观的视觉展示和解释,帮助学生更好地理解和掌握复杂的概念。
    • 工业质检人员:质检人员进行自动化视觉检查,快速识别产品外观缺陷,提高质量控制的效率和准确性。
    • 内容创作者:创作者进行更精准的视觉内容分析和编辑,提升内容的质量和吸引力。
  • Chance AI – AI视觉搜索引擎,一键获取产品的深度信息

    Chance AI是什么

    Chance AI 是AI视觉搜索引擎,基于视觉智能帮助用户自然地理解世界。用户用摄像头识别各种对象,如艺术品、产品设计、建筑、宠物、植物、食品等,获取背后的故事、文化背景和深层含义。用户只需点击一下,能获取深度信息,无需输入提示词。Chance AI 适合旅行者、创意人士、学生和任何喜欢探索的人。

    Chance AI

    Chance AI的主要功能

    • 点拍即用:摄像头对准目标物体,点击一次完成搜索,无需输入提示词,快速获取识别结果。
    • 视觉推理:基于多智能体视觉语言模型,将画面中的对象与文化、历史等背景信息联系起来,提供深度解释。
    • 即时洞察:提供可读、可分享或保存的上下文信息,帮助用户快速理解所见之物。
    • 一键分享:支持用户将识别结果直接发布到社交媒体或保存到自己的画廊中,方便分享和回顾。
    • 无算法的信息发现:提供定制化的新闻和信息,包括展览、本地活动等,不受个性化算法影响,内容更客观全面。

    Chance AI的官网地址

    Chance AI的应用场景

    • 旅行探索:帮助旅行者快速识别地标、建筑和街头艺术,了解其背后的历史和文化背景,让旅行更加有趣和富有教育意义。
    • 创意设计:为设计师和创意工作者提供设计灵感和参考,帮助用户快速获取相关领域的知识和案例,激发创意。
    • 学习研究:学生将好奇心转化为快速事实,辅助学习和研究,例如识别植物、动物、艺术作品等,获取相关知识。
    • 日常生活:在日常生活中,用户随时识别身边的物品、食品等,了解其相关信息,如卡路里含量、产品设计背景等,增加对世界的了解。
    • 社交分享:用户将识别结果一键分享到社交媒体或保存到画廊,方便与他人分享有趣的发现,丰富社交互动内容。
  • Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

    Vid2World是什么

    Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。

    Vid2World

    Vid2World的主要功能

    • 高保真视频生成:生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
    • 动作条件化:根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。
    • 自回归生成:用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。
    • 因果推理:模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。
    • 支持下游任务:支持辅助机器人操作、游戏模拟等交互式任务。

    Vid2World的技术原理

    • 视频扩散因果化:视频扩散模型(VDM)对整个视频序列同时进行去噪,全序列的生成方式不适合因果推演,因为未来的帧会影响过去的帧。为实现因果生成,Vid2World对预训练的VDM进行修改,时间注意力层基于应用因果掩码,限制注意力机制只能访问过去的帧,实现因果性。时间卷积层推出混合权重转移方案,保留预训练权重的同时,让模型适应因果卷积层。基于Diffusion Forcing技术,在训练时为每一帧独立采样噪声水平,让模型学习到不同帧之间的噪声水平组合,支持自回归生成。
    • 因果动作引导:为让模型响应细粒度的动作,Vid2World引入因果动作引导机制。每个动作基于轻量级的多层感知机(MLP)进行编码,添加到对应的帧中。在训练时,用固定概率独立丢弃每个动作,迫使模型同时学习条件和非条件得分函数。在测试时,基于线性组合条件得分函数和非条件得分函数,调整对动作变化的响应性。基于独立丢弃动作,模型能学习到动作对生成结果的影响,在自回归生成过程中更好地响应动作输入。

    Vid2World的项目地址

    Vid2World的应用场景

    • 机器人操作:生成高保真预测,辅助机器人任务规划。
    • 游戏模拟:生成与真实游戏高度一致的视频,助力神经游戏引擎开发。
    • 策略评估:模拟不同策略执行结果,助力策略优化。
    • 视频预测:基于已有帧和动作序列预测后续帧,用在视频补全等。
    • 虚拟环境构建:生成响应动作的虚拟场景,提升虚拟现实交互性。
  • SurfSense – 开源AI研究助手,个人知识库与全球数据源无缝链接

    SurfSense是什么

    SurfSense 是开源的 AI 研究工具,类似于 NotebookLMPerplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitHub 等)集成,支持用户上传多种格式的文件,将内容整合到个人知识库中。SurfSense 提供强大的搜索功能和自然语言交互能力,用户能快速查找和引用保存的内容。

    SurfSense

    SurfSense的主要功能

    • 强大搜索:结合语义和全文搜索,快速查找知识库中的内容。
    • 多格式支持:支持上传多种文件(如文档、图片等)。
    • 自然语言交互:用自然语言提问,获取引用答案。
    • 外部数据源集成:连接搜索引擎、Slack、Notion、YouTube 等。
    • 隐私与本地部署:支持本地 LLM,确保数据隐私,可自托管。
    • 浏览器扩展:保存网页内容,尤其是需要登录的页面。
    • 文档管理:方便管理上传的文件,支持多文档交互。

    SurfSense的技术原理

    • RAG:基于向量嵌入和全文检索技术,快速从知识库中检索与用户查询最相关的文档片段。将检索到的片段作为上下文输入到 LLM 中,生成自然语言回答。结合语义搜索(基于向量嵌入)和全文搜索(基于关键词匹配),用 Reciprocal Rank Fusion(RRF)优化搜索结果的相关性。
    • 向量嵌入与索引:基于 pgvector(PostgreSQL 的向量扩展)进行高效的向量相似性操作。文档内容被嵌入到向量空间中,便于快速检索语义相关的片段。
    • 分层索引:基于分层索引结构(2 层 RAG 架构),提高检索效率和准确性。第一层索引用在快速筛选相关文档,第二层索引用在进一步细化检索结果。
    • 后端技术栈:用 FastAPI 构建现代化的 API 框架,支持高性能的 Web 服务。数据库用 PostgreSQL,结合 pgvector 提供向量搜索能力。基于 LangChain 和 LiteLLM 进行 LLM 集成,支持多种语言模型。
    • 前端技术栈:用 Next.js 和 React 构建用户界面,提供流畅的交互体验。基于 Tailwind CSS 和 Framer Motion 提供定制化的 UI 设计和动画效果。
    • 浏览器扩展:用 Plasmo 构建浏览器扩展,支持跨浏览器功能,用户能方便地保存网页内容。

    SurfSense的项目地址

    SurfSense的应用场景

    • 个人知识管理:整理笔记、文档等,快速检索知识库内容。
    • 学术研究:辅助文献检索、资料整理,生成研究报告。
    • 企业知识共享:上传内部资料,促进团队协作与知识流通。
    • 内容创作:收集创作灵感,整理参考资料,辅助写作。
    • 信息收集:保存网页内容,整合外部信息,提升信息整理效率。
  • VideoTutor – AI教育助手,一句话生成K12定制动画教学视频

    VideoTutor是什么

    VideoTutor是AI教育辅助工具,生成动画讲解视频,帮助学生理解知识点和解题过程。VideoTutor支持SAT数学、AP数学、STEM知识和语言学习等学科领域。用户用文字、截图或语音输入问题,系统自动生成包含动画和语音说明的讲解视频。工具提供个性化学习内容,支持24小时在线学习,适合家长、学生和教师使用,在SAT数学备考方面表现出色。

    VideoTutor

    VideoTutor的主要功能

    • AI视频生成:输入问题后,系统自动生成带有语音讲解和动画演示的学习视频。
    • 个性化解释:视频内容可根据用户需求定制,提升学习针对性。
    • 24小时可用:随时随地获取学习帮助,无需等待真人老师。
    • 多主题覆盖:支持SAT/AP数学、科学基础、语言技能等。

    如何使用VideoTutor

    • 访问网站:访问VideoTutor的官方网站,按提示完成注册和登录。
    • 文字输入:在输入框中直接输入问题,例如“如何求解二次函数的顶点?”。
    • 上传截图:如果有具体的题目或图表,上传相关的截图。
    • 语音输入:直接用语音描述问题,适合不方便打字的情况。
    • 等待生成视频:提交问题后,系统自动处理生成一个讲解视频。
    • 观看视频:观看包含动画和语音讲解的视频。
    • 保存或分享视频:将视频保存到个人账户中,或分享给其他需要的人。

    VideoTutor的应用场景

    • 学生自主学习:学生遇到难题时,输入问题获取讲解视频,自主学习,提升理解能力。
    • 家长辅导:家长辅导孩子时,借助VideoTutor生成的视频,减轻辅导压力,帮助孩子更好地理解知识。
    • 教师教学辅助:教师用VideoTutor生成的视频丰富教学内容,提供多样化的学习资源,辅助课堂教学。
    • 考试备考:为SAT、AP等考试备考的学生提供专业的备考视频,包括考试策略、真题解析等,助力高效备考。
    • 语言学习:生成词汇、语法和口语的讲解视频,帮助学生提高语言能力,适合视觉辅助学习者。
  • AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

    本篇内容,带你快速了解本周AI热点资讯

     

    01. AI大事件

     

    Google I/O 2025 开发者大会,从研究到现实,AI技术全面升级

    Google I/O 2025 大会宣布多项进展。

    • Gemini 2.5 Pro模型在LMArena排行榜首位,性能卓越。
    • 推出Google Beam视频通信平台,提供沉浸式3D体验。
    • Gemini Live整合Project Astra功能,Agent Mode助力任务执行。
    • 个性化智能回复将推出,AI Mode重塑搜索体验。
    • 全新Imagen 4生成细节超逼真。
    • Veo 3首次实现音视频融合。凭借其逼真的场景、可控的角色一致性、声音合成及多样的编辑功能,在AI视频生成领域树立了新的标杆。
     

    Anthropic发布史上最强AI模型Claude 4

    Anthropic发布Claude 4模型 (包括Claude Opus 4和Claude Sonnet 4)。

    该模型被誉为“史上最强AI模型”及“世界最佳编程模型”,具备分析数千数据源长时间执行任务编写接近人类水平内容复杂操作的能力。

    它采用了全新的混合推理架构,能在SWE-Bench Verified测试中取得72.5%成绩,Terminal-bench测试中取得43.2%成绩,并具备长达7小时的持续工作能力。

     

    OpenAI最大收购,65亿美元拿下苹果前高管Jony Ive公司io

    OpenAI宣布以约65亿美元收购由CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io。

    这笔收购将是OpenAI史上最大一笔交易,预计夏季完成,需监管部门批准。

    收购后,OpenAI将获得约55名顶尖硬件工程师、软件开发者和制造专家,包括多位曾参与iPhone设计的前苹果设计师。

     

    微软Build 2025大会:拥抱MCP协议,引入xAI大模型

    微软在Build 2025大会上宣布全面支持模型上下文协议(MCP),并与GitHub共同加入MCP指导委员会,推动开放标准落地。其智能体方案已覆盖超过23万家机构。

    同时,微软公司宣布把埃隆·马斯克的xAI公司的Grok 3和Grok 3 mini人工智能模型引入Azure AI Foundry平台,作为微软在公司云平台内直接托管和收费的新产品。

     

    OpenAI等科技巨头将在阿联酋建设人工智能基础设施集群

    OpenAI、英伟达等科技巨头将携手合作,在阿拉伯联合酋长国建设一座名为“星际之门阿联酋”(Stargate UAE)的人工智能基础设施集群。

    这一项目是OpenAI、软银和甲骨文今年1月宣布在美国建设人工智能基础设施计划的姊妹项目,预计第一阶段的200兆瓦人工智能“集群”将于2026年投入使用。

     

    02. 新产品发布

     

    豆包上线视频通话功能:支持实时视频问答互动

    豆包App实时通话功能升级,支持视频聊天问答。

    本次升级基于视觉推理模型,支持联网搜索,工作、生活和学习遇到问题,随时和豆包视频对话。

    该功能具有实时场景理解能力,通过摄像头捕捉用户周围环境,结合问题进行智能分析。从日常生活到专业工作,多场景适用。

     

    混元游戏:首个工业级AIGC游戏内容生产引擎发布

    腾讯混元游戏视觉生成平台正式发布。是首个工业级AIGC游戏内容生产引擎,依托混元大模型打造,可大幅提升游戏资产生成与制作效率。

    平台面向游戏美术设计师提供AI美术管线、实时画布、AI 2D美术生成、专业角色多视图生成等核心功能,助力设计师快速生成高质量游戏素材与概念草案,将游戏美术设计效率提升数十倍。

     

    美团推出零代码AI应用开发平台 NoCode

    美团推出零代码AI应用开发平台NoCode,无需编程经验,通过自然语言描述即可快速生成网站页面、实用工具、小游戏等应用。

    平台具备自然语言编程、实时预览、局部修改及一键部署分享等功能,支持版本管理,可实时渲染页面。

     

    Flowith 推出 Agent Neo

    Flowith推出Agent Neo,具备无限步骤、无限上下文、无限工具的核心能力,可执行复杂任务、处理海量信息并调用多种大模型与工具。

    结合知识库功能,能快速构建数字分身或生成高质量内容。

     

    腾讯 QQ 浏览器推出 QBot AI 浏览器

    腾讯正式推出AI浏览器QBot,融合了先进的人工智能技术,为用户提供更智能、便捷的上网体验。

    具备智能搜索、内容推荐、语言翻译等多种功能,能根据用户的浏览习惯和偏好提供个性化的服务。

     

    OpenAI 扩展 Responses API:支持MCP、图像生成

    OpenAI宣布扩展Responses API,新增对远程连接MCP服务器、图像生成(gpt-image-1模型)、Code Interpreter及文件搜索优化等功能的支持,全面适配GPT-4o系列、GPT-4.1系列及OpenAI o系列推理模型。

    开发者可通过几行代码让模型连接Cloudflare等MCP工具,访问用户数据源。

    昆仑万维发布天工超级智能体

    昆仑万维面向全球发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能生成文档、PPT、表格、网页、播客和音视频等多模态内容。

    其deep research能力在GAIA榜单上排名全球第一,超过OpenAI Deep ResearchManus

     

    万兴科技Filmora升级AI功能

    万兴科技旗下视频创意软件Wondershare Filmora作为微软全球开发者大会主论坛合作伙伴亮相。

    桌面端升级AI Mate(视频编辑助手)功能、Semantic Search(语义搜索)及knowledge retrieval(知识检索)API,打造基于自然语言搜索与RAG(检索增强生成)的视频剪辑体验,还实现了产品在不同硬件芯片上的AI功能性能提升和AI能力的本地化运行升级。

     

    IBM企业级AI智能体平台watsonx Orchestrate落地

    IBM强调AI进入“落地马拉松”,重点支持企业自定义智能体规模化应用,发布watsonx Orchestrate平台,基于开源模型,支持复杂工作流自动化,已与Adobe、AWS、Microsoft等集成。

     

    PPIO推出企业私有化部署解决方案

    全球AI基础设施服务商PPIO派欧云正式推出针对大语言模型的企业私有化部署解决方案,通过“专用GPU集群 + 完全托管”模式,为企业构建自主可控的高性能AI部署平台,致力于让企业以更低的成本、更高的效率实现AI应用规模化落地。

    其他动态

    OpenAI Operator升级为 o3 模型 :浏览器交互更稳定、推理更精准,支持填写表单与网页操作任务。

    特斯拉展示 Optimus 人形机器人做家务的能力,如扔垃圾、扫地、炒菜等。

    北京大学正式上线全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台——Science Navigator

    京东工业在上海发布行业首个以供应链为核心的工业大模型——Joy industrial。通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、数据到应用的全栈产品矩阵,助力产业降本、增效、合规、保供。

    英伟达CEO黄仁勋在Computex 2025大会上推出下一代Grace Blackwell GB300 AI服务器系统,基于升级版Blackwell芯片,推理性能提升1.5倍,HBM内存增加1.5倍,网络能力翻倍。

    火山引擎推出豆包·语音播客模型,具有低成本、高时效、强互动的特点。

    英特尔在Computex 2025发布面向专业人士的全新英特尔锐炫™ Pro B系列GPU(B60和B50),基于Xe2架构,专为AI推理和专业工作站设计。同时提供Gaudi 3 AI加速器PCIe卡和机架级系统新部署方案。

    GIGABYTE在COMPUTEX 2025展示升级版GIGAPOD GPU集群(支持AMD Instinct MI325X、NVIDIA HGX H200)、全球首秀GIGAPOD直接液冷(DLC)解决方案、符合OCP标准的多种服务器以及面向边缘AI的Jetson Orin嵌入式系统及集成NPU的BRIX迷你PC。

    Intel显卡携手蓝戟推出GUNNIR Intel Arc Pro B60 TF 24G专业级显卡,该产品搭载Xe2微架构、24GB大显存,直击AI开发、深度学习、三维影视渲染等高负载场景的算力痛点。

    英特尔在GitHub发布AI Assistant Builder公开测试版,这是一个轻量级开放软件框架,用于在英特尔AI PC上本地构建和运行自定义AI代理。

     

    03. 开源项目

     

    Mistral 发布编程专用 开源AI 模型 Devstral

    Mistral AI与All Hands AI合作推出240亿参数的AI模型Devstral,专为高级软件工程任务设计,处于“研究预览”阶段,以Apache 2.0许可发布,可商用。

    Devstral在SWE-Bench Verified基准测试中得分46.8%,超越部分闭源模型。能在单张RTX 4090显卡或32GB RAM的Mac上运行,降低硬件门槛。

     

    微软研究院推出 Magentic-UI,以人为中心的AI智能体研究原型

    微软研究院发布Magentic-UI研究原型,是以人为中心的AI智能体,通过网页浏览器实时协助用户完成复杂网络任务。

    基于Magentic-One多智能体系统,由AutoGen框架驱动,具备协同规划、协同任务、行为防护和计划学习四大核心功能。

    韩国Kakao推出4种开源Kanana语言模型

    Kakao在开发者平台 “Hugging Face” 上将其自主开发的人工智能(AI)模型 “Kanana 8B” 和 “Kanana 2.1B” 作为开源发布,共推出四种型号,基于Apache 2.0许可证,任何人都可对其进行自由修改和商用。

    相较于今年2月推出的 “Kanana Nano 2.1B” 模型,此次发布的模型性能有明显改进。

    西北大学科研团队发布自动识别与量化动物个体行为的开源AI框架

    西北大学郭松涛团队基于行为学的分析原理,利用人工智能技术,设计了自动识别与量化动物个体行为的开源AI框架,可广泛应用于圈养动物日常活动规律监测和关键行为异常预警、野生动物行为数据分析研究等领域。

    VS Code宣布GitHub Copilot Chat扩展开源

    Visual Studio Code官方团队宣布,GitHub Copilot Chat扩展将以MIT协议开源,并将关键AI能力重构入VS Code核心代码,强化社区协作和AI编辑器开发透明度。

    Hugging Face开源Open Computer Agent (OCA)

    Hugging Face宣布开源Open Computer Agent (OCA),设计用于虚拟Linux环境自动化任务执行,支持开发者和研究人员定制复杂任务流。

    NVIDIA开源物理AI数据集

    NVIDIA发布全新技术,其中包括开源物理AI数据集,包含用于开发GR00T N模型的24,000条高质量人形机器人运动轨迹数据。

    B站团队开源动漫视频生成模型Index-AniSora

    B站团队开源动漫视频生成模型Index-AniSora。模型可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。

    AniSora拥有超1000万高质量数据,引入时空掩码模块,支持图生视频、帧插值等关键功能。评测数据集包含948段多样化动画视频,人物与运动一致性均达SOTA。

     

    04. 投资融资

     

    Persist AI完成1200万美元A轮融资

    Persist AI宣布完成1200万美元A轮融资,旨在通过“云实验室”加速药物配方开发。

    清华系具身大脑公司「千诀科技」累计融资数亿规模

    清华系具身智能技术公司「千诀科技」完成新一轮Pre-A+轮融资,累计融资数亿元,投资方包括钧山投资、祥峰投资和石溪资本等。本轮融资将用于核心技术演进、产品标准化及产业化交付能力提升。

    公司由清华大学自动化系及相关人工智能研究机构的核心成员创立,是国内唯一可对标美国Physical Intelligence公司的企业。

    魔法原子再获数亿元融资,将解锁千个落地场景

    具身智能机器人公司魔法原子完成新一轮数亿元战略融资,投资方包括禾创致远、芯联资本等产业资本及华映资本等财务投资人。

    新资金将用于核心技术研发、VLA模型搭建及加速机器人在工业、商业场景落地。

    魔法原子旗下人形机器人“小麦”已进驻工厂产线实训,在商场门店、会展服务、新闻传媒等场景展开实践。

    面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及

    面壁智能完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资。

    面壁智能专注于打造高效大模型,端侧全模态模型面壁小钢炮MiniCPM-o 2.6多项能力达国际领先水平,系列模型全平台下载量累计破1000万。

    面壁智能发布了业界首个智能座舱纯端侧汽车助手cpmGO,与多家车企合作实现量产车型定点。

    美图公司与阿里巴巴达成战略合作并获得 2.5 亿美元投资

    美图公司宣布与阿里巴巴达成战略合作并获得2.5亿美元可转债投资。

    协议为期3年,年利率1%,阿里巴巴可按每股6.00港元的价格将可转债转换为美图股票。

    双方将在电商平台、AI技术、云计算等领域展开合作,阿里巴巴将优先推广美图AI电商工具,协助美图开发电商生图及生视频工具,提升商家营销和运营效率。

    尚跃智能完成新一轮战略型股权融资

    尚跃智能科技和国智领航(北京)信息科技研究院完成战略股权融资,本轮融资由国智领航(北京)信息科技研究院发起。

    战略融资将主要用于推进人工智能通识教育。

    光帆科技获得1.3亿人民币天使+融资

    北京光帆科技有限公司获得1.3亿人民币天使+融资,参与投资的机构包括Shokz韶音科技、同歌创投等,投后估值5亿人民币。

    光帆科技是一家基于硬件产品的AI应用服务商。

    谷歌收购AI聊天机器人公司相关情况受美国司法部调查

    美国司法部正在调查Alphabet旗下谷歌,审查其与一家热门聊天机器人公司Character.AI的人工智能技术使用协议是否违反了反垄断法。

    根据去年与谷歌达成的协议,Character.AI的创始人加入了谷歌,同时谷歌也获得了使用该公司技术的非独占性许可。

    OpenAI员工股权捐赠受阻

    CNBC在5月23日报道称,因公司股权结构特殊,OpenAI员工难以将所持股权捐赠给慈善机构,引发员工不满。

     

    05. 观点洞察

     

    金融业AI应用与变革流畅性

    艾扬斯最近的一项调查发现,报告指出90%欧洲金融服务企业已用AI,但“变革流畅性”而非技术本身是生存关键。需通过共创变革、容忍试错将AI创新转化为增长。

    Elon Musk论AI芯片、电力瓶颈与创新

    马斯克在CNBC采访中表示,目前AI瓶颈是芯片,很快转向电力,预测2026年中可能电力不足。他认为创新需要质疑权威,是美国优势所在。

    原文链接:AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

  • VibeNecto – AI营销视觉生成平台,快速生成定制化视觉素材

    VibeNecto是什么

    VibeNecto是AI营销视觉素材生成平台。能根据用户输入的文本描述,快速生成高质量的定制化图片,适用于社交媒体、广告等多种营销场景。用户无需专业设计技能,可在几秒钟内获得符合品牌风格的视觉素材。平台提供多种视觉风格选择,从写实到艺术风格,满足不同需求。具备背景移除功能,可自动去除图片背景,适合产品照片和专业头像处理。所有生成的图片都会被安全地存储在云端,自动保存历史记录,方便用户随时访问、下载或重复使用。

    VibeNecto

    VibeNecto的主要功能

    • AI图像生成:用户只需输入文本描述,平台基于先进的AI模型,能快速生成符合用户规格的定制化营销视觉内容,可用于社交媒体帖子、数字广告、博客标题等场景。
    • 风格控制:提供多种视觉风格选择,包括照片写实、动漫、水彩等,用户可根据品牌美学需求,选择合适的风格,确保视觉内容与品牌期望的外观和感觉保持一致。
    • 背景移除:基于AI技术自动去除图片背景,适合创建干净的产品照片或专业的头像,为用户节省大量的手动编辑时间。
    • 即时生成:几秒钟内可生成高质量的营销视觉素材。
    • 图片历史记录:用户生成的所有图像都会自动保存到账户中,方便用户随时轻松地查看、下载或重复使用以前的创作。

    VibeNecto的官网地址

    VibeNecto的应用场景

    • 内容创作:为社交媒体平台(如Instagram、Facebook、Twitter等)生成吸引人的图片和视频。
    • 品牌推广:帮助品牌创建与品牌形象一致的视觉内容,提升品牌在社交媒体上的知名度和影响力。
    • 电子邮件营销:创建个性化的电子邮件封面图和内部图片,提升邮件的打开率和阅读率。
    • 博客和文章:为博客文章、新闻报道等生成吸引人的标题图和配图,增强内容的视觉吸引力。
    • 视频制作:生成视频的封面图、过渡画面等,提升视频的专业性和吸引力。
  • 如何用AI设计LOGO,DeepSeek+豆包免费批量生成

    相信做自媒体账号、开发新项目新产品、线上电商、线下开店的各位宝子肯定面对过这样一个问题:

    想要一个有辨识度并且不会侵权的LOGO。

    但是找设计师设计价格高昂不说,也担心被人欺负不懂设计而上当受骗。

    找找世面上专业的LOGO设计工具吧,同样需要收费,虽然价格不会太高,但是质量又难以保证。

    那么该怎么办呢?

    其实用DeepSeek+豆包,就能批量生成高质量的LOGO。

    做法简单,还完全免费。

    话不多说,我们直接进入实战环节。

    了解LOGO设计核心逻辑

    得益于豆包强大的生图能力,我们只要将相应的提示词喂给豆包,就能生成出不错的LOGO图。

    但是想生成符合需求的LOGO,一套能表达精准且结构化的提示词是必不可少的。

    这个提示词的核心逻辑建议截图保存:

    LOGO的原型字+字体是否需要进行变形+LOGO所适用的领域范围+LOGO所包含的相关元素+LOGO所使用的字体风格+所使用的颜色组合风格

    顺便附上常见的设计术语翻译指南:

    “大气” ➔ 对比强烈的几何形状+留白设计

    “年轻化” ➔ 动态渐变/不规则轮廓+高饱和度配色

    “国际感” ➔ 无衬线字体+金属质感元素

    “要有记忆点” ➔ 负空间设计+符号隐喻

    比如,我想设计一个萌萌的宠物店LOGO。

    输入提示词:

    设计一个萌系宠物店LOGO,采用圆胖手写体并将字母“P”顶端变形为猫耳轮廓,主色调使用#FFD1DC(樱花粉)与#FFFACD(奶油黄)的柔光渐变,在字母笔画间嵌入隐藏的小鱼干和骨头图案,外层包裹哑光质感云朵边框,尾笔画微微翘起形成猫尾巴曲线,整体保留35%动态留白增强童趣感。

    就得到了4个萌趣可爱的LOGO。

    当然,手搓提示词还是太吃设计天赋了,只适合有设计基础的选手。

    那有没有更简单的操作呢?

    有的。

    让AI变身专业设计师

    我们只需要把第一步所说的核心逻辑教给DeepSeek,就可以让它变身专业的提示词工程师,帮助豆包能更好的完成LOGO设计。

    当然你和AI说些听不懂的怪话,肯定是没用的。

    我们把核心逻辑+使用这个LOGO的场景和风格直接发给DeepSeek。

    立马就能得到精准且专业的提示词:

    提示词:设计一个以圆润可爱的卡通手写字体为基础原型进行柔和曲线变形,融入面包、烤箱、麦穗元素,搭配小熊或厨师帽卡通形象,采用暖黄色、奶油白、浅棕色与粉色调色板,呈现活泼温馨的烘焙主题logo,适用于面包坊招牌、纸袋包装及数字媒体场景。

    将这份提示词发给豆包,得到了如下LOGO:

    是不是比自己手搓提示词更简单,还更有质量

    聪明的你可能又会有疑问了:背景太花了,我只想要LOGO怎么办?

    直接让AI去除背景,效果好像也不太行。

    我们只需要在提示词中删除多余的元素,就能获得纯LOGO图。

    例如删除“适用于面包坊招牌、纸袋包装及数字媒体场景。”

    效果立竿见影:

    想要批量生成,只需要在提示词中加入数量限定。

    例如:生成20张。

    (限豆包网页版超能创意1.0可用)

    一些分享

    AI时代,给予了我们每一个人无限的可能,巧妙地使用AI就能完成个人难以完成的事情。

    不仅仅是LOGO设计,其他事情也是如此。

    只要我们为解决问题积极给出自己可行的方案和想法,AI都能够替你实现。

    快来生成你的第一个LOGO吧。

    原文链接:DeepSeek+豆包,AI一键批量设计LOGO

  • 3DTown – 哥伦比亚联合Cybever AI等推出单视图生成3D城镇场景的框架

    3DTown是什么

    3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,基于预训练的3D对象生成器分别生成每个区域的3D内容,基于掩码修正流修复过程填补缺失的几何结构,同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景,在多种风格的场景生成中表现出色,优于现有的先进方法。

    3DTown

    3DTown的主要功能

    • 生成多样化的3D场景:支持不同风格和布局的场景生成,如“雪镇”、“沙漠小镇”等。
    • 保持几何和纹理一致性:生成的3D场景在几何结构和纹理上与输入图像高度一致。
    • 高效处理复杂场景:能有效处理复杂场景,避免几何失真和布局幻觉。

    3DTown的技术原理

    • 区域化生成:将输入图像分解为重叠区域,每个区域独立生成3D内容。用预训练的3D对象生成器对每个区域进行生成,提高局部对齐和分辨率。基于区域融合,将生成的区域逐步合并为连贯的全局3D场景。
    • 空间感知3D修复:用单目深度估计和地标检测初始化粗略的3D结构,作为空间先验。基于掩码修正流(Masked Rectified Flow)技术,填补缺失的几何结构,同时保持已知内容的连续性。基于两阶段的掩码修正流管道,生成稀疏结构和结构化潜在表示,确保全局一致性。
    • 结构化潜在表示:基于结构化潜在表示来构建3D场景,包括位置索引和潜在特征向量。用稀疏结构生成器和结构化潜在生成器,逐步生成3D场景的潜在表示。
    • 模块化设计:基于模块化设计,将复杂的3D场景生成问题分解为多个子问题,每个子问题独立解决后再进行整合。

    3DTown的项目地址

    3DTown的应用场景

    • 虚拟世界构建:快速生成虚拟城镇或场景,为虚拟现实(VR)和增强现实(AR)应用提供逼真的环境。
    • 游戏开发:为游戏设计师提供高效工具,从简单俯视图生成复杂3D游戏场景,节省时间和成本。
    • 机器人模拟:创建逼真的3D场景用于机器人训练,提高机器人在复杂环境中的导航和交互能力。
    • 数字内容创作:帮助艺术家和设计师快速生成3D场景原型,加速创意过程,提升工作效率。
    • 建筑与城市规划:从概念草图生成3D建筑模型和城市布局,辅助规划和设计工作,便于方案展示和评估。