Skip to main content

Author: Chimy

Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

Vid2World是什么

Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。

Vid2World

Vid2World的主要功能

  • 高保真视频生成:生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
  • 动作条件化:根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。
  • 自回归生成:用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。
  • 因果推理:模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。
  • 支持下游任务:支持辅助机器人操作、游戏模拟等交互式任务。

Vid2World的技术原理

  • 视频扩散因果化:视频扩散模型(VDM)对整个视频序列同时进行去噪,全序列的生成方式不适合因果推演,因为未来的帧会影响过去的帧。为实现因果生成,Vid2World对预训练的VDM进行修改,时间注意力层基于应用因果掩码,限制注意力机制只能访问过去的帧,实现因果性。时间卷积层推出混合权重转移方案,保留预训练权重的同时,让模型适应因果卷积层。基于Diffusion Forcing技术,在训练时为每一帧独立采样噪声水平,让模型学习到不同帧之间的噪声水平组合,支持自回归生成。
  • 因果动作引导:为让模型响应细粒度的动作,Vid2World引入因果动作引导机制。每个动作基于轻量级的多层感知机(MLP)进行编码,添加到对应的帧中。在训练时,用固定概率独立丢弃每个动作,迫使模型同时学习条件和非条件得分函数。在测试时,基于线性组合条件得分函数和非条件得分函数,调整对动作变化的响应性。基于独立丢弃动作,模型能学习到动作对生成结果的影响,在自回归生成过程中更好地响应动作输入。

Vid2World的项目地址

Vid2World的应用场景

  • 机器人操作:生成高保真预测,辅助机器人任务规划。
  • 游戏模拟:生成与真实游戏高度一致的视频,助力神经游戏引擎开发。
  • 策略评估:模拟不同策略执行结果,助力策略优化。
  • 视频预测:基于已有帧和动作序列预测后续帧,用在视频补全等。
  • 虚拟环境构建:生成响应动作的虚拟场景,提升虚拟现实交互性。

SurfSense – 开源AI研究助手,个人知识库与全球数据源无缝链接

SurfSense是什么

SurfSense 是开源的 AI 研究工具,类似于 NotebookLMPerplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitHub 等)集成,支持用户上传多种格式的文件,将内容整合到个人知识库中。SurfSense 提供强大的搜索功能和自然语言交互能力,用户能快速查找和引用保存的内容。

SurfSense

SurfSense的主要功能

  • 强大搜索:结合语义和全文搜索,快速查找知识库中的内容。
  • 多格式支持:支持上传多种文件(如文档、图片等)。
  • 自然语言交互:用自然语言提问,获取引用答案。
  • 外部数据源集成:连接搜索引擎、Slack、Notion、YouTube 等。
  • 隐私与本地部署:支持本地 LLM,确保数据隐私,可自托管。
  • 浏览器扩展:保存网页内容,尤其是需要登录的页面。
  • 文档管理:方便管理上传的文件,支持多文档交互。

SurfSense的技术原理

  • RAG:基于向量嵌入和全文检索技术,快速从知识库中检索与用户查询最相关的文档片段。将检索到的片段作为上下文输入到 LLM 中,生成自然语言回答。结合语义搜索(基于向量嵌入)和全文搜索(基于关键词匹配),用 Reciprocal Rank Fusion(RRF)优化搜索结果的相关性。
  • 向量嵌入与索引:基于 pgvector(PostgreSQL 的向量扩展)进行高效的向量相似性操作。文档内容被嵌入到向量空间中,便于快速检索语义相关的片段。
  • 分层索引:基于分层索引结构(2 层 RAG 架构),提高检索效率和准确性。第一层索引用在快速筛选相关文档,第二层索引用在进一步细化检索结果。
  • 后端技术栈:用 FastAPI 构建现代化的 API 框架,支持高性能的 Web 服务。数据库用 PostgreSQL,结合 pgvector 提供向量搜索能力。基于 LangChain 和 LiteLLM 进行 LLM 集成,支持多种语言模型。
  • 前端技术栈:用 Next.js 和 React 构建用户界面,提供流畅的交互体验。基于 Tailwind CSS 和 Framer Motion 提供定制化的 UI 设计和动画效果。
  • 浏览器扩展:用 Plasmo 构建浏览器扩展,支持跨浏览器功能,用户能方便地保存网页内容。

SurfSense的项目地址

SurfSense的应用场景

  • 个人知识管理:整理笔记、文档等,快速检索知识库内容。
  • 学术研究:辅助文献检索、资料整理,生成研究报告。
  • 企业知识共享:上传内部资料,促进团队协作与知识流通。
  • 内容创作:收集创作灵感,整理参考资料,辅助写作。
  • 信息收集:保存网页内容,整合外部信息,提升信息整理效率。

VideoTutor – AI教育助手,一句话生成K12定制动画教学视频

VideoTutor是什么

VideoTutor是AI教育辅助工具,生成动画讲解视频,帮助学生理解知识点和解题过程。VideoTutor支持SAT数学、AP数学、STEM知识和语言学习等学科领域。用户用文字、截图或语音输入问题,系统自动生成包含动画和语音说明的讲解视频。工具提供个性化学习内容,支持24小时在线学习,适合家长、学生和教师使用,在SAT数学备考方面表现出色。

VideoTutor

VideoTutor的主要功能

  • AI视频生成:输入问题后,系统自动生成带有语音讲解和动画演示的学习视频。
  • 个性化解释:视频内容可根据用户需求定制,提升学习针对性。
  • 24小时可用:随时随地获取学习帮助,无需等待真人老师。
  • 多主题覆盖:支持SAT/AP数学、科学基础、语言技能等。

如何使用VideoTutor

  • 访问网站:访问VideoTutor的官方网站,按提示完成注册和登录。
  • 文字输入:在输入框中直接输入问题,例如“如何求解二次函数的顶点?”。
  • 上传截图:如果有具体的题目或图表,上传相关的截图。
  • 语音输入:直接用语音描述问题,适合不方便打字的情况。
  • 等待生成视频:提交问题后,系统自动处理生成一个讲解视频。
  • 观看视频:观看包含动画和语音讲解的视频。
  • 保存或分享视频:将视频保存到个人账户中,或分享给其他需要的人。

VideoTutor的应用场景

  • 学生自主学习:学生遇到难题时,输入问题获取讲解视频,自主学习,提升理解能力。
  • 家长辅导:家长辅导孩子时,借助VideoTutor生成的视频,减轻辅导压力,帮助孩子更好地理解知识。
  • 教师教学辅助:教师用VideoTutor生成的视频丰富教学内容,提供多样化的学习资源,辅助课堂教学。
  • 考试备考:为SAT、AP等考试备考的学生提供专业的备考视频,包括考试策略、真题解析等,助力高效备考。
  • 语言学习:生成词汇、语法和口语的讲解视频,帮助学生提高语言能力,适合视觉辅助学习者。

AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

本篇内容,带你快速了解本周AI热点资讯

 

01. AI大事件

 

Google I/O 2025 开发者大会,从研究到现实,AI技术全面升级

Google I/O 2025 大会宣布多项进展。

  • Gemini 2.5 Pro模型在LMArena排行榜首位,性能卓越。
  • 推出Google Beam视频通信平台,提供沉浸式3D体验。
  • Gemini Live整合Project Astra功能,Agent Mode助力任务执行。
  • 个性化智能回复将推出,AI Mode重塑搜索体验。
  • 全新Imagen 4生成细节超逼真。
  • Veo 3首次实现音视频融合。凭借其逼真的场景、可控的角色一致性、声音合成及多样的编辑功能,在AI视频生成领域树立了新的标杆。
 

Anthropic发布史上最强AI模型Claude 4

Anthropic发布Claude 4模型 (包括Claude Opus 4和Claude Sonnet 4)。

该模型被誉为“史上最强AI模型”及“世界最佳编程模型”,具备分析数千数据源长时间执行任务编写接近人类水平内容复杂操作的能力。

它采用了全新的混合推理架构,能在SWE-Bench Verified测试中取得72.5%成绩,Terminal-bench测试中取得43.2%成绩,并具备长达7小时的持续工作能力。

 

OpenAI最大收购,65亿美元拿下苹果前高管Jony Ive公司io

OpenAI宣布以约65亿美元收购由CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io。

这笔收购将是OpenAI史上最大一笔交易,预计夏季完成,需监管部门批准。

收购后,OpenAI将获得约55名顶尖硬件工程师、软件开发者和制造专家,包括多位曾参与iPhone设计的前苹果设计师。

 

微软Build 2025大会:拥抱MCP协议,引入xAI大模型

微软在Build 2025大会上宣布全面支持模型上下文协议(MCP),并与GitHub共同加入MCP指导委员会,推动开放标准落地。其智能体方案已覆盖超过23万家机构。

同时,微软公司宣布把埃隆·马斯克的xAI公司的Grok 3和Grok 3 mini人工智能模型引入Azure AI Foundry平台,作为微软在公司云平台内直接托管和收费的新产品。

 

OpenAI等科技巨头将在阿联酋建设人工智能基础设施集群

OpenAI、英伟达等科技巨头将携手合作,在阿拉伯联合酋长国建设一座名为“星际之门阿联酋”(Stargate UAE)的人工智能基础设施集群。

这一项目是OpenAI、软银和甲骨文今年1月宣布在美国建设人工智能基础设施计划的姊妹项目,预计第一阶段的200兆瓦人工智能“集群”将于2026年投入使用。

 

02. 新产品发布

 

豆包上线视频通话功能:支持实时视频问答互动

豆包App实时通话功能升级,支持视频聊天问答。

本次升级基于视觉推理模型,支持联网搜索,工作、生活和学习遇到问题,随时和豆包视频对话。

该功能具有实时场景理解能力,通过摄像头捕捉用户周围环境,结合问题进行智能分析。从日常生活到专业工作,多场景适用。

 

混元游戏:首个工业级AIGC游戏内容生产引擎发布

腾讯混元游戏视觉生成平台正式发布。是首个工业级AIGC游戏内容生产引擎,依托混元大模型打造,可大幅提升游戏资产生成与制作效率。

平台面向游戏美术设计师提供AI美术管线、实时画布、AI 2D美术生成、专业角色多视图生成等核心功能,助力设计师快速生成高质量游戏素材与概念草案,将游戏美术设计效率提升数十倍。

 

美团推出零代码AI应用开发平台 NoCode

美团推出零代码AI应用开发平台NoCode,无需编程经验,通过自然语言描述即可快速生成网站页面、实用工具、小游戏等应用。

平台具备自然语言编程、实时预览、局部修改及一键部署分享等功能,支持版本管理,可实时渲染页面。

 

Flowith 推出 Agent Neo

Flowith推出Agent Neo,具备无限步骤、无限上下文、无限工具的核心能力,可执行复杂任务、处理海量信息并调用多种大模型与工具。

结合知识库功能,能快速构建数字分身或生成高质量内容。

 

腾讯 QQ 浏览器推出 QBot AI 浏览器

腾讯正式推出AI浏览器QBot,融合了先进的人工智能技术,为用户提供更智能、便捷的上网体验。

具备智能搜索、内容推荐、语言翻译等多种功能,能根据用户的浏览习惯和偏好提供个性化的服务。

 

OpenAI 扩展 Responses API:支持MCP、图像生成

OpenAI宣布扩展Responses API,新增对远程连接MCP服务器、图像生成(gpt-image-1模型)、Code Interpreter及文件搜索优化等功能的支持,全面适配GPT-4o系列、GPT-4.1系列及OpenAI o系列推理模型。

开发者可通过几行代码让模型连接Cloudflare等MCP工具,访问用户数据源。

昆仑万维发布天工超级智能体

昆仑万维面向全球发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能生成文档、PPT、表格、网页、播客和音视频等多模态内容。

其deep research能力在GAIA榜单上排名全球第一,超过OpenAI Deep ResearchManus

 

万兴科技Filmora升级AI功能

万兴科技旗下视频创意软件Wondershare Filmora作为微软全球开发者大会主论坛合作伙伴亮相。

桌面端升级AI Mate(视频编辑助手)功能、Semantic Search(语义搜索)及knowledge retrieval(知识检索)API,打造基于自然语言搜索与RAG(检索增强生成)的视频剪辑体验,还实现了产品在不同硬件芯片上的AI功能性能提升和AI能力的本地化运行升级。

 

IBM企业级AI智能体平台watsonx Orchestrate落地

IBM强调AI进入“落地马拉松”,重点支持企业自定义智能体规模化应用,发布watsonx Orchestrate平台,基于开源模型,支持复杂工作流自动化,已与Adobe、AWS、Microsoft等集成。

 

PPIO推出企业私有化部署解决方案

全球AI基础设施服务商PPIO派欧云正式推出针对大语言模型的企业私有化部署解决方案,通过“专用GPU集群 + 完全托管”模式,为企业构建自主可控的高性能AI部署平台,致力于让企业以更低的成本、更高的效率实现AI应用规模化落地。

其他动态

OpenAI Operator升级为 o3 模型 :浏览器交互更稳定、推理更精准,支持填写表单与网页操作任务。

特斯拉展示 Optimus 人形机器人做家务的能力,如扔垃圾、扫地、炒菜等。

北京大学正式上线全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台——Science Navigator

京东工业在上海发布行业首个以供应链为核心的工业大模型——Joy industrial。通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、数据到应用的全栈产品矩阵,助力产业降本、增效、合规、保供。

英伟达CEO黄仁勋在Computex 2025大会上推出下一代Grace Blackwell GB300 AI服务器系统,基于升级版Blackwell芯片,推理性能提升1.5倍,HBM内存增加1.5倍,网络能力翻倍。

火山引擎推出豆包·语音播客模型,具有低成本、高时效、强互动的特点。

英特尔在Computex 2025发布面向专业人士的全新英特尔锐炫™ Pro B系列GPU(B60和B50),基于Xe2架构,专为AI推理和专业工作站设计。同时提供Gaudi 3 AI加速器PCIe卡和机架级系统新部署方案。

GIGABYTE在COMPUTEX 2025展示升级版GIGAPOD GPU集群(支持AMD Instinct MI325X、NVIDIA HGX H200)、全球首秀GIGAPOD直接液冷(DLC)解决方案、符合OCP标准的多种服务器以及面向边缘AI的Jetson Orin嵌入式系统及集成NPU的BRIX迷你PC。

Intel显卡携手蓝戟推出GUNNIR Intel Arc Pro B60 TF 24G专业级显卡,该产品搭载Xe2微架构、24GB大显存,直击AI开发、深度学习、三维影视渲染等高负载场景的算力痛点。

英特尔在GitHub发布AI Assistant Builder公开测试版,这是一个轻量级开放软件框架,用于在英特尔AI PC上本地构建和运行自定义AI代理。

 

03. 开源项目

 

Mistral 发布编程专用 开源AI 模型 Devstral

Mistral AI与All Hands AI合作推出240亿参数的AI模型Devstral,专为高级软件工程任务设计,处于“研究预览”阶段,以Apache 2.0许可发布,可商用。

Devstral在SWE-Bench Verified基准测试中得分46.8%,超越部分闭源模型。能在单张RTX 4090显卡或32GB RAM的Mac上运行,降低硬件门槛。

 

微软研究院推出 Magentic-UI,以人为中心的AI智能体研究原型

微软研究院发布Magentic-UI研究原型,是以人为中心的AI智能体,通过网页浏览器实时协助用户完成复杂网络任务。

基于Magentic-One多智能体系统,由AutoGen框架驱动,具备协同规划、协同任务、行为防护和计划学习四大核心功能。

韩国Kakao推出4种开源Kanana语言模型

Kakao在开发者平台 “Hugging Face” 上将其自主开发的人工智能(AI)模型 “Kanana 8B” 和 “Kanana 2.1B” 作为开源发布,共推出四种型号,基于Apache 2.0许可证,任何人都可对其进行自由修改和商用。

相较于今年2月推出的 “Kanana Nano 2.1B” 模型,此次发布的模型性能有明显改进。

西北大学科研团队发布自动识别与量化动物个体行为的开源AI框架

西北大学郭松涛团队基于行为学的分析原理,利用人工智能技术,设计了自动识别与量化动物个体行为的开源AI框架,可广泛应用于圈养动物日常活动规律监测和关键行为异常预警、野生动物行为数据分析研究等领域。

VS Code宣布GitHub Copilot Chat扩展开源

Visual Studio Code官方团队宣布,GitHub Copilot Chat扩展将以MIT协议开源,并将关键AI能力重构入VS Code核心代码,强化社区协作和AI编辑器开发透明度。

Hugging Face开源Open Computer Agent (OCA)

Hugging Face宣布开源Open Computer Agent (OCA),设计用于虚拟Linux环境自动化任务执行,支持开发者和研究人员定制复杂任务流。

NVIDIA开源物理AI数据集

NVIDIA发布全新技术,其中包括开源物理AI数据集,包含用于开发GR00T N模型的24,000条高质量人形机器人运动轨迹数据。

B站团队开源动漫视频生成模型Index-AniSora

B站团队开源动漫视频生成模型Index-AniSora。模型可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。

AniSora拥有超1000万高质量数据,引入时空掩码模块,支持图生视频、帧插值等关键功能。评测数据集包含948段多样化动画视频,人物与运动一致性均达SOTA。

 

04. 投资融资

 

Persist AI完成1200万美元A轮融资

Persist AI宣布完成1200万美元A轮融资,旨在通过“云实验室”加速药物配方开发。

清华系具身大脑公司「千诀科技」累计融资数亿规模

清华系具身智能技术公司「千诀科技」完成新一轮Pre-A+轮融资,累计融资数亿元,投资方包括钧山投资、祥峰投资和石溪资本等。本轮融资将用于核心技术演进、产品标准化及产业化交付能力提升。

公司由清华大学自动化系及相关人工智能研究机构的核心成员创立,是国内唯一可对标美国Physical Intelligence公司的企业。

魔法原子再获数亿元融资,将解锁千个落地场景

具身智能机器人公司魔法原子完成新一轮数亿元战略融资,投资方包括禾创致远、芯联资本等产业资本及华映资本等财务投资人。

新资金将用于核心技术研发、VLA模型搭建及加速机器人在工业、商业场景落地。

魔法原子旗下人形机器人“小麦”已进驻工厂产线实训,在商场门店、会展服务、新闻传媒等场景展开实践。

面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及

面壁智能完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资。

面壁智能专注于打造高效大模型,端侧全模态模型面壁小钢炮MiniCPM-o 2.6多项能力达国际领先水平,系列模型全平台下载量累计破1000万。

面壁智能发布了业界首个智能座舱纯端侧汽车助手cpmGO,与多家车企合作实现量产车型定点。

美图公司与阿里巴巴达成战略合作并获得 2.5 亿美元投资

美图公司宣布与阿里巴巴达成战略合作并获得2.5亿美元可转债投资。

协议为期3年,年利率1%,阿里巴巴可按每股6.00港元的价格将可转债转换为美图股票。

双方将在电商平台、AI技术、云计算等领域展开合作,阿里巴巴将优先推广美图AI电商工具,协助美图开发电商生图及生视频工具,提升商家营销和运营效率。

尚跃智能完成新一轮战略型股权融资

尚跃智能科技和国智领航(北京)信息科技研究院完成战略股权融资,本轮融资由国智领航(北京)信息科技研究院发起。

战略融资将主要用于推进人工智能通识教育。

光帆科技获得1.3亿人民币天使+融资

北京光帆科技有限公司获得1.3亿人民币天使+融资,参与投资的机构包括Shokz韶音科技、同歌创投等,投后估值5亿人民币。

光帆科技是一家基于硬件产品的AI应用服务商。

谷歌收购AI聊天机器人公司相关情况受美国司法部调查

美国司法部正在调查Alphabet旗下谷歌,审查其与一家热门聊天机器人公司Character.AI的人工智能技术使用协议是否违反了反垄断法。

根据去年与谷歌达成的协议,Character.AI的创始人加入了谷歌,同时谷歌也获得了使用该公司技术的非独占性许可。

OpenAI员工股权捐赠受阻

CNBC在5月23日报道称,因公司股权结构特殊,OpenAI员工难以将所持股权捐赠给慈善机构,引发员工不满。

 

05. 观点洞察

 

金融业AI应用与变革流畅性

艾扬斯最近的一项调查发现,报告指出90%欧洲金融服务企业已用AI,但“变革流畅性”而非技术本身是生存关键。需通过共创变革、容忍试错将AI创新转化为增长。

Elon Musk论AI芯片、电力瓶颈与创新

马斯克在CNBC采访中表示,目前AI瓶颈是芯片,很快转向电力,预测2026年中可能电力不足。他认为创新需要质疑权威,是美国优势所在。

原文链接:AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

VibeNecto – AI营销视觉生成平台,快速生成定制化视觉素材

VibeNecto是什么

VibeNecto是AI营销视觉素材生成平台。能根据用户输入的文本描述,快速生成高质量的定制化图片,适用于社交媒体、广告等多种营销场景。用户无需专业设计技能,可在几秒钟内获得符合品牌风格的视觉素材。平台提供多种视觉风格选择,从写实到艺术风格,满足不同需求。具备背景移除功能,可自动去除图片背景,适合产品照片和专业头像处理。所有生成的图片都会被安全地存储在云端,自动保存历史记录,方便用户随时访问、下载或重复使用。

VibeNecto

VibeNecto的主要功能

  • AI图像生成:用户只需输入文本描述,平台基于先进的AI模型,能快速生成符合用户规格的定制化营销视觉内容,可用于社交媒体帖子、数字广告、博客标题等场景。
  • 风格控制:提供多种视觉风格选择,包括照片写实、动漫、水彩等,用户可根据品牌美学需求,选择合适的风格,确保视觉内容与品牌期望的外观和感觉保持一致。
  • 背景移除:基于AI技术自动去除图片背景,适合创建干净的产品照片或专业的头像,为用户节省大量的手动编辑时间。
  • 即时生成:几秒钟内可生成高质量的营销视觉素材。
  • 图片历史记录:用户生成的所有图像都会自动保存到账户中,方便用户随时轻松地查看、下载或重复使用以前的创作。

VibeNecto的官网地址

VibeNecto的应用场景

  • 内容创作:为社交媒体平台(如Instagram、Facebook、Twitter等)生成吸引人的图片和视频。
  • 品牌推广:帮助品牌创建与品牌形象一致的视觉内容,提升品牌在社交媒体上的知名度和影响力。
  • 电子邮件营销:创建个性化的电子邮件封面图和内部图片,提升邮件的打开率和阅读率。
  • 博客和文章:为博客文章、新闻报道等生成吸引人的标题图和配图,增强内容的视觉吸引力。
  • 视频制作:生成视频的封面图、过渡画面等,提升视频的专业性和吸引力。

如何用AI设计LOGO,DeepSeek+豆包免费批量生成

相信做自媒体账号、开发新项目新产品、线上电商、线下开店的各位宝子肯定面对过这样一个问题:

想要一个有辨识度并且不会侵权的LOGO。

但是找设计师设计价格高昂不说,也担心被人欺负不懂设计而上当受骗。

找找世面上专业的LOGO设计工具吧,同样需要收费,虽然价格不会太高,但是质量又难以保证。

那么该怎么办呢?

其实用DeepSeek+豆包,就能批量生成高质量的LOGO。

做法简单,还完全免费。

话不多说,我们直接进入实战环节。

了解LOGO设计核心逻辑

得益于豆包强大的生图能力,我们只要将相应的提示词喂给豆包,就能生成出不错的LOGO图。

但是想生成符合需求的LOGO,一套能表达精准且结构化的提示词是必不可少的。

这个提示词的核心逻辑建议截图保存:

LOGO的原型字+字体是否需要进行变形+LOGO所适用的领域范围+LOGO所包含的相关元素+LOGO所使用的字体风格+所使用的颜色组合风格

顺便附上常见的设计术语翻译指南:

“大气” ➔ 对比强烈的几何形状+留白设计

“年轻化” ➔ 动态渐变/不规则轮廓+高饱和度配色

“国际感” ➔ 无衬线字体+金属质感元素

“要有记忆点” ➔ 负空间设计+符号隐喻

比如,我想设计一个萌萌的宠物店LOGO。

输入提示词:

设计一个萌系宠物店LOGO,采用圆胖手写体并将字母“P”顶端变形为猫耳轮廓,主色调使用#FFD1DC(樱花粉)与#FFFACD(奶油黄)的柔光渐变,在字母笔画间嵌入隐藏的小鱼干和骨头图案,外层包裹哑光质感云朵边框,尾笔画微微翘起形成猫尾巴曲线,整体保留35%动态留白增强童趣感。

就得到了4个萌趣可爱的LOGO。

当然,手搓提示词还是太吃设计天赋了,只适合有设计基础的选手。

那有没有更简单的操作呢?

有的。

让AI变身专业设计师

我们只需要把第一步所说的核心逻辑教给DeepSeek,就可以让它变身专业的提示词工程师,帮助豆包能更好的完成LOGO设计。

当然你和AI说些听不懂的怪话,肯定是没用的。

我们把核心逻辑+使用这个LOGO的场景和风格直接发给DeepSeek。

立马就能得到精准且专业的提示词:

提示词:设计一个以圆润可爱的卡通手写字体为基础原型进行柔和曲线变形,融入面包、烤箱、麦穗元素,搭配小熊或厨师帽卡通形象,采用暖黄色、奶油白、浅棕色与粉色调色板,呈现活泼温馨的烘焙主题logo,适用于面包坊招牌、纸袋包装及数字媒体场景。

将这份提示词发给豆包,得到了如下LOGO:

是不是比自己手搓提示词更简单,还更有质量

聪明的你可能又会有疑问了:背景太花了,我只想要LOGO怎么办?

直接让AI去除背景,效果好像也不太行。

我们只需要在提示词中删除多余的元素,就能获得纯LOGO图。

例如删除“适用于面包坊招牌、纸袋包装及数字媒体场景。”

效果立竿见影:

想要批量生成,只需要在提示词中加入数量限定。

例如:生成20张。

(限豆包网页版超能创意1.0可用)

一些分享

AI时代,给予了我们每一个人无限的可能,巧妙地使用AI就能完成个人难以完成的事情。

不仅仅是LOGO设计,其他事情也是如此。

只要我们为解决问题积极给出自己可行的方案和想法,AI都能够替你实现。

快来生成你的第一个LOGO吧。

原文链接:DeepSeek+豆包,AI一键批量设计LOGO

3DTown – 哥伦比亚联合Cybever AI等推出单视图生成3D城镇场景的框架

3DTown是什么

3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,基于预训练的3D对象生成器分别生成每个区域的3D内容,基于掩码修正流修复过程填补缺失的几何结构,同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景,在多种风格的场景生成中表现出色,优于现有的先进方法。

3DTown

3DTown的主要功能

  • 生成多样化的3D场景:支持不同风格和布局的场景生成,如“雪镇”、“沙漠小镇”等。
  • 保持几何和纹理一致性:生成的3D场景在几何结构和纹理上与输入图像高度一致。
  • 高效处理复杂场景:能有效处理复杂场景,避免几何失真和布局幻觉。

3DTown的技术原理

  • 区域化生成:将输入图像分解为重叠区域,每个区域独立生成3D内容。用预训练的3D对象生成器对每个区域进行生成,提高局部对齐和分辨率。基于区域融合,将生成的区域逐步合并为连贯的全局3D场景。
  • 空间感知3D修复:用单目深度估计和地标检测初始化粗略的3D结构,作为空间先验。基于掩码修正流(Masked Rectified Flow)技术,填补缺失的几何结构,同时保持已知内容的连续性。基于两阶段的掩码修正流管道,生成稀疏结构和结构化潜在表示,确保全局一致性。
  • 结构化潜在表示:基于结构化潜在表示来构建3D场景,包括位置索引和潜在特征向量。用稀疏结构生成器和结构化潜在生成器,逐步生成3D场景的潜在表示。
  • 模块化设计:基于模块化设计,将复杂的3D场景生成问题分解为多个子问题,每个子问题独立解决后再进行整合。

3DTown的项目地址

3DTown的应用场景

  • 虚拟世界构建:快速生成虚拟城镇或场景,为虚拟现实(VR)和增强现实(AR)应用提供逼真的环境。
  • 游戏开发:为游戏设计师提供高效工具,从简单俯视图生成复杂3D游戏场景,节省时间和成本。
  • 机器人模拟:创建逼真的3D场景用于机器人训练,提高机器人在复杂环境中的导航和交互能力。
  • 数字内容创作:帮助艺术家和设计师快速生成3D场景原型,加速创意过程,提升工作效率。
  • 建筑与城市规划:从概念草图生成3D建筑模型和城市布局,辅助规划和设计工作,便于方案展示和评估。

BnbIcons – AI图标生成工具,快速生成Airbnb风格的等距图标

BnbIcons是什么

BnbIcons是AI驱动的图标生成工具,能创建类似Airbnb风格的等轴测图标。用户只需输入文字描述或上传参考图片,AI能生成符合要求的图标。提供464+个预制图标,涵盖多种类别和风格,可快速找到所需图标。用户可以批量创建图标,输入一系列类别,可生成整套匹配的图标,节省设计时间。

BnbIcons

BnbIcons的主要功能

  • AI辅助图标生成:通过AI技术,根据用户输入的文本描述或上传的参考图片,快速生成Airbnb风格的等距图标。
  • 海量预设图标:提供464个预设图标,涵盖多种主题和场景,可满足用户的多样化需求。
  • 参考图片上传:支持上传参考图片,帮助AI更好地理解用户的设计意图,生成更符合预期的图标。
  • 批量图标生成:可以一次性生成一组主题图标,例如一次性生成一套按摩类型的图标。
  • 图标动画功能:生成图标后,可为其添加简单动画,让图标更具活力。
  • 混合功能:生成的图标不满意,可以使用“混合”功能重新生成变体。

BnbIcons的官网地址

BnbIcons的应用场景

  • 界面设计:在设计应用程序、网站或移动应用的界面时,快速生成符合风格的图标,提升设计效率。
  • 原型设计:为产品原型添加图标,使原型更加完整和专业,便于团队沟通和用户测试。
  • 社交媒体内容:为社交媒体平台(如Instagram、Facebook、Twitter等)创建吸引人的图标,增强内容的视觉吸引力。
  • 广告设计:在设计广告素材时,快速生成与广告主题相关的图标,提升广告的吸引力和效果。
  • 教学材料:在制作教学PPT、在线课程或培训材料时,使用图标来增强视觉效果,帮助学生更好地理解和记忆。

EmoxCare – AI心理咨询师,提供针对性的疗愈指导

EmoxCare是什么

EmoxCare是免费的AI心里咨询师,帮助用户进行心理健康管理。用户可以通过文字、语音消息等方式与EmoxCare进行交流,会根据用户的输入提供情感支持和指导。应用提供自我疗愈练习、心理健康评估和报告等功能。EmoxCare提供的信息仅供参考,不能替代专业医疗或心理健康建议。

EmoxCare

EmoxCare的主要功能

  • 情绪追踪与聊天:用户可以与 EmoxCare 进行文字或语音交流,倾诉烦恼、分享心情,会记录情绪变化,为用户提供情感支持。
  • 冥想与正念练习:提供冥想和正念练习,帮助用户缓解压力、放松身心,改善睡眠质量。
  • 心理健康评估:包含抑郁和焦虑等心理健康评估测试,让用户更深入地了解自己的心理状态。
  • 情绪调节与应对:针对愤怒、焦虑、冲突等情绪和问题,提供相应的调节方法和应对策略。

EmoxCare的官网地址

EmoxCare的应用场景

  • 日常情绪调节:用户可以在日常生活中遇到情绪波动时,如感到焦虑、沮丧或愤怒时,通过文字或语音与 EmoxCare 交流。根据用户的情绪状态提供相应的调节建议,如深呼吸、冥想练习等,帮助用户缓解负面情绪。
  • 心理健康评估:用户可以定期进行心理健康评估,如抑郁和焦虑测试。EmoxCare 会根据测试结果为用户提供个性化的心理健康报告,建议用户是否需要进一步寻求专业帮助。
  • 学生情绪支持:在线教育平台可以集成 EmoxCare,实时监测学生的情绪状态。当发现学生情绪低落或焦虑时,EmoxCare 可以提供心理疏导和放松技巧,帮助学生缓解学习压力。
  • 情绪监测与响应:在智能客服系统中,EmoxCare 可以实时监测用户的情绪状态,一旦识别到负面情绪,立即提供舒缓音乐或心理疏导,提升用户满意度。

JoyAgent智能体平台 – 京东云推出的一站式AI智能体构建平台

JoyAgent智能体平台是什么

JoyAgent智能体平台是京东云推出的企业级一站式AI智能体搭建与发布平台。平台聚合大模型、知识库、插件和工作流等能力,支持低代码开发,用户无需复杂编程用自然语言快速构建基于大语言模型(LLM)的AI智能体。平台提供丰富的预置模板和工具,支持一键发布到微信、企业微信等主流IM和协同办公渠道。典型应用场景包括智能客服、OA自动化和热点营销等,帮助企业提升业务效率和客户体验。

JoyAgent

JoyAgent智能体平台的主要功能

  • 主动分析与智能决策:主动聚焦问题,进行精准运算和深度分析。基于分析结果,智能决策并精准执行。
  • 多模态交互与工具集成:支持文本、图像、视频等多种输入输出方式。集成搜索、数据分析、代码开发等工具,提供全面支持。
  • 多智能体协同:多智能体高效协作,基于共识算法快速决策。对话规划委员会讨论或投票选出最佳方案执行。
  • 低代码构建与扩展:提供模版式构建,快速搭建智能化工作流。支持 AI 原生,按需选择丰富的大模型。预置插件工具,支持灵活自定义扩展。
  • 一键发布与多渠道集成:一键发布到企业微信、微信公众号等主流渠道。无缝集成现有办公和沟通环境,提升便捷性。

如何使用JoyAgent智能体平台

  • 注册与登录:访问JoyAgent 智能体平台官方网站,按提示完成注册和登录。
  • 创建智能体
    • 选择模板:平台提供多种预置模板,如智能客服、OA 自动化等。根据需求选择合适的模板。
    • 自定义智能体:创建全新的智能体,从头开始配置。
  • 配置智能体
    • 基本信息:设置智能体的名称、描述、人设等基本信息。
    • 对话逻辑:配置智能体的对话风格、回复逻辑等,确保符合业务需求。
    • 知识库:上传本地文档或导入在线数据,训练智能体的知识库。
    • 插件:选择或开发插件,增强智能体的功能。例如,添加联网搜索、天气查询等插件。
    • 工作流:基于工作流编排,组合大模型、知识库、插件等能力,增强智能体对复杂任务的理解和执行能力。
  • 预览与调试
    • 预览:在预览模式下与智能体进行对话,测试响应是否符合预期。
    • 调试:在调试界面查看智能体的执行过程,优化配置。
  • 发布智能体
    • 选择发布渠道:将智能体一键发布到微信、企业微信、公众号、网站等主流即时通讯和协同办公平台。
    • 配置接入:根据发布渠道的要求,进行必要的配置,确保智能体正常运行。

JoyAgent智能体平台的应用场景

  • 智能客服:自动回答问题,提升客户满意度。
  • OA自动化:处理差旅申请等办公任务,提高效率。
  • 热点营销:分析热点生成营销策略,把握市场动态。
  • 知识管理:构建知识库,助力员工快速获取信息。
  • 协同办公:集成主流平台,支持团队协作。