Skip to main content

Author: Chimy

探饭 – 字节跳动推出的AI美食推荐助手

探饭是什么

探饭是字节跳动旗下抖音推出的AI饭搭子。探饭基于豆包大模型,为用户提供全方位的美食智能向导服务,包括探店推荐、菜品推荐、美食攻略、AI点菜等。支持用户基于探饭购买团购套餐、点外卖。探饭通过分析用户偏好和历史记录,提供个性化美食推荐,帮助用户快速决策,提升就餐体验。目前仅支持抖音小程序,未来有望拓展更多平台和功能,成为美食爱好者的生活助手。

探饭

探饭的主要功能

  • 美食推荐:根据用户的地理位置和口味偏好,为用户推荐适合的餐厅和菜品,帮助用户发现心仪的美食。
  • 探店比店:提供丰富的探店信息,用户能对两家餐厅进行多维度对比,更精准地选择心仪的餐厅。
  • 美食攻略:发布各种主题的美食攻略,为用户在不同场景下的美食探索提供参考和建议。
  • 点菜团购:借助AI技术辅助用户点菜,支持团购套餐购买及外卖服务,方便快捷。
  • 地图导航:支持地图找店功能,用户能直观地查找附近美食店,且能跳转至高德地图进行导航,方便用户前往。
  • 用户互动:用户能查看和发表评论,分享自己的美食体验,或收藏喜欢的餐厅或菜品,设置提醒,以便下次访问。

如何使用探饭

  • 打开探饭:在抖音APP首页 – 搜索“探饭”小程序,找到点击进入。
  • 美食推荐:输入口味偏好,查看附近餐厅和菜品推荐。
  • 探店比店:选择两家餐厅,查看多维度对比分析。
  • 美食攻略:浏览特定主题的美食攻略,获取建议。
  • 点菜团购:选择餐厅,输入就餐人数和偏好,购买团购套餐。
  • 地图找店与导航:在地图上搜索餐厅,点击导航跳转至高德地图。
  • 用户互动:查看和发表评论,收藏喜欢的餐厅或菜品。

探饭的应用场景

  • 日常就餐:帮助用户快速决定吃什么,提供附近餐厅和菜品推荐,还能辅助点菜。
  • 外出旅行:发现当地特色美食,提供详细攻略,支持导航和团购,节省旅行成本。
  • 社交聚会:比较不同餐厅,选择适合聚会的场所,推荐合适的团购套餐。
  • 健康饮食:根据用户饮食需求推荐合适餐厅和菜品,提供个性化营养建议。
  • 外卖服务:快速找到适合外卖的餐厅,直接下单,方便在家或办公室点餐。

Hunyuan-GameCraft – 腾讯混元推出的交互式游戏视频生成框架

Hunyuan-GameCraft是什么

Hunyuan-GameCraft 是腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间,实现精细的动作控制,支持复杂的交互输入。框架推出混合历史条件训练策略,能自回归地扩展视频序列,保留游戏场景信息,确保长期的时间连贯性。基于模型蒸馏技术,Hunyuan-GameCraft 显著提高推理速度,适合在复杂交互环境中实时部署。模型在大规模 AAA 游戏数据集上进行训练,展现出卓越的视觉保真度、真实性和动作可控性,显著优于现有模型。

Hunyuan-GameCraft

Hunyuan-GameCraft的主要功能

  • 高动态交互式视频生成:从单张图片和对应的提示生成高动态的交互式游戏视频内容,支持用户基于键盘和鼠标输入进行实时控制。
  • 精细动作控制:将标准键盘和鼠标输入统一到共享的相机表示空间,支持复杂和精细的交互输入,如速度和角度控制。
  • 长期视频生成:支持生成长时间连贯的视频序列,保留历史场景信息,避免场景崩溃。
  • 实时交互:显著提高推理速度,降低延迟,支持实时交互,提升用户体验。
  • 高视觉保真度:在大规模 AAA 游戏数据集上进行训练,生成的视频具有高视觉保真度和真实感,适用多种游戏场景和艺术风格。

Hunyuan-GameCraft的技术原理

  • 统一动作表示:将键盘和鼠标输入(如 W、A、S、D、箭头键等)映射到连续的相机表示空间,基于轻量级的动作编码器将输入的相机轨迹编码为特征向量,实现平滑的动作插值。
  • 混合历史条件训练策略:基于历史上下文集成和掩码指示器,自回归地扩展视频序列。在每个自回归步骤中,用历史去噪块作为条件,引导新噪声潜变量的去噪过程,保留场景信息,解决自回归生成中的误差累积问题。
  • 模型蒸馏:基于 Phased Consistency Model (PCM) 实现模型蒸馏,将原始扩散过程和分类器自由引导蒸馏成紧凑的八步一致性模型,显著提高推理速度,降低计算开销。
  • 大规模数据集训练:在超过 100 款 AAA 游戏的超过一百万条游戏录制数据上进行训练,确保模型的广泛覆盖和多样性。用精心注释的合成数据集进行微调,提高精度和控制能力。

Hunyuan-GameCraft的项目地址

  • 项目官网:https://hunyuan-gamecraft.github.io/
  • GitHub仓库:https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
  • HuggingFace模型库:https://huggingface.co/tencent/Hunyuan-GameCraft-1.0
  • arXiv技术论文:https://arxiv.org/pdf/2506.17201

Hunyuan-GameCraft的官方示例

单动作场景,画面动态自然,风车自然旋转

  • PromptA picturesque village scene featuring quaint houses, a windmill, lush greenery, and a serene mountain backdrop under a bright blue sky.
    中文:一幅风景如画的乡村场景,拥有古色古香的小屋、风车、郁郁葱葱的绿植,以及在明亮的蓝天下宁静的山脉背景。

Hunyuan-GameCraft

多动作场景,可以同时转换视角和走动

  • PromptA sunlit courtyard features white adobe buildings with arched doorways and windows, surrounded by lush greenery and palm trees, creating a serene Mediterranean ambiance.
  • 中文:阳光照耀下的庭院,白色土坯建筑带有拱形门廊和窗户,周围环绕着郁郁葱葱的绿植和棕榈树,营造出宁静的地中海氛围。

Hunyuan-GameCraft

历史一致性,移开镜头回来之后不变形

  • PromptA medieval stone castle stands tall under a dark sky, its glowing windows contrasting with the surrounding snow-covered landscape.
  • 中文:一座中世纪的石头城堡在黑暗的天空下高高耸立,其发光的窗户与周围被雪覆盖的景观形成鲜明对比。

Hunyuan-GameCraft

Hunyuan-GameCraft的应用场景

  • 游戏视频生成:快速生成游戏预告片、演示视频和游戏内的过场动画,帮助游戏开发者在早期阶段验证游戏概念和设计。
  • 游戏测试:自动生成游戏场景和交互,用在测试游戏的性能和玩家体验,减少手动测试的工作量。
  • 游戏内容扩展:为现有游戏生成新的关卡、场景和交互内容,延长游戏的生命周期,增加玩家的参与度。
  • 互动视频内容:为视频平台和社交媒体生成互动式视频内容,用户输入指令控制视频的发展,提供全新的观看体验。
  • 虚拟现实(VR)和增强现实(AR):在 VR 和 AR 应用中生成沉浸式的交互式内容,增强用户的沉浸感和参与感。

Mu – 微软推出的小参数语言模型

Mu是什么

Mu是微软推出的小参数语言模型,仅3.3亿参数,支持在 NPU 和边缘设备上高效运行。模型基于编码器解码器架构,基于硬件感知优化、模型量化及特定任务微调,实现每秒超100 tokens的响应速度。Mu支持Windows设置智能体,能将自然语言指令实时转化为系统操作,如调整屏幕亮度、鼠标指针大小等。与-Phi3.5-mini相比,Mu参数量小10倍,但性能相当。其创新包括双重层归一化、旋转位置嵌入和分组查询注意力等技术,提升训练稳定性和推理效率。

Mu

Mu的主要功能

  • 系统设置调整:用户基于自然语言指令调整系统设置,如“把鼠标指针调大一些”或“调整屏幕亮度”。
  • 低延迟响应:Mu能在设备端快速响应,响应速度超过100 tokens/second,确保用户体验流畅。
  • 集成到Windows设置:Mu被集成到Windows设置的搜索框中,用户直接在搜索框中输入自然语言指令,系统自动识别并执行相关操作。
  • 支持多种设置:Mu能处理数百项系统设置,覆盖用户日常使用中的各种需求。

Mu的技术原理

  • 编码器解码器架构:Mu基于编码器-解码器架构,编码器将输入文本转换为固定长度的潜在表示,解码器基于表示生成输出。
  • 硬件感知优化:Mu针对NPU进行优化,包括调整模型架构和参数形状适应硬件的并行性和内存限制,确保模型在NPU上高效运行。
  • 模型量化:基于后训练量化(PTQ),将模型权重和激活从浮点数转换为整数表示,主要使用8位和16位整数,显著减少模型的内存占用和计算需求,保持模型的准确性。
  • 创新的Transformer升级
    • 双重层归一化(Dual LayerNorm):在每个子层前后分别进行LayerNorm操作,确保激活值分布良好,稳定训练过程。
    • 旋转位置嵌入(Rotary Positional Embeddings, RoPE):基于复数域的旋转操作,动态生成位置编码,支持长序列的外推能力,避免传统绝对位置编码的局限性。
    • 分组查询注意力(Grouped-Query Attention, GQA):基于在头组之间共享键和值,减少注意力参数数量和内存占用,保持头的多样性,提升模型效率。
  • 训练技术:用A100 GPU进行预训练,从Phi模型进行知识蒸馏,基于低秩适配(LoRA)方法进行特定任务的微调,进一步提升模型性能。

Mu的项目地址

  • 项目官网:https://blogs.windows.com/windowsexperience/2025/06/23/introducing-mu-language-model-and-how-it-enabled-the-agent-in-windows-settings/

Mu的应用场景

  • 系统设置调整:Mu能理解自然语言指令,帮助用户快速调整Windows系统设置,如屏幕亮度、鼠标指针大小等,无需手动查找设置菜单,提升操作便捷性。
  • 实时交互:Mu能在设备端快速响应,响应速度超过100 tokens/second,适合实时交互场景。
  • 多语言支持:Mu支持多种自然语言,用户用不同语言输入指令,Mu能准确理解执行。
  • 辅助功能:Mu帮助视力不佳或操作不便的用户基于语音指令完成系统设置,提升系统的可访问性。
  • 未来扩展:Mu具有良好的扩展性,未来能扩展为更通用的智能助手,处理日程管理、文件操作等指令。

子曰3(Confucius3-Math) – 网易有道开源的数学推理模型

子曰3(Confucius3-Math)是什么

Confucius3-Math是网易有道开源的“子曰3”系列大模型中的数学模型,是国内首个专注于数学教育的开源推理模型。具有140亿参数,专为K-12数学教育场景优化,可在单块消费级GPU(如RTX 4090D)上高效运行,推理性能约为DeepSeek R1的15倍,服务成本每百万token低至0.15美元,远低于大多数通用大模型。在多个数学数据集上表现出色,在基于高考数学题的GAOKAO-Bench(Math)评测框架中,得分高达98.5分,超越了许多规模更大的通用模型。通过大规模增强学习和创新算法,实现了更优的成本效益,为教育机构和开发者提供了低成本、高性能的AI解决方案。

Confucius3-Math

子曰3(Confucius3-Math)的主要功能

  • 高效推理能力:模型在多个数学推理任务中表现出色,尤其在高考数学题评测框架 GAOKAO-Bench(Math)中得分高达 98.5 分,超越了许多规模更大的通用模型。
  • 低成本与高性能:通过大规模增强学习和创新算法,训练成本仅为 2.6 万美元,推理性能约为 DeepSeek R1 的 15 倍。可以在单块消费级 GPU(如 RTX 4090D)上高效运行,服务成本每百万 token 低至 0.15 美元。
  • 教育场景优化:专为 K-12 数学教育场景设计,有效辅助数学教学,解决教育资源不平等、个性化辅导不足等问题。

子曰3(Confucius3-Math)的技术原理

  • 大规模增强学习:模型通过大规模增强学习技术,结合数学问题的特点,对模型进行针对性训练,在数学推理任务中表现出色。
  • 创新算法优化:采用一系列创新算法,显著提升了模型的推理性能和训练效率。推理性能约为 DeepSeek R1 的 15 倍,训练成本仅为 2.6 万美元。
  • 轻量化设计:Confucius3-Math 是 140 亿参数的轻量级模型,能在单块消费级 GPU(如 RTX 4090D)上高效运行,大大降低了硬件成本。
  • 针对教育场景优化:模型针对 K-12 数学教育场景进行了优化,能更好地理解和解决高考数学题等复杂问题。

子曰3(Confucius3-Math)的项目地址

  • Github仓库:https://github.com/netease-youdao/Confucius3-Math
  • 技术论文:https://github.com/netease-youdao/Confucius3-Math/blob/main/Confucius3-Math.pdf
  • 在线Demo:https://confucius.youdao.com/

子曰3(Confucius3-Math)的应用场景

  • 个性化数学辅导:Confucius3-Math 能为学生提供个性化的数学学习方案。通过对学生的学习进度、知识掌握程度和解题习惯的分析,模型可以生成针对性的练习题和学习建议,帮助学生更好地理解和掌握数学知识。
  • 智能作业批改与反馈:模型可以自动批改数学作业和试卷,为学生提供详细的解题步骤和错误分析。
  • 数学问题解答与讲解:Confucius3-Math 能快速准确地解答各种数学问题,提供清晰的解题思路和步骤。
  • 教育资源优化与共享:通过开源和低成本的特性,Confucius3-Math 降低了教育机构和开发者部署数学 AI 应用的门槛。
  • 模拟考试与能力评估:模型可以生成模拟考试题目,根据学生的表现进行能力评估。

Comate AI IDE – 文心快码推出的AI原生IDE,首创设计稿一键转代码

Comate AI IDE是什么

Comate AI IDE是百度文心快码推出的行业首个多模态、多智能体协同的AI原生IDE工具。具备强大的多模态能力,支持设计稿一键转代码(F2C)、图片转代码以及自然语言转代码,在前端开发场景中表现出色,能将Figma设计稿精准转化为高可用代码,节省大量重复劳动。Comate AI IDE内置编程智能体Zulu,可自主思考和决策,支持任务自动拆解与执行,开发者仅需语音指令可完成复杂任务。覆盖从需求分析到代码提交的全流程AI辅助,针对中文开发者优化了自然语言理解能力,更贴合国内研发场景。

Comate AI IDE

Comate AI IDE的主要功能

  • 多模态能力:支持设计稿一键转代码(F2C)、图片转代码、自然语言转代码等功能,在前端开发场景中表现出色。生成的代码可预览,预览后可使用自然语言调整页面元素,像真正的“前端工程师”一样开发代码。
  • 多智能体协同:内置编程智能体 Zulu,具备自主思考和决策能力,支持自动拆解任务计划、自主决策下一步执行内容,实时展示思考过程。开发者可以通过语音指令完成复杂任务。
  • AI 辅助编码全流程:覆盖从需求分析、代码编写、运行与测试到提交代码的全流程,支持代码生成、优化、修复、注释生成、单元测试生成等功能。
  • 开发工具集成:内置十余种开发工具,如文件检索、代码分析、代码编辑等,支持 MCP 对接外部工具和数据,适配各种开发场景。
  • 便捷迁移与适配:支持快速迁移原 IDE 配置,降低使用门槛,适合不同水平的开发者。
  • 优化中文开发者体验:针对中文开发者优化了自然语言理解能力,更贴合国内研发场景。

如何使用Comate AI IDE

  • 进入 Comate 官网:访问文心快码的官网,选择Comate AI IDE下载。
  • 下载安装:点击“下载 Comate AI IDE”,选择对应的 IDE 版本(如 VS Code、JetBrains IDEs 等)进行下载并安装。
  • 安装插件
    • VS Code:打开 VS Code,点击左侧边栏的扩展图标,搜索“Baidu Comate”,点击安装。
    • JetBrains IDEs:打开 IDE,进入“Plugins”市场,搜索“Baidu Comate”,点击安装。
  • 登录账号:安装完成后,点击插件图标,登录百度账号(也可使用微信、微博、QQ 号登录)。
  • 使用方法
    • 代码补全:在代码编辑区输入部分代码,Comate 会自动补全后续代码。如果认为生成的代码正确,按下 Tab 键即可引用。
    • 注释生成代码:编写注释描述代码功能,按下回车键,Comate 会根据注释生成对应代码。
    • 对话生成代码:在 IDE 中点击 Comate 智能编码助手,输入自然语言描述需求,Comate 会生成完整代码。
    • 生成单元测试:将鼠标悬停在函数头部,点击“生成单测”,Comate 会在左侧生成单元测试代码。
    • 技术问答:在对话框中输入研发问题,Comate 会提供解答。
    • 多模态功能:如设计稿转代码(F2C),在 IDE 中点击 Comate 插件,选择对应功能并上传设计稿,即可生成代码。

Comate AI IDE的核心优势

  • 多模态与多智能体协同:Comate AI IDE 是行业首个多模态、多智能体协同的 AI IDE。能处理多种类型的数据输入,如文本、图像、语音等,转化为统一的代码输出。内置的编程智能体 Zulu 具备自主思考和决策能力,支持自动拆解任务计划、自主决策下一步执行内容,并实时展示思考过程。
  • 强大的前端开发能力:Comate AI IDE 在前端开发场景中表现突出,支持设计稿一键转代码(F2C)、图片转代码、自然语言转代码等功能。生成的代码可预览,支持通过自然语言调整页面元素,像真正的“前端工程师”一样开发代码。F2C 功能能将 Figma 设计稿精准转化为高可用代码,节省了 80% 的重复劳动。
  • 优化中文开发者体验:针对中文开发者,Comate AI IDE 优化了自然语言理解能力,更贴合国内研发场景。使中文开发者在使用过程中能获得更精准的交互体验。
  • 便捷的工具集成与迁移:Comate AI IDE 内置了十余种开发工具,如文件检索、代码分析、代码编辑等,并支持 MCP 对接外部工具和数据,适配各种开发场景。支持快速迁移原 IDE 配置,降低了使用门槛。

Comate AI IDE的应用场景

  • 前端开发:Comate AI IDE 支持设计稿一键转代码(F2C)、图片转代码、自然语言转代码等功能,能将 Figma 设计稿精准转化为高可用代码,生成的代码可预览,支持通过自然语言调整页面元素。
  • 全栈开发:Comate AI IDE 支持从需求分析到代码提交的全流程 AI 辅助编程。开发者可以通过自然语言描述需求,Comate 生成对应的代码,支持代码补全、注释生成、单元测试生成等功能。
  • 企业级开发:Comate AI IDE 支持私有化部署,能学习企业的业务代码和流程,为企业提供定制化的编码辅助服务。
  • 教育与普及:Comate AI IDE 降低了编程门槛,适合不同水平的开发者,包括视障开发者和小学生群体。在北京市海淀区,三位小学生用 Comate 完成了自己的编程命题,搭建了少儿编程开源社区。
  • 金融行业:Comate 帮助企业快速理解业务代码并自动生成相关代码片段,显著减少重复工作。
  • 软件行业:技术问答功能通过丰富的技术知识库快速解答编程中的问题,节省大量时间。

PosterCraft – 港科大联合美团等推出的美学海报生成框架

PosterCraft是什么

PosterCraft是香港科技大学(广州)和美团等机构推出的用在生成高质量美学海报的统一框架。框架摒弃模块化设计流程和固定的预定义布局,支持模型自由探索连贯且视觉上引人入胜的构图。框架基于四个关键阶段的级联工作流优化高美学海报的生成,可扩展的文本渲染优化、高质量海报微调、基于美学文本的强化学习以,及视觉-语言反馈精炼。每个阶段用专门的自动化数据构建管道支持,满足特定需求,实现无需复杂架构修改的稳健训练。在多项实验中,PosterCraft在渲染准确性、布局连贯性和整体视觉吸引力方面显著优于开源基线,接近商业系统的质量。

PosterCraft

PosterCraft的主要功能

  • 高质量文本渲染:能准确地渲染文本,确保文本内容的清晰度和准确性。
  • 艺术内容创作:生成具有抽象艺术感的视觉内容,让海报具有独特的美学风格。
  • 引人注目的布局设计:创建具有视觉冲击力的布局,确保整体设计的协调性和一致性。
  • 端到端生成:从文本输入到最终海报的生成,整个过程在单一模型中完成,无需外部模块或预设模板。
  • 美学优化:基于强化学习和视觉-语言反馈机制,优化海报的美学质量和内容准确性。

PosterCraft的技术原理

  • 可扩展的文本渲染优化:基于大规模的Text-Render-2M数据集,对模型进行文本渲染的优化训练,提高文本的准确性和清晰度。
  • 高质量海报微调:基于HQ-Poster-100K数据集进行监督微调,提升海报的整体视觉质量和艺术风格的一致性。
  • 基于美学文本的强化学习:用Poster-Preference-100K数据集,基于最佳偏好优化,训练模型生成更符合人类审美的海报。
  • 视觉-语言反馈精炼:借助Poster-Reflect-120K数据集,结合多模态反馈,对生成的海报进行进一步的优化和调整,提高内容的准确性和美学价值。

PosterCraft的项目地址

  • 项目官网:https://ephemeral182.github.io/PosterCraft/
  • GitHub仓库:https://github.com/Ephemeral182/PosterCraft
  • HuggingFace模型库:https://huggingface.co/PosterCraft
  • arXiv技术论文:https://arxiv.org/pdf/2506.10741

PosterCraft的应用场景

  • 电影海报:根据电影主题生成吸引人的海报,突出关键元素和视觉冲击力。
  • 艺术展览海报:生成具有艺术感和文化氛围的海报,展现展览理念和风格特点。
  • 产品推广海报:根据产品特点生成吸引人的推广海报,展示功能和优势。
  • 学术会议海报:生成专业和学术氛围的海报,展示会议主题和议程。
  • 校园活动海报:制作富有创意的海报,展现活动内容和亮点。

Ring-lite – 蚂蚁技术开源的轻量级推理模型

Ring-lite是什么

Ring-lite是蚂蚁技术AntTech团队推出的基于MoE架构的轻量级推理模型。模型用Ling-lite-1.5为基础,基于独创的C3PO强化学习训练方法,在多项推理Benchmark上达到SOTA效果,仅用2.75B激活参数。Ring-lite基于稳定强化学习训练、优化Long-CoT SFT与RL的训练比重、解决多领域任务联合训练难题等技术创新,实现高效推理。Ring-lite开源了技术栈,包括模型权重、训练代码、数据集等,推动轻量级MoE推理模型的发展。

Ring-lite

Ring-lite的主要功能

  • 高效推理:Ring-lite能在多项复杂的推理任务中实现高效推理,如数学推理、编程竞赛和科学推理等。
  • 轻量级设计:Ring-lite的总参数量为16.8B,激活参数仅为2.75B,在保持高性能的同时,具有较低的计算资源需求,适合在资源受限的环境中使用。
  • 多领域推理:Ring-lite能处理多个领域的推理任务,包括数学、编程和科学等。它通过联合训练和分阶段训练的方法,实现在不同领域之间的协同增益,提高模型的泛化能力。
  • 稳定训练:Ring-lite基于C3PO强化学习训练方法,解决传统强化学习训练中的不稳定性问题,提高训练过程的稳定性和效率。

Ring-lite的技术原理

  • MoE架构:Ring-lite基于Mixture-of-Experts(MoE)架构,基于多个专家网络的组合处理输入数据。每个专家网络负责处理特定的子任务或数据特征,提高模型的推理能力和效率。
  • C3PO强化学习训练方法:C3PO(Constrained Contextual Computation Policy Optimization)是创新的强化学习训练方法。基于固定每个训练步骤的总训练token数,消除由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO基于熵损失(entropy loss)的策略选择合适的起点模型,进一步稳定训练过程。
  • Long-CoT SFT与RL的结合:Ring-lite基于Long-CoT(长推理链)监督微调(SFT)和强化学习(RL)相结合的两阶段训练方法。用Long-CoT SFT,模型能学习到复杂的推理模式;基于RL,模型能在特定任务上进一步优化性能。Ring-lite基于实验确定最佳的SFT和RL训练比重,在token效率和性能之间取得平衡。
  • 多领域数据联合训练:Ring-lite在训练过程中采用数学、编程和科学等多个领域的数据。基于分阶段训练的方法,在数学任务上进行训练,然后在代码和科学任务上进行联合训练,有效地解决多领域数据联合训练中的领域冲突问题。

Ring-lite的项目地址

  • GitHub仓库:https://github.com/inclusionAI/Ring
  • HuggingFace模型库:https://huggingface.co/inclusionAI/Ring-lite
  • arXiv技术论文:https://arxiv.org/pdf/2506.14731

Ring-lite的应用场景

  • 教育领域:辅助学生解决复杂的数学和科学问题,提供详细的解题步骤和推理过程,帮助学生更好地理解和掌握知识。
  • 科研领域:辅助研究人员验证和探索复杂的数学和科学问题,提供详细的推理步骤和解决方案,支持理论研究和实验设计。
  • 工业和商业领域:处理和分析复杂的数据,提供推理过程和解决方案,用于金融、医疗和市场营销等领域的预测和决策支持。
  • 智能助手:集成到智能助手中,提供更智能的推理和解答能力,处理复杂的查询和任务,提升用户体验。
  • 医疗领域:辅助医生和研究人员分析和处理复杂的医学数据,提供详细的推理过程和解决方案,支持疾病诊断和治疗方案制定。

CreateVision AI – AI图像生成平台,支持样式、颜色、光照精准控制

CreateVision AI是什么

CreateVision AI 是AI图像生成平台,平台融合 Flux.1 Dev 和 GPT-Image-1 两大顶级模型,为用户提供开源与闭源技术路线的极致体验。平台支持用户将创意想法瞬间转化为高质量图像,轻松生成逼真照片、卡通、插画和抽象艺术。支持样式、颜色、光照、构图的 4D 精准控制,满足专业创作需求。CreateVision AI 生成的图像能用在商业用途,无数量限制。

CreateVision AI

CreateVision AI的主要功能

  • 图像生成:输入创意或参考图片生成高质量图像,涵盖多种风格,支持无限量生成。
  • 双引擎支持:兼容Flux.1 Dev和GPT-Image-1,提供多样化的创作选择。
  • 灵感画廊:提供AI创作案例库,汇集全球顶尖艺术家和设计师的创作智慧,为用户提供创作灵感和技术指导。
  • 创作辅助:提供专业提示词和案例,支持4D精准控制,助力精准创作。
  • 商业应用:生成图像支持商业用途,满足商业设计等需求。

如何使用CreateVision AI

  • 访问平台:访问CreateVision AI的官方网站:https://createvision.ai/。
  • 输入创意:在首页的输入框中输入创意描述。
  • 选择模型:根据需求选择合适的模型:
    • Flux.1 Dev:适合生成高质量的多张图像。
    • GPT-Image-1:适合生成精准的单张高质量图像。
  • 调整参数(可选):如果需要更精细的控制,支持调整样式、颜色、光照、构图等4D参数,达到最佳效果。
  • 生成图像:点击“生成”按钮,AI根据描述和选择的模型生成图像。
  • 查看和下载:生成的图像显示在页面上,支持查看、和下载。

CreateVision AI的产品定价

  • 免费版:每日提供20张生图配额,仅支持Flux Dev模型,无水印图像,基础生成速度,高峰期需排队等待。
  • Premium会员:$10/月,每日提供100张生图配额,支持Flux Dev和GPT-Image-1模型,5倍快速生成,无水印图像,快速生成速度,优先生成。
  • 终极会员:$20/月,无限生成,专业级功能,支持Flux Dev和GPT-Image-1模型,最快生成速度,无水印图像,高清图像生成。

CreateVision AI的应用场景

  • 创意设计:用在生成插画、抽象艺术作品、概念艺术等,帮助艺术家和设计师快速实现创意构思。
  • 营销与广告:创建吸引人的广告图像、社交媒体内容和品牌视觉元素,提高营销材料的吸引力和效果。
  • 内容制作:为博客文章、电子书、信息图表等生成相关图像,增强内容的视觉效果和吸引力。
  • 游戏与电影制作:生成游戏资产、概念设计和营销材料,及为电影制作概念图和可视化场景,加快创作进程。
  • 个人娱乐与学习:用户生成个性化头像、壁纸,或用在教育和培训材料的制作,提高学习兴趣和效果。

Lingshu – 阿里推出的医疗多模态语言模型

Lingshu是什么

Lingshu(灵枢)是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练,逐步嵌入医学专业知识,显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本,其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingshu项目推出MedEvalKit评估框架,整合主流的医学基准测试,推动医学AI模型的标准化评估和发展。

Lingshu

Lingshu的主要功能

  • 多模态医学问答:支持处理多种医学成像模态(如X光、CT、MRI等)的视觉问答任务。根据输入的医学图像和相关问题,生成准确的答案。
  • 医学报告生成:Lingshu能生成高质量的医学报告,如放射学报告,根据输入的医学图像,生成详细的“发现”和“印象”部分,为临床医生提供有价值的参考。
  • 医学知识问答:Lingshu能回答纯文本的医学问题,涵盖广泛的医学知识,为医学学生、临床医生和研究人员提供准确的信息。
  • 医学推理与诊断支持:Lingshu具备强大的医学推理能力,根据输入的医学图像和文本信息,进行复杂的推理和诊断支持。
  • 医学图像理解与标注:Lingshu能理解和标注医学图像中的关键特征,如病变位置、类型和严重程度,支持生成详细的图像描述,帮助医生更好地理解图像内容。

Lingshu的技术原理

  • 数据整理
    • 数据收集:从多种来源收集医学成像数据、医学文本数据和通用领域数据。
    • 数据清洗:基于图像过滤、去重和文本清理,确保数据的质量和相关性。
    • 数据合成:生成高质量的医学标题、视觉问答(VQA)样本和推理轨迹,丰富训练数据。
  • 模型架构:Lingshu基于Qwen2.5-VL模型架构,包含三个关键组件,大型语言模型(LLM)处理文本输入和生成文本输出,视觉编码器提取医学图像的视觉特征,投影器将视觉特征映射到语言模型的表示空间。
  • 多阶段训练
    • 医学浅层对齐:用少量医学图像文本对进行微调,让模型准确编码医学图像生成相应的描述。
    • 医学深层对齐:引入更大规模、更高质量和语义更丰富的医学图像文本对数据集,进一步整合医学知识。
    • 医学指令调整:基于大规模的医学指令数据优化模型,提高执行特定任务指令的能力。
    • 医学导向的强化学习:用强化学习与可验证奖励(RLVR)范式,增强模型的医学推理能力。
  • 评估框架:推出MedEvalKit评估框架,整合多个多模态和文本医学基准测试,支持多种问题格式,包括多项选择题、封闭式问题、开放式问题和医学报告生成。框架提供标准化的数据预处理格式和后处理协议,及一致的模型部署和推理接口,支持快速集成和一键评估。

Lingshu的项目地址

  • 项目官网:https://alibaba-damo-academy.github.io/lingshu/
  • HuggingFace模型库:https://huggingface.co/collections/lingshu-medical-mllm/lingshu-mllms-6847974ca5b5df750f017dad
  • arXiv技术论文:https://arxiv.org/pdf/2506.07044

Lingshu的应用场景

  • 医学图像诊断:处理多种医学成像模态的视觉问答任务,分析图像中的异常并提供诊断建议,生成详细的图像描述和标注关键特征,辅助医生进行准确诊断。
  • 医学报告生成:依据医学图像生成高质量的放射学报告和病理报告,涵盖“发现”与“印象”部分,为临床医生提供重要参考,提高报告编写效率与质量。
  • 医学知识问答:提供准确的医学知识,帮助医学学生、专业人士以及临床医生获取所需信息,做出更明智的决策。
  • 医学研究:在医学研究中,协助整理和分析医学图像与文本数据。
  • 公共卫生:Lingshu能处理公共卫生数据,支持流行病学研究,计算归因风险等。

码上飞,全球首个支持生成华为鸿蒙应用的AI Agent

上周的HDC.2025华为开发者大会,在AI这个方面,我看到华为也是猛猛的升级了,最震撼的就是HMAF鸿蒙智能体框架。

小艺助手全面升级,推出了小艺智能体平台,其中的码上飞智能体也是让我眼前一亮。

全球首个支持生成华为鸿蒙应用的智能体!

华为终端BG CEO 何刚在现场展示了:一句话描述功能,就可以让码上飞智能体帮你生成应用。

自动生成需求文档,10分钟内自主完成应用开发,支持下载源码,并且版权归用户所有。

不用写代码,不用学编程,这不就是为我这种看不懂代码,又喜欢各种研究的小白而生的吗?

了解了一下,没想到码上飞竟然还有web端,我立马就上手试了一下,做出来效果真挺不错的:

小游戏

番茄钟

语言大师

对于我这种应用开发的纯外行来说,用它做应用真滴太轻松了!

纯聊,没有任何门槛!打得明白字就行。

接下来带大家一起体验一下我的应用开发全过程~

 

01. 一句话生成应用

 

我们进入码上飞官网,首页有非常多的应用开发案例,可以直接查看开发的对话全过程和最终效果。

大家如果没什么灵感的话,可以在这里翻翻看,参考一下~

平时在群里跟友友们聊天,我总觉得自己说话水平不够,不能很好的用语言传达自己的想法,所以我就想做一个这样的应用:

提示词:创建一个“嘴强王者”应用,为我的互联网朋友们解决词穷困扰。

提供将日常语言转化成高情商、犀利、杠精、抽象、土味情话的功能,每种风格可以设置强度,分别为低、中、高三档,每次会转化3条供用户选择。

使用流程包括,用户输入或粘贴文本,选择转化的语言风格和强度,确认转化,生成可复制的文本。

并且可以添加到收藏夹;用户可自定义命名收藏夹,并且可以随时查看、复制在收藏夹中的内容。

我们发出需求后,它不会立马开始生成,而是先完善和补充整个程序需要的功能,然后整理罗列出来。

所以就算你只是特别简单的一句描述,也不用担心需求描述的不准确。

我们可以重点看一下它生成的核心业务流程文档,如果对它的完善和补充不太满意,可以让它继续优化。

在它回复的最后,会提供两个便捷回复。

一个相当于同意且确认,一个会显示分块内容评价,我们可以点击回复后的复制按钮,一键复制到对话框编辑。

我觉得它生成的已经很好了,我暂时也没有更多的想法,就直接确认了。

它整理出一份核心业务流程文档,我们再次点击下方的确认。

它整理出一份需求文档

再次确认:

这里开始有3位“员工”给我们工作了。

产品经理提供产品需求文档,测试经理提供产品测试用例,架构师完成了架构设计文档。

我们再次确认后,它就会逐步进行架构设计-应用开发-准备数据-测试优化-启动预览的一系列步骤。

不到10分钟,我的应用就已经开发完成了!这效率杠杠滴。

等它完成之后,我们点击右下角的立即体验,可以在页面实时预览。

它生成的界面包括用户界面和后台用户管理界面。

我们试用一下,页面直接的切换、交互功能都不错,后台的管理界面功能也非常完善。

用户界面

运营后台

风格转化体验

体验了一会,我感觉功能和页面都还可以再优化一下。

 

02. 一句话迭代应用

 

我感觉光有风格转化不太够,还可以再新增一个模拟聊天功能,平时可以和人机对话多练习练习。

于是我们直接给它提要求。

提示词:新增一个功能,用户可以选择风格和强度进行模拟对话,用户输入文本,会收到该风格的回复,并且可以和用户进行多轮对话。用户可以收藏或者删除历史风格,收藏后的风格可供用户直接使用。 2.现有的收藏夹进行分类处理,按照现有功能分为文本和风格对话; 3.在个人信息页面,新增工具的使用说明。

这里我们get一个信息,为了避免理解偏差,我们每次只能对一个需求进行修改

我首先选择了更改新增模拟对话功能。

它会重新生成新的需求文档,然后根据新的需求文档更新应用,提供预览。

我一步步的提出更改需求,新增了模拟对话的收藏夹、给首页模拟对话的界面,添加了一张图片,让页面更美观。

最后的成品就是这样啦:

 

03. 一键发布为鸿蒙应用

 

码上飞智能体作为国内首发的“文生应用”平台,利用multi agent system(多智能体系统)技术实现了应用从需求分析、代码生成到测试优化和部署上线的全流程自动化。

华为终端 CEO 何刚在主题演讲中表示:“我们希望通过‘码上飞’智能体,让人人都能成为鸿蒙开发者。

实际上,码上飞不止能一键发布鸿蒙应用,发布为小程序、安卓应用、H5网页也同样适用。

页面还提供源码下载,方便有技术基础的友友们二次开发,比如接入DeepSeek等大模型;或者部署到自己的服务器。

码上飞可以为应用接入超百款MCP服务和AI能力

除了我们这次用到的文本生成,还支持图片生成、图片识别、语音生成,想要的功能它基本都能帮我们实现。

 

04. 一些分享

 

码上飞,顾名思义,就是在“代码之上马上起飞”。

实际体验下来,这开发效率确实是飞一般的速度!

如果说 AI 编程上半场是以 Cursor 为代表的专业开发者“AI Coding”工具,那么,码上飞就是进入人人都是开发者的下半场“AI Development”时刻。

一句话一个想法一个需求完成应用开发,码上飞就像是一台推动 AI 应用开发的 “发动机”,让所有不懂技术开发的人,也能加入软件开发中来,这是真正的“软件开发民主化”。

我们不再受传统编程思维的限制,100%的用户视角,创意和创新应用的涌现“码”上飞来!

原文链接:全球首个支持生成华为鸿蒙应用的AI Agent