Skip to main content

Author: Chimy

XVerse – 字节跳动推出的多主体控制图像生成模型

XVerse是什么

XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制,同时保持生成图像的高质量和一致性。XVerse将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确和独立控制,不干扰图像潜在变量或特征。模型引入VAE编码的图像特征模块和正则化技术,增强细节保留能力和生成质量。XVerse在多主体控制图像合成中提供高保真度、可编辑性,能对个体主体特征和语义属性进行强大的控制。

XVerse

XVerse的主要功能

  • 多主体控制:XVerse能同时控制多个主体的身份和语义属性,例如在一张图像中同时控制多个人物的身份、姿势、风格等,实现复杂的场景生成。
  • 高保真图像合成:生成的图像具有高保真度,精确地反映文本描述中的细节和语义信息,同时保持图像的整体质量和一致性。
  • 语义属性控制:支持对语义属性(如姿势、风格、光照)进行精细控制,实现对图像风格和氛围的灵活调整。
  • 强大的可编辑性:用户基于简单的文本提示对生成的图像进行编辑和调整,实现个性化的图像创作。
  • 减少伪影和失真:引入VAE编码图像特征模块和正则化技术,XVerse能显著减少生成图像中的伪影和失真,提高图像的自然度和视觉效果。

XVerse的技术原理

  • 文本流调制机制(Text-stream Modulation Mechanism):将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确控制。偏移量被添加到模型的文本嵌入中,在不干扰图像潜在变量或特征的情况下,实现对生成图像的精细控制。
  • VAE编码图像特征模块:为增强生成图像的细节保留能力,XVerse引入VAE编码的图像特征模块。图像特征模块作为辅助模块,帮助模型在生成过程中保留更多的细节信息,减少伪影和失真。
  • 正则化技术:基于随机保留一侧的调制注入,强制模型在非调制区域保持一致性。正则化主体特定的特征,作为多主体数据集的数据增强策略,提高模型在多主体场景中的区分和保持主体特征的能力。基于计算调制模型和参考T2I分支之间的文本图像交叉注意力图的L2损失,确保调制模型保留与T2I分支一致的注意力模式,保持语义交互的一致性和可编辑性。
  • 训练数据:XVerse用高质量的多主体控制训练数据集进行训练。数据集基于Florence2进行图像描述和短语定位,使用SAM2进行精确的人脸提取,构建包含多种主体和场景的高质量训练数据。训练数据涵盖多种场景,包括人与物体的交互、人与动物的组合以及复杂的多人场景,增强模型的泛化能力。

XVerse的项目地址

  • 项目官网:https://bytedance.github.io/XVerse/
  • GitHub仓库:https://github.com/bytedance/XVerse
  • HuggingFace模型库:https://huggingface.co/ByteDance/XVerse
  • arXiv技术论文:https://arxiv.org/pdf/2506.21416

XVerse的应用场景

  • 电商广告生成:为电商促销活动快速生成不同人物使用同一产品的广告图像,满足品牌个性化需求。
  • 游戏角色设计:根据游戏设计师的描述生成多个具有独特外观和技能的角色概念图,加速角色设计流程。
  • 医学教育插图:生成详细的人体解剖图和生理图,帮助医学院学生更好地理解人体结构和功能。
  • 虚拟社交平台的个人形象定制:用户输入描述生成个性化的虚拟形象,用在虚拟社交平台的头像或虚拟现实中的个人形象。
  • 城市规划方案展示:生成城市公园的虚拟效果图,帮助市民更好地理解城市规划师的设计方案。

阿尔法蛋AI词典笔 – 华为推出的AI学习工具

阿尔法蛋AI词典笔是什么

阿尔法蛋AI词典笔是华为专为学生设计的智能学习工具,具备中高考口语模拟、古诗词释义、科学记忆法背单词等功能,支持快速扫描查词,每分钟可达80词,准确率高达99%。工具内置420万词汇量,涵盖多本权威词典。阿尔法蛋AI词典笔3.16英寸高清护眼屏通过德国莱茵TÜV低蓝光认证,保护孩子视力。工具支持跨屏联动,能通过APP连接手机或平板,实现小屏变大屏,方便家长同步查看学习进度。

阿尔法蛋AI词典笔

阿尔法蛋AI词典笔的主要功能

  • 中高考口语模拟:提供六大中高考口语模拟题型,帮助学生提前熟悉考试流程,提升口语能力。
  • 古诗词释义:涵盖2000+首古诗词,支持一扫即通,助力学生学习传统文化。
  • 科学记忆法背单词:结合艾宾浩斯遗忘曲线,科学安排背单词计划,帮助学生高效记忆。
  • 查词功能:支持快速扫描查词,每分钟可达80词,准确率高达99%,内置420万词汇量。
  • 听力练习:提供140+主题听力资源,真人发音朗读,支持变速复读,提升听力水平。
  • 教材听写报读:内置教材同步英语单词库,支持听写和报读,培养孩子独立学习习惯。
  • 护眼功能:3.16英寸高清护眼屏,通过德国莱茵TÜV低蓝光认证,保护孩子视力。
  • 跨屏联动:通过阿尔法蛋APP连接手机或平板,实现小屏变大屏,方便家长同步查看学习进度。

阿尔法蛋AI词典笔的规格参数

项目 详细信息
产品名称 荣耀亲选AI词典笔
型号 TYP-AI10
重量 79g
存储 16GB
颜色 白色
屏幕尺寸 3.16英寸
电池容量 1100mAh
使用时长 4-8小时*
联网方式 Wi-Fi
离线使用 支持
充电接口 Type-C
包装尺寸 212x80x38.5mm

阿尔法蛋AI词典笔的购买地址

  • 京东购买地址:https://item.jd.com/100192881739.html

阿尔法蛋AI词典笔的价格配置

  • D1Ultra 64G:599元
  • D1Ultra 128G:999元
  • D1Pro:439元
  • T30Pro:799元
  • D1Plus :349元
  • X10:399元
  • X20:499元

阿尔法蛋AI词典笔的应用场景

  • 课堂学习:在课堂上快速扫描单词或古诗词,辅助理解课程内容,提升学习效率。
  • 课后复习:用科学记忆法背单词,巩固课堂所学,加深记忆。
  • 口语练习:通过中高考口语模拟题型进行专项练习,提升口语表达能力。
  • 家庭学习:孩子独立完成听写和背单词任务,培养自主学习习惯,家长通过APP同步查看进度。
  • 出行学习:在旅行或碎片化时间里,扫描英文标识或进行单词背诵,充分利用时间学习。

华文笔杆 – AI公文写作平台,提供从起草到定稿全流程

华文笔杆是什么

华文笔杆是专为政企笔杆子量身打造的AI公文写作平台。基于最新公文规范,结合AI智能技术,为用户提供从起草到定稿的全流程支持。平台具备四大核心写作模式:以稿写稿、会议成稿、自由创作和AI润色,满足不同场景的公文需求。提供丰富的公文模板,覆盖通知、报告、请示等多种场景,支持一键成稿。华文笔杆配备专属知识库,用户可上传常用材料,结合AI联网搜索,精准生成贴合实际的文稿。AI润色工具可优化语法、风格、词汇等,提升文稿品质。平台支持文件上传(PDF、Word等格式),提供格式套用功能,确保文稿规范化。

docwrite

华文笔杆的主要功能

  • 全流程公文写作支持:基于最新公文规范,结合 AI 技术,提供从起草到定稿的全流程支持,包括自动生成标准格式、智能推荐内容模板。
  • 四大核心写作模式
    • 以稿写稿:借鉴已有文档,快速改写成稿。
    • 会议成稿:通过会议录音或领导安排,一键生成文稿。
    • 自由创作:灵活配置创作要求,自由生成文稿。
    • AI 润色:提供润色、改写、仿写、续写、缩写、扩写等工具,优化文稿。
  • 丰富公文模板:提供通知、报告、请示、函件、讲话稿、调研报告等常用公文模板,支持千字级文章一键成稿。
  • 专属知识库:用户可上传常用材料,结合 AI 联搜索网,精准生成符合个人写作风格的公文。
  • AI 格式套用;一键套用公文格式,确保文稿规范化和标准化。
  • 高效润色工具:提供语法、词汇、句式等多维度优化功能,提升文稿品质。

如何使用华文笔杆

  • 访问与注册:访问华文笔杆的官网:https://docwrite.cn/ ,注册账号登录。
  • 核心功能使用
    • 以稿写稿:上传已有文档作为参考,平台会根据参考文档生成新的文稿。
    • 会议成稿:输入会议录音的文字内容或领导的安排,平台可一键生成文稿。
    • 自由创作:用户根据自身需求灵活配置创作要求,平台辅助生成文稿。
    • AI润色:对已有文稿进行语法、语言风格、词汇、句式、长度等多维度优化。
  • 公文模板使用:平台提供通知、报告、请示、函件、讲话稿、调研报告等常用公文模板,支持一键成稿。
  • 专属知识库:用户可上传政务或个人写作常用材料,平台结合AI联网搜索,精准生成符合个人写作风格的公文。
  • AI格式套用:提供一键套用公文格式的功能,确保文稿规范化和标准化。
  • 文件上传:支持PDF、Word、Excel等格式的文件上传。
  • 生成结果预览:用户可以预览生成的文稿内容。

华文笔杆的应用场景

  • 政府机关与企事业单位的公文写作:华文笔杆适用于政府机关和企事业单位的日常公文写作,包括通知、报告、请示、函件、讲话稿、调研报告等多种法定公文和事务性文书的撰写。
  • 会议纪要:平台支持通过会议录音或领导安排的内容一键生成会议纪要或相关文稿。这一功能特别适合需要快速整理会议内容或落实领导指示的场景。
  • 基于模板的快速写作:华文笔杆提供丰富的公文模板,用户可以根据需要选择模板并快速生成初稿。
  • 自由创作与大纲成稿:用户可以根据自身需求灵活配置创作要求,自由生成文稿,或者通过自定义大纲结合模板生成完整的文档。
  • 提升写作效率与质量:华文笔杆通过AI技术优化文稿的语法、语言风格、词汇等,提升文稿品质。

Speakr – 免费AI会议助手,本地完成数据处理

Speakr是什么

Speakr是开源免费的AI会议助手,支持确保数据绝对私密的前提下,自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行,所有数据处理均在本地完成,彻底杜绝商业机密或敏感对话泄露的风险。用户能轻松上传多种格式的音频文件,后台自动进行转录和摘要生成,不干扰用户操作。Speakr提供交互式聊天功能,用户基于聊天界面与转录内容互动,提问或搜索相关信息,提高用户体验。

Speakr

Speakr的主要功能

  • 音频上传与转录:支持多种音频格式(如MP3、WAV、M4A等),用户基于拖拽或选择文件的方式上传音频,系统后台自动进行转录,不阻塞用户界面。
  • AI驱动的摘要与标题生成:基于AI技术生成会议的智能摘要和标题,帮助用户快速了解会议的核心内容。
  • 交互式聊天:用户基于聊天界面与转录内容互动,提问或搜索相关信息,例如“列出所有待办事项”或“预算讨论部分”。
  • 自托管安全性:所有数据都存储在用户自己的服务器上,确保数据的安全性和隐私性,避免敏感信息泄露。
  • 用户管理功能:支持用户注册、登录、账户管理和录音资料管理,管理员能进行用户管理和系统统计。
  • 多语言支持:支持用户配置音频转录和AI生成内容的语言,满足不同用户的需求。
  • 搜索与高亮:支持关键词搜索和内容高亮,方便用户快速定位重要信息。
  • 元数据编辑:用户能编辑与录音相关的元数据,如标题、参与者、会议日期、摘要和笔记。

Speakr的技术原理

  • 语音识别技术:基于OpenAI兼容的语音转文字(STT)API,如Whisper模型,将音频文件转换为文本。用户能配置使用自托管的Whisper模型或其他兼容的API。
  • 自然语言处理(NLP):基于AI驱动的文本摘要和智能问答技术,生成会议的摘要和标题,基于聊天界面与用户互动。
  • 后端框架:基于Python和Flask构建后端服务,处理API请求、数据存储和业务逻辑。
  • 数据库:用SQLAlchemy ORM和SQLite(默认)进行数据存储,管理用户信息、录音文件和转录内容。
  • 前端技术:结合Jinja2模板、Tailwind CSS和Vue.js等技术构建用户界面,提供流畅的用户体验。
  • 部署方式:支持Docker和本地部署,通过Docker可以快速部署应用,本地部署适合开发和测试环境。
  • 安全机制:基于Flask-Login、Flask-Bcrypt和Flask-WTF等工具实现用户认证和数据保护,确保用户数据的安全性。

Speakr的项目地址

  • GitHub仓库:https://github.com/murtaza-nasir/speakr

Speakr的应用场景

  • 企业内部会议:企业内部的项目会议、团队会议等,快速生成会议纪要,确保敏感信息不外泄,方便团队成员后续查阅和任务跟进。
  • 教育领域:教师将课堂录音上传,生成详细课堂笔记,方便学生复习。
  • 远程协作:远程团队的会议记录,确保团队成员能够快速了解会议内容,方便任务分配和项目管理,提高远程协作效率。
  • 个人学习与笔记:学生或个人记录重要会议、讲座内容,生成详细笔记,方便后续查阅和复习,提高学习效率。
  • 医疗行业:在医疗领域用在病例讨论、培训会议记录,保护患者信息,方便后续查阅。

毕业宝 – AI学术辅助助手,支持论文降重、改写

毕业宝是什么

毕业宝是AI驱动的研究助手,支持为学术写作和论文修改提供高效支持。基于先进的语义重构技术,对文本进行深度改写,确保在保持原意的同时降低重复率。用户粘贴文本后,系统根据字数消耗相应的可用字数,且在改写完成后自动生成知网、维普等权威检测机构的结果。工具具备强大的降重模型和持续优化能力,为用户提供高质量的改写服务,是学术写作中的得力助手。

毕业宝

毕业宝的主要功能

  • 深度语义重构:基于AI技术,深度重构文本语义,改变句式结构,降低重复率,提升原创性。
  • 多学科支持:涵盖9大学科数据,专业改写不同领域文本,满足多样需求。
  • 字数管理:粘贴文本后按字数消耗可用字数,实时统计剩余字数,便于合理安排。
  • 免费重新改写:若对改写结果不满意,支持无限次免费重新改写,无需消耗字数。
  • 检测结果生成:改写完成后,系统将自动生成知网、维普的检测结果,提前规避学术风险。

如何使用毕业宝

  • 访问官网:访问毕业宝官网:https://biye000.com/,注册账号并登录,根据需求选择合适的字数套餐购买。
  • 文本改写
    • 进入改写页面:登录后找到“开始改写”按钮,点击进入。
    • 粘贴文本:在输入框中粘贴需要改写的文本,系统会消耗相应字数。
    • 提交改写:点击“提交”按钮,系统开始改写。
    • 查看结果:改写完成后查看结果,若不满意可点击“重新改写”,不消耗额外字数。
  • 检测结果生成
    • 等待检测:改写完成后,系统自动进行知网、维普检测。
    • 查看检测结果:检测完成后查看重复率等信息。

毕业宝的应用场景

  • 学术论文降重:帮助学生降低毕业论文、课程论文等的重复率,使其符合查重要求。
  • 文献综述改写:整合参考文献内容,避免抄袭,使其更贴合研究主题。
  • 论文初稿优化:提升论文初稿的表达清晰度和逻辑连贯性,增强论文质量。
  • 学习笔记整理:帮助学生整理和改写笔记,加深对知识的理解和掌握。
  • 文案创作优化:在广告、宣传文案等撰写中,提升文案的吸引力和独特性。

Qwen-TTS – 阿里通义推出的语音合成模型

Qwen-TTS 是什么

Qwen-TTS是阿里通义推出的语音合成模型,具备自然、稳定、快速的特点。模型能根据文本和音色参数输出高质量音频,支持中英文及方言合成,如北京话、上海话、四川话等。模型基于大规模语料训练,生成效果接近人类水平。Qwen-TTS支持流式输出,首包生成时间短,适用多种场景。支持用户基于Python、Java等语言接入,用API调用实现语音合成,满足多样化需求。

Qwen-TTS

Qwen-TTS 的主要功能

  • 多语言支持:支持中文、英文、中英混合及多种方言(如北京话、上海话、四川话),满足不同场景需求。
  • 丰富音色:提供多种音色选择,包括不同性别和风格的声音,如Chelsie、Cherry、Ethan、Serena、Dylan、Jada、Sunny等,满足个性化需求。
  • 高质量音频:支持24kHz采样率的wav格式音频输出,保证音频质量。
  • 流式输出:支持音频流式输出,能边接收边播放,适用实时语音交互场景。
  • 多种接入方式:支持Python、Java、HTTP等多种接入方式,方便开发者集成。
  • API调用:提供简单易用的API接口,帮助开发者快速实现语音合成功能。

Qwen-TTS 的技术原理

  • 基于深度学习的声学模型:Qwen-TTS 用深度神经网络(如Transformer、Tacotron等)建模文本和语音之间的映射关系。神经网络能学习文本特征和语音特征之间的复杂映射,生成自然流畅的语音。基于注意力机制,模型更好地对齐文本和语音特征,让生成的语音在韵律、停顿和语气上更加自然。注意力机制支持模型在生成每个语音单元时,动态地关注文本中的相关部分,提高合成语音的质量。
  • 大规模语料库训练:Qwen-TTS 用超过300万小时的大规模语料库进行训练,语料包括多种语言、方言、说话风格和情感表达。丰富的语料库让模型能学习到不同语言和风格下的语音特征,提高合成语音的多样性和自然度。在训练过程中,基于数据增强技术(如添加噪声、改变语速、调整音调等)提高模型的鲁棒性和适应性。
  • 音色建模与个性化:基于音色嵌入技术,Qwen-TTS将不同的音色特征融入到语音合成过程中。每个音色都有其独特的特征向量,模型在生成语音时会结合这些特征向量,实现不同音色的合成。用户根据需要选择不同的音色,对音色进行微调,满足特定的个性化需求。

Qwen-TTS 的项目地址

  • 项目官网:https://help.aliyun.com/zh/model-studio/qwen-tts

Qwen-TTS 的应用场景

  • 智能客服:用在呼叫中心自动语音应答,提供多语言支持,提升客服效率和客户满意度。
  • 智能助手:为智能家居和穿戴设备提供语音交互,支持个性化音色定制,增强用户体验。
  • 在线教育:生成标准语音示范,支持多语言和方言,帮助用户学习语言,增加教学互动性。
  • 广播与媒体:快速生成新闻播报语音,制作有声读物,丰富内容呈现形式,满足不同用户需求。
  • 汽车导航:提供清晰准确的语音导航,支持多语言,提高驾驶安全性和便利性。

即梦数字人 – 即梦推出的AI数字人视频生成工具

即梦数字人是什么

即梦数字人是字节跳动旗下即梦AI推出的AI数字人视频生成工具。用户只需上传一张人物图片和一段音频,可快速生成与音频内容同步的动态数字人视频。核心技术是字节跳动自研的OmniHuman-1模型,能实现高质量的人脸生成和动作捕捉,让数字人表现出自然的表情和流畅的动作。即梦数字人具有高效、逼真、易用的特点。支持全身动作生成,突破了传统数字人仅能驱动头部动作的限制,应用于演讲、教学、娱乐、广告等多个场景。

即梦数字人

即梦数字人的主要功能

  • 数字人生成:用户上传人物图片和音频(或文本转语音),即可生成数字人对口型的视频。
  • 大师模式:上传图片和音频,生成逼真的全身动作和背景动效。
  • 快速模式:速度更快,成本更低。
  • 基础模型:仅修改人物口型,适合演讲,对白。
  • 动作模仿功能:用户上传人物图片和参考视频,数字人可模仿视频中的动作,如跳舞、健身等。
  • 生成音频:输入角色需要输出的内容,支持多种音色选择生成音频。

如何使用即梦数字人

  • 访问平台:访问即梦AI数字人的官网,注册登录账号。
  • 选择数字人:选择数字人功能。
  • 提供图片:上传本地图片或在线生成图片,支持真人和动漫图片,提供清晰的正脸效果更佳。
    • 在线生成数字人形象
      • 进入“图片生成”页面,输入描述词,选择模型(如图片3.0模型)和图片比例(如16:9),点击“立即生成”。
      • 生成后,选择喜欢的图片进行高清处理并下载。
  • 提供音频:上传本地音频或在线生成音频。
    • 在线生成音频:可用Deepseek或Kimi生成需要的文本内容。粘贴内容,选择音色,调整语速和音量;也可创建自己的音色。
      • 创建音色:上传5s以上的清晰的人声音频,即可创建自己的音色。
  • 选择模式:包含大师模式,快速模式,基础模型。
  • 点击生成:等待排队后生成,生产后可预览效果,可点击重新编辑修改或再次生成,若符合要求可直接发布和下载本地使用。

即梦数字人的应用场景

  • 教育领域:可生成教育视频,数字人作为虚拟讲师讲解知识,让教学更生动。
  • 娱乐表演:支持复杂场景,如唱歌、跳舞、乐器演奏等,适合制作虚拟偶像、对口型动画。
  • 广告营销:为广告制作提供高效、低成本的数字人生成工具,提升内容吸引力。

《2025年中国AI类App流量分析报告》(PDF文件)

《2025年中国AI类App流量分析报告》,深入剖析中国AI类App的市场现状与发展趋势。报告指出,AI行业技术尚未收敛,技术突破是企业获取市场优势的关键。以DeepSeek为例,其用户设备数和使用次数在短时间内大幅增长,凸显技术能力对市场抢占的重要性。同时,报告基于用户使用行为分析,将用户分为高、中、低三个质量层次,发现AI深度用户占整体AI用户的30%。报告评估了AI类App的用户治理能力,包括核心忠实用户占比和不稳定客群占比,反映各App在用户运维方面的能力差异。在用户属性方面,报告分析年龄、性别、手机品牌和地区等因素,指出本轮AI普及呈现全年龄段、性别平衡的特点,且江苏与河北两省的AI新客用户占比显著高于其他省份。这份报告为AI行业从业者提供宝贵的市场洞察和决策支持,有助于企业更好地把握技术发展趋势和用户需求。

日心说-2025年中国AI类App流量分析报告

获取《2025年中国AI类App流量分析报告》PDF原文件,扫码关注回复: 20250629

观点论述:技术尚未收敛

技术尚未收敛(一):DeepSeek的爆发,证明技术能力依旧是AI领域的核心竞争力。

DeepSeek和豆包的月用户设备数在短时间内快速增长,说明人工智能行业技术尚未收敛,技术能力跃升能迅速吸引用户关注与使用,抢占市场份额,凸显了技术跃升对市场抢占的关键作用。

ai-column-2025063001

技术尚未收敛(二):在看不到技术天花板的情况下,亦无法断言没有其他技术突破的路径。

DeepSeek和豆包的月总使用次数涨幅惊人,但技术天花板尚不可见,存在风险,企业研发过程中面临诸多不确定性,即使某一技术路线暂时抢占市场,也可能被其他创新路径颠覆。

ai-column-2025063001

指标说明:为更好的分析,我们根据用户使用AI的天数将用户品质分成三个级别。

ai-column-2025063001-

AI用户总览:三七定律:深度用户占总用户的比接近30%,所有公司均受益于AI市场热度的提升。

定义AI深度用户,并分析不同App的AI深度用户占比情况,发现当以2000万用户设备为界时,大于2000万的App中AI深度用户占比普遍不到30%,而小于2000万的App中该比值则高于30%,显示出流量对AI类App用户群的影响。

ai-column-2025063001

用户治理能力:核心忠实用户占比:此指标越高,证明他的用户对他更加青睐。

介绍核心忠实用户的定义和计算方法,分析2025年2-3月中国人工智能类App核心忠实用户占深度用户的比重,反映各App在深度AI玩家中的认可性或青睐程度,体现除流量指标以外的市场地位。

ai-column-2025063001-

用户治理能力:不稳定客群占比:此指标越低,且能持续降低,说明客户运维能力更强。

阐述不稳定深度用户的定义和计算方法,分析2025年2-3月中国人工智能类App不稳定深度用户占深度用户的比重,指出指标越低且能持续降低,说明App的客户运维能力更强,反映各App在用户运维方面的能力差异。

ai-column-2025063001

AI素人:本轮AI的启蒙作用:此指为时点性指标,反应每一轮新的市场趋势,各App吸引客户的能力。

定义纯试水新客,并分析2025年2-3月中国人工智能类App纯试水新客占比情况,指出本轮AI热潮对人工智能在中国的启蒙和推广具有重要意义,同时也体现各App吸引客户的能力以及用户运维能力的重要性。

ai-column-2025063001-

AI启蒙:一个爆款App能有多大贡献:DeepSeek的技术突破,对中国AI产业发展功不可没。

以DeepSeek为例,分析其技术突破对中国AI产业发展的贡献,基于纯试水新客在不同App间的分流情况,展示DeepSeek对用户使用行为的影响以及其在AI启蒙方面的作用。

ai-column-2025063001-

AI启蒙:类似的情况也发生在其他App上:在技术尚未收敛的前提下,技术突破可以粉碎竞品的商业化努力。

进一步分析技术突破对竞品商业化努力的冲击,以豆包、腾讯元宝等App为例,说明技术尚未收敛的前提下,技术突破可以粉碎竞品的商业化努力,验证技术能力对人工智能产业格局的颠覆性作用。

ai-column-2025063001

其余影响:用户属性的对比

年龄:本轮AI普及是现象级事件:AI不再只是年轻人的专利,技术突破使全年龄段主动触及人工智能。

分析不同年龄段用户在AI类App中的占比情况,指出本轮AI普及使AI更加渗透进全社会全年龄段,对行业发展是利好,同时也提到年轻群体在新客中的占比显著下降。

ai-column-2025063001-

性别:DeepSeek尚有空间的间接证据:DeepSeek的新流量用户性别属性呈现出微弱加剧不平衡的状态。

探讨DeepSeek新流量用户性别属性呈现出微弱加剧不平衡的状态,与其他App新客性别平均化不同,推测可能是由于其对更关注科技的男性吸引力更大,但这也只是弱相关证据,暗示DeepSeek在用户吸引方面可能还有上升空间。

ai-column-2025063001

手机品牌:差异较大:各平台存在较大的差异性,直观感受上小米用户AI类App使用行为更高。

分析不同手机品牌用户在AI类App中的占比情况,发现小米用户在DeepSeek、元宝和Kimi三款App上表现出核心客群占比较大,而新客占比减少较明显的态势;豆包则是苹果手机用户的变化最为明显,推测小米用户对AI类App的使用行为更高。

ai-column-2025063001-

地区:江苏与河北是值得关注的地区:江苏与河北两地核心新客占比显著高于核心客群。

对比用户组筛选,发现江苏与河北两地的核心新客占比显著高于核心客群,且江苏在多个App中占差值最大的省份。分析江苏用户对AI类App的态度呈现出“实用导向为主,场景驱动显著”的特征,以及政策支持与产业转型需求对AI技术普及的加速作用。

ai-column-2025063001

获取《2025年中国AI类App流量分析报告》PDF原文件,扫码关注回复: 20250629

圆周旅迹 – AI旅行规划应用,自动生成合理个性化行程

圆周旅迹是什么

圆周旅迹是专注于旅行规划的智能应用,帮助用户高效、便捷地安排旅行行程。通过简洁直观的界面设计和强大的AI功能,让用户能快速输入目的地、时间等信息,自动生成合理且个性化的行程安排。支持从社交平台一键导入链接、文字或图片,快速生成同款行程;提供3D全景地图导航和路径拖拽功能,帮助用户直观规划路线;方便旅行伙伴共同编辑行程并实时更新。圆周旅迹整合了实时交通数据,支持离线地图缓存,确保用户在无网络环境下也能正常使用。

圆周旅迹

圆周旅迹的主要功能

  • 行程复制:支持从社交平台(如小红书、微信公众号等)一键复制链接、文字或图片,快速生成同款行程。
  • 智能行程规划:输入目的地和旅行天数后,点击“一键规划”,应用会根据景点位置和交通状况,自动安排最优游玩路径,并在地图上可视化展示。
  • 多人协作编辑:用户可以与旅行伙伴共同编辑行程,实时更新提醒,确保每个人都清楚行程安排。
  • 地图模式:提供世界地图视角,直观查看地点分布,快速调整路线行程,集成实时交通信息,清晰显示地点之间的路程用时。
  • 行程分享:支持生成海报分享至朋友圈,或利用行程协作功能与同伴共同编辑,还可以通过口令分享、长图分享等方式一键分享到社交平台。
  • 地点详情页:新增用户真实评价,提供更全面的目的地信息。
  • 行程总览:支持地图总览、备注等行程关键信息,可迅速获取多日行程安排信息概要。
  • 旅行灵感:首页提供旅行灵感,帮助用户探索更多有趣的目的地。
  • 找搭子与行程求助:用户可以发布行程求助或寻找旅行伙伴。

如何使用圆周旅迹

  • 访问官网:访问圆周旅迹的官方网站 https://www.pitravel.cn/,或者访问圆周旅迹的官方应用商店,根据设备型号选择应用下载安装。
  • 行程复制
    • 在小红书、微信公众号、DeepSeek等平台找到心仪的旅行攻略。
    • 复制攻略链接、文字或图片,粘贴到圆周旅迹中。
    • 应用会自动解析并生成同款行程,节省手动输入时间。
  • 智能行程规划
    • 在行程规划页面输入目的地和旅行天数。
    • 点击“一键规划”,应用会根据景点位置和交通状况,自动安排最优游玩路径,并在地图上可视化展示。
    • 也可在“我的地点”标签页中搜索并添加更多想去的地方,然后批量添加到行程中,点击右上角的魔法棒按钮,应用会自动将行程中的所有地点进行规划。
  • 行程编辑
    • 如果对地点或者路线安排不满意,可以对地点进行移动或者重新排序。
    • 还可以在行程编辑页一边参考地点的图片、类型等信息,一边决定地点的安排,无需来回切换页面。
  • 行程分享与协作
    • 完成行程规划后,可生成海报分享至朋友圈。
    • 也可利用行程协作功能,与同伴共同编辑行程,确保每个人都清楚行程安排。
    • 可以通过口令分享、长图分享等方式一键分享到小红书、抖音等社交平台。
  • 地图模式
    • 进入行程地图,可随时随地发现附近好去处。
    • 在世界地图视角下,直观查看地点分布,快速调整路线行程;集成实时交通,清晰显示地点之间的路程用时。

圆周旅迹的应用场景

  • 首页旅行灵感:用户可以在首页浏览旅行灵感,发现更多有趣的目的地或玩法,从而激发旅行想法。
  • 实时交通信息:应用集成实时交通数据,用户可以清楚地看到地点之间的路程用时,避免因交通问题耽误行程。
  • 行程回顾:旅行结束后,用户可以通过行程总览功能,快速回顾整个旅行的安排,总结经验教训。
  • 个人旅行规划:用户可以在圆周旅迹的行程规划页面输入目的地和旅行天数,点击“一键规划”,应用会根据景点位置和交通状况,自动生成最优游玩路径,并通过地图可视化展示。

OmniGen2 – 智源研究院开源的多模态生成模型

OmniGen2是什么

OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。

OmniGen2

OmniGen2的主要功能

  • 文本到图像生成:能根据文本提示生成高保真度和美观的图像。在多个基准测试中表现出色,例如在 GenEval 和 DPG-Bench 上的得分分别为 0.86 和 83.57。
  • 指令引导的图像编辑:支持复杂的指令驱动的图像修改,包括局部修改(如改变衣服颜色)和整体风格转换(如将照片转换为动漫风格)。在图像编辑任务中,OmniGen2 在多个基准测试中实现了编辑准确性与图像保真度的平衡。
  • 上下文生成:能处理和灵活结合多种输入(如人物、参考物体和场景),生成新颖且连贯的视觉输出。在 OmniContext 基准测试中,OmniGen2 在视觉一致性指标上超越现有开源模型 15% 以上。
  • 视觉理解:继承了 Qwen-VL-2.5 基础模型强大的图像内容解析和分析能力。

OmniGen2的技术原理

  • 双路径架构:OmniGen2 采用了独立的文本和图像解码路径,分别处理文本和图像模态。文本生成部分基于 Qwen2.5-VL-3B 多模态语言模型(MLLM),图像生成通过一个独立的扩散 Transformer 模块完成。避免了文本生成对图像质量的负面影响。
  • 扩散 Transformer:图像生成部分采用了一个 32 层的扩散 Transformer,隐藏维度为 2520,总参数量约 40 亿。该模块使用修正流(Rectified Flow)方法进行高效图像生成。
  • Omni-RoPE 位置编码:OmniGen2 引入了一种新颖的多模态旋转位置嵌入(Omni-RoPE),将位置信息分解为序列和模态标识符、二维高度坐标和宽度坐标。能精确编码图像中每个位置的信息,同时支持多图像空间定位和身份区分。
  • 反思机制:OmniGen2 设计了专门的反思机制,用于提升生成图像的质量和一致性。模型能自我评估生成结果,在多个轮次中进行改进。
  • 训练策略:OmniGen2 采用分阶段训练方法,首先在文字转图像任务上预训练扩散模型,然后引入混合任务训练,最后进行反思能力的端到端训练。
  • 数据处理:训练数据从视频中提取,经过多重过滤,包括 DINO 相似性过滤和 VLM 一致性检查,确保数据质量。

OmniGen2的项目地址

  • 项目官网:https://vectorspacelab.github.io/OmniGen2/
  • Github仓库:https://github.com/VectorSpaceLab/OmniGen2
  • arXiv技术论文:https://arxiv.org/pdf/2506.18871

OmniGen2的应用场景

  • 设计概念生成:设计师可以通过简单的文本描述,快速生成设计概念图和草图。
  • 故事创作辅助:内容创作者可以根据故事的情节和角色描述,生成相应的场景和角色图像。
  • 视频制作素材生成:创作者可以生成各种场景、角色动作和特效图像,然后将其导入到视频编辑软件中,用于制作动画、特效视频或实拍视频的补充素材。
  • 游戏场景和角色生成:开发者可以通过文本描述快速生成游戏中的场景和角色。
  • 教学资源生成:教育工作者可以根据教学内容生成相关的图像和示意图。例如在讲解历史事件时,生成与之相关的古代战争场景或历史人物图像。