Blog

  • Meta Ray-Ban Display – Meta推出的首款带显示屏的AI眼镜

    Meta Ray-Ban Display是什么

    Meta Ray-Ban Display 是 Meta推出的首款带显示屏的AI眼镜,配备私人镜片显示功能和 Meta Neural Band 手腕控制技术,用户能通过手腕手势操作。镜片采用 Transitions® 技术,能自动调节亮度,内置显示屏幕能随时查看信息。Meta Ray-Ban Display眼镜将时尚与科技融合,为用户提供便捷的智能交互体验,是 Meta 在可穿戴设备领域的一次重要创新。

    Meta Ray-Ban Display

    Meta Ray-Ban Display的主要功能

    • 显示功能:右眼视野中的单目彩色光波导HUD,能显示音乐播放器、相机预览、实时字幕翻译等信息。
    • 手腕控制:配备Meta Neural Band,用户能用手腕的简单手势操作眼镜,如滑动切换信息、轻点确认等,操作直观便捷。
    • 自动调节亮度:镜片基于Transitions®技术,能根据光线自动调节亮度,适应不同环境,保护眼睛。
    • 智能交互功能:集成Live AI,能全自动显示相关信息和操作,如对话中自动创建日程,无需说出指令关键词。
    • 拍摄与记录功能:高清摄像头支持多种拍摄模式,包括高清视频、慢动作和超速快放,满足记录生活需求。
    • 隐私与安全功能:设计有隐私保护指示灯,基于数据加密技术,确保用户隐私和数据安全。

    Meta Ray-Ban Display的规格参数

    规格类别 子项 参数详情
    框架 形状 正方形
    镜片颜色 清晰到灰色过渡®
    镜片处理 优质防反射处理
    处方度数 -4.00 至 +4.00
    适用年龄 13 岁以上
    尺寸 铰链到铰链 144 mm (标准) / 150 mm (大)
    镜片高度 40 mm (标准/大)
    镜片宽度 47 mm (标准) / 50 mm (大)
    桥宽 23 mm (标准/大)
    镜腿长度 129 mm (标准) / 135 mm (大)
    重量 框架 69 g (标准) / 70 g (大)
    充电盒 169 g
    元神经带 42 g
    显示 类型 单目显示
    显示位置 右镜头
    视野 20度
    分辨率 600 x 600像素
    每度像素数 42
    显示刷新率 最大90 HZ(内容30 HZ)
    显示屏亮度 30-5,000 尼特
    声音 扬声器 两个定制的开放式耳机
    麦克风 6麦克风系统
    性能 76.1 dB (C)
    相机 分辨率 12 MP 超广角
    图像采集 3,024 x 4,032像素
    视频采集 1,440 x 1,920像素 @30 FPS
    变焦 3倍数码变焦
    电池 框架容量 960 毫瓦时(248 毫安时)
    框架使用时间 混合使用长达6小时
    充电盒续航 额外使用24小时
    神经带容量 148 毫安时
    神经带使用时间 长达18小时
    防水性能 框架 IPx4
    元神经带 IPx7
    存储 内部存储 32 GB闪存
    运行内存 2 GB LPDDR4x
    存储示例 500+照片/100+30秒视频
    连接性 Wi-Fi Wi-Fi 6认证
    蓝牙(眼镜) 蓝牙5.3
    操作系统兼容性 iOS 15.2+ / Android 10+
    神经带蓝牙 蓝牙5.2

    Meta Ray-Ban Display的价格配置

    • 价格:799 美元(约合人民币 5700 元)

    Meta Ray-Ban Display的购买地址

    Meta Ray-Ban Display目前仅限门店销售。

    Meta Ray-Ban Display的应用场景

    • 日常信息获取:接收手机通知、查看日程和天气,无需频繁查看手机,方便快捷。
    • 导航与出行:在视野中显示导航信息,帮助用户在步行或骑行时轻松找到路线。
    • 工作与生产力:在会议中查看实时笔记和资料,提高工作效率,管理待办事项。
    • 娱乐与休闲:控制音乐播放、观看视频,提供沉浸式娱乐体验。
    • 健康与健身:记录运动数据、提供健身指导,养成定时提醒健康习惯。
  • MasterGo Agent – MasterGo推出的UI设计AI Agent

    MasterGo Agent是什么

    MasterGo Agent是MasterGo AI推出的全球首个数字界面生产级AI Agent,支持基于设计系统(DSM)的文生UI,能调用团队已有设计规范,实现高效协作和生产。MasterGo Agent具备批量生成页面、图片编辑、文案翻译、智能修改、设计规范检查等功能,能提升设计效率和品质,实现AI与人类协同工作,推动企业从团队协作向AI驱动的集体智能升级。

    MasterGo Agent

    MasterGo Agent的主要功能

    • 文生UI:帮助设计师生成原型或者设计稿,直接调用团队已有的设计规范,包括样式、组件和图标,真正服务于实际业务生产。
    • 图片生成与编辑:具备批量生成风格一致的页面、图片生成与编辑的能力,能无缝融入用户在画布中的工作,辅助用户高效创作。
    • 文案改写与翻译:提供翻译或优化文本内容的功能,帮助设计师和团队提升文案的质量和一致性。
    • 智能批量修改:能进行设计规范检查与替换、智能生成图表/图标资源,及智能答疑等能力,提升输出品质。
    • 设计规范生成与检查:根据设计稿提取设计规范,确保设计稿符合预设的设计标准,同时支持检查与修复,保证设计一致性。
    • 性能优化:具备性能优化功能,如降缓存或重新渲染字形,提高设计稿的加载和处理速度。
    • 多语种版本翻译:支持一键翻译多语种版本,方便国际化项目的设计需求。

    如何使用MasterGo Agent

    • 申请试用:填写申请问卷信息 https://jwzg.feishu.cn/share/base/form/shrcnERaxs7KotZUJfqKJgTFk7e 等待开通。
    • 登录平台:开通后,访问MasterGo AI官网登录账户。
    • 选择工具:在MasterGo Agent的工具列表中选择需要的功能。
    • 输入指令:根据所选工具的功能,输入相应的指令或参数。
    • 上传资源:如果需要,上传设计文件、文本或图片等资源。
    • 监控进度:监控MasterGo Agent的工作进度,查看是否按照要求进行操作。
    • 检查结果:完成操作后,检查MasterGo Agent生成的结果是否符合预期。
    • 调整和优化:如果结果需要进一步调整,根据需要修改指令或参数,重新执行操作。
    • 应用结果:将MasterGo Agent生成的设计、文本或图片应用到项目中。

    MasterGo Agent的应用场景

    • 设计协作:设计师和团队成员调用和应用统一的设计规范,确保整个设计过程中的一致性。
    • 快速原型制作:在产品开发的早期阶段,快速生成原型,以便进行概念验证和用户测试。
    • 多语言产品开发:对于需要支持多种语言的产品,MasterGo Agent能一键翻译设计稿和文案,加速国际化进程。
    • 图像和图标自动化:自动生成或编辑图像和图标,减少设计师在图像处理上的时间消耗。
    • 文案和翻译:自动生成或优化文案,以及翻译文本内容,适应不同市场的需求。
  • PromptEnhancer – 腾讯开源的文本到图像提示词增强框架

    PromptEnhancer是什么

    PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEvaluator,显著提升T2I模型对复杂用户指令的理解和图像生成的准确性。框架无需修改T2I模型的权重,具有通用性和即插即用的特性,适用多种预训练模型。PromptEnhancer通过两阶段训练(监督微调和强化学习)优化提示,使生成图像更符合用户意图。

    PromptEnhancer

    PromptEnhancer的主要功能

    • 提升文本到图像模型的准确性和对齐精度:PromptEnhancer通过优化用户输入的文本提示,显著提升文本到图像(T2I)模型生成图像的准确性和与用户意图的对齐精度,能更好地处理复杂的用户指令,包括属性绑定、否定指令和复杂的关系描述。
    • 通用性和即插即用:无需修改任何预训练T2I模型的权重,能作为通用模块适配多种预训练模型,如HunyuanImage、Stable Diffusion、Imagen等,降低优化成本。
    • 提供高质量基准测试数据集:开源包含6000条Prompt及对应多维度精细标注的高质量基准测试数据集,为研究人员提供重要的参考资源,推动提示优化技术的可解释性和可复现性研究。

    PromptEnhancer的技术原理

    • 思维链(Chain-of-Thought,CoT)提示重写:引入思维链机制,模拟人类设计师的思考过程,将简洁的用户指令拆解为“核心元素-潜在歧义-细节补充”三步骤。
    • 专用奖励模型AlignEvaluator:构建一个覆盖6大类别、24个关键维度的评价体系,通过大规模标注数据训练AlignEvaluator,能针对每个维度给出生成图像的“精准分数”。维度包括语言理解(如否定指令、代词指代)、视觉属性(如物体数量、材质、表情)和复杂关系(如包含关系、相似关系、反事实场景)等。
    • 两阶段训练
      • 第一阶段:监督微调(SFT):通过监督微调初始化CoT重写器,能生成符合语法逻辑的精细化提示。用大模型生成的大量“原始提示-思维链-精细化提示”数据进行训练。
      • 第二阶段:基于生成奖励的策略优化(GRPO):将重写器生成的多个候选提示输入冻结的T2I模型,用AlignEvaluator对生成图像打分。通过“奖励越高的提示越受重视”的逻辑,优化重写器的策略,使其生成的提示能最大化图像与用户意图的对齐。

    PromptEnhancer的项目地址

    • 项目官网:https://hunyuan-promptenhancer.github.io/
    • GitHub仓库:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
    • HuggingFace模型库:https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
    • arXiv技术论文:https://www.arxiv.org/pdf/2509.04545

    PromptEnhancer的应用场景

    • 广告设计:快速生成高质量的广告海报和宣传材料,提升设计效率。
    • 插画创作:帮助插画师快速生成创意草图,节省时间和精力。
    • 游戏设计:为游戏开发者快速生成游戏角色、场景和道具的概念图,加速游戏开发流程。
    • 社交媒体内容:快速生成吸引人的社交媒体图片和视频,提升内容的吸引力。
    • 视频制作:在视频内容创作中,生成高质量的视频帧或概念图,辅助视频剪辑和特效制作。
  • Marble – 李飞飞World Labs推出的3D世界生成平台

    Marble是什么

    Marble是李飞飞的创业公司World Labs推出的3D世界生成平台,基于先进的世界模型技术,用户只需提供一张图片或文本提示,能生成可无限探索的3D世界。Marble生成的世界具有持久性、风格多样性和清晰的3D几何结构,支持自由导航与交互,能导出为高斯点云用于下游项目。目前Marble处于限量访问的Beta测试阶段,用户能在官网创建和浏览3D世界,体验强大的空间智能和创作能力。

    Marble

    Marble的主要功能

    • 3D世界生成:用户上传图片或输入文本提示,AI能快速生成一个3D世界。世界具有丰富的几何结构和多样化的风格,从卡通到写实风格都能实现。
    • 自由导航与交互:用户能在生成的3D世界中自由移动和探索,支持在浏览器中进行360度视角调整,甚至探索输入视角之外的隐藏空间。
    • 持久性与一致性:生成的3D世界是永久持续的,不会随时间变化导致变形或出现不一致的情况,用户能随时访问、保存链接。
    • 导出功能:用户能将生成的3D世界导出为高斯点云(Gaussian splats),用World Labs提供的开源渲染库Spark无缝集成到Three.js中,用在构建基于网页的3D体验。
    • 组合生成大型环境:支持用户将多个生成的场景组合起来,构建出更大规模的虚拟世界,实现连续的空间扩展。
    • 多平台支持:生成的3D体验能在多种设备上高效运行,包括台式机、笔记本、移动设备和VR头显。
    • 创作与分享:用户能创建自己的3D世界,活通过Marble平台分享给他人,支持社交互动和创意交流。

    如何使用Marble

    • 访问官网:访问Marble官网:https://marble.worldlabs.ai/。
    • 申请访问:填写表格 thttps://docs.google.com/forms/d/e/1FAIpQLSe7eNQ4sFAyNiEjBch498zCmQrY_Il-1pB-TCTRE0p5z6k16w/viewform,获取访问权限。
    • 登录平台:通过后点击邮件中的链接,用提供的登录信息进入Marble平台。
    • 上传图片或输入文本:在平台上选择“创建新世界”,上传一张图片或输入一个文本提示描述想要生成的3D世界。
    • 调整参数(如果支持):根据需要调整生成参数,如风格、细节级别等。
    • 开始生成:点击“生成”按钮,等待系统生成3D世界。
    • 探索3D世界:用键盘和鼠标在生成的3D世界中自由移动和调整视角。探索世界中的各个角落,查看不同视角下的细节和结构。
    • 导出和应用(如果需要):如果需要将生成的3D世界用于其他项目。用World Labs提供的开源渲染库Spark,将高斯点云无缝集成到Three.js中,用于构建基于网页的3D体验。
    • 分享和社交:将生成的世界创建一个链接,分享给其他人查看。或在平台上与其他用户交流,分享创作经验和灵感。

    Marble的应用场景

    • 3D环境设计:艺术家和设计师快速生成3D环境,用在电影、游戏、广告等项目的背景设计。
    • 虚拟展厅:创建虚拟展厅,展示艺术作品、产品设计或历史文物,用户能在虚拟空间中自由浏览。
    • 建筑可视化:建筑师生成建筑模型的3D世界,用在展示设计方案,让客户更好地理解建筑的空间布局和外观。
    • 虚拟实验室:创建虚拟实验室,学生在其中进行科学实验,观察物理、化学和生物现象。
    • 历史场景重现:重现历史事件或古代文明的场景,让学生更直观地了解历史背景。
  • 数说Social Research – AI社媒营销Agent,全场景研究助手

    数说Social Research是什么

    数说Social Research 是数说故事旗下的全能营销 Agent 工具,依托领先大模型技术,接入海量社交媒体数据,能快速解答营销、市场、消费者口碑等专业问题并生成报告,支持时事、百科等常规查询,是全场景“智能研究助手”。可监测分析全网数据,整合社媒内容、用户评论等实时信息,20 – 30 分钟生成完整报告。能自动生成可视化图表,如情绪趋势图、声量分布图等,可直接用于 PPT 制作。

    Social Research

    数说Social Research的主要功能

    • 全网数据监测分析:整合全网社媒内容、用户评论、电商评论等实时信息,输入关键词指令,AI 自动规划分析框架,20 – 30 分钟内生成完整报告。
    • 可视化图表生成:生成的报告包含情绪趋势图、声量分布图、用户关注点聚类表等可视化图表,可直接截图制成 PPT,赋能乙方公司进行客户营销提案场景。
    • 数据获取逻辑透明:数据与数说聚合打通,可通过思维链过程看数据查询逻辑,且数据经得起验证。
    • 多场景应用支持:可用于热点事件追踪、品牌口碑监测、营销策略分析等场景,帮助品牌快速制定营销策略,抢占热点红利,精准捕捉用户情绪,分析营销活动效果等。

    如何使用数说Social Research

    • 注册登录:访问数说 Social Research 官网:https://index.datastory.com.cn/social-research,完成注册并登录。
    • 输入指令:在搜索框中输入关键词或具体问题,如“品牌X的市场口碑分析”。
    • 选择数据范围:可指定数据来源(如社交媒体、电商平台等)和时间范围,以获取更精准的数据。
    • 生成报告:点击“开始分析”,工具将自动整合数据并生成报告,包含分析框架和可视化图表。
    • 查看结果:报告生成后,可查看详细分析内容,如声量趋势、用户情感、竞品对比等。
    • 下载或分享:支持将报告下载为 PDF 或 PPT 格式,也可直接分享给团队成员或客户。

    数说Social Research的应用场景

    • 热点事件追踪:快速分析热点事件的声量趋势、用户情感、竞品对标等,帮助品牌快速制定营销策略,抢占热点红利。
    • 品牌口碑监测:精准捕捉用户情绪,分析品牌在不同平台上的口碑情况,提炼出核心评价,让品牌清晰知道优势和痛点。
    • 营销策略分析:对品牌的营销活动、广告投放等进行效果评估,分析活动的传播效果、用户参与度等,为后续营销策略的调整提供依据。
    • 产品规划与创新:挖掘用户需求和痛点,为产品研发和创新提供方向,帮助品牌更好地满足市场需求。
    • 竞品分析:深入了解竞争对手的市场表现、用户反馈和营销策略,为品牌制定差异化竞争策略提供参考。
    • 市场趋势洞察:分析市场动态和趋势,为品牌的战略规划和决策提供数据支持,助力品牌把握市场先机。
  • Nano Bananary – 开源AI图像编辑工具,基于Gemini模型

    Nano Bananary是什么

    Nano Bananary(香蕉超市) 是开源的图像编辑工具,基于 Google Gemini 图像模型开发,支持中文界面和明暗主题切换,提供 50 多种图像转换效果,无需复杂提示词能一键将图片转为 3D 手办、乐高模型等。Nano Bananary 支持局部涂选、连续编辑、历史记录、多模式对比及一键下载等功能,方便用户进行创意图像生成和编辑。

    Nano Bananary

    Nano Bananary的主要功能

    • 多种图像转换效果:提供 50 多种图像转换风格,如 3D 手办、乐高模型、梵高风格画作等。
    • 无需复杂提示词:用户无需输入复杂的提示词,支持一键完成图像转换。
    • 连续编辑功能:生成的结果能直接作为新输入进行进一步编辑,支持连续创作。
    • 局部涂选功能:支持用户对图像的局部区域进行涂选和编辑,实现更精细的调整。
    • 历史记录与对比:支持查看历史编辑记录,提供图片前后对比效果,方便用户对比修改前后的差异。
    • 多模式对比:支持多种编辑模式的对比查看,帮助用户选择最满意的效果。
    • 一键下载:用户能方便地将生成的图像一键下载到本地。

    如何使用Nano Bananary

    •  准备工作:确保计算机上安装了 Python 3.8 或更高版本。
    • 下载代码
      • 打开终端或命令提示符。
      • 使用 Git 克隆 Nano Bananary 的代码仓库到本地:git clone https://github.com/ZHO-ZHO-ZHO/Nano-Bananary.git
      • 进入下载的文件夹:cd Nano-Bananary
    •  安装依赖:在终端或命令提示符中,运行以下命令来安装项目所需的依赖:pip install -r requirements.txt
    • 运行程序:在终端或命令提示符中,运行以下命令启动程序:python app.py
    • 使用界面
      • 上传图片:在网页界面中找到“上传图片”按钮,选择想要编辑的图片。
      • 选择转换风格:在界面中选择想要的图像转换风格,例如 3D 手办、乐高模型、梵高风格等。
      • 编辑图片:如果需要,使用局部涂选功能对图片的特定区域进行编辑。
      • 查看结果:查看生成的图像效果,支持前后对比和多模式对比。
      • 保存结果:使用一键下载功能,将生成的图像保存到本地。

    Nano Bananary的项目地址

    • GitHub仓库:https://github.com/ZHO-ZHO-ZHO/Nano-Bananary

    Nano Bananary的应用场景

    • 创意设计:艺术家和设计师快速生成创意概念图,激发灵感。
    • 教育领域:教师将普通图片转换为更具吸引力的教学材料,如将历史照片转换为漫画风格,增强学生的学习兴趣。
    • 社交媒体:内容创作者快速生成独特的图像内容,用在社交媒体发布,吸引更多的关注和互动。
    • 广告营销:广告设计师生成具有创意的广告图像,如将产品图片转换为艺术风格,提升广告的吸引力和影响力。
    • 个人娱乐:普通用将个人照片转换为有趣的风格,如3D手办或乐高模型,增加照片的趣味性和个性化。
  • AP2(Agentic Payments Protocol)是什么? – AI百科知识

    Agentic Payments Protocol(AP2)是谷歌联合Coinbase等60多家组织共同推出的开放协议,为AI代理(AI Agent)发起的支付交易提供安全、可互操作的框架。AP2通过加密签名的数字合约,确保交易的防篡改和可审计性,支持多种支付方式,包括信用卡、借记卡、稳定币和实时银行转账。通过Intent Mandates(意图授权书)和Verifiable Credentials(可验证凭证)确保交易的可追溯性和用户意图的明确性。AP2不仅适用于消费者场景,还将在企业商务工作流程中发挥重要作用,例如自动采购和软件许可自动扩展。

    AP2

    什么是AP2

    AP2(Agentic Payments Protocol)是一个开放协议,为用户提供一个安全、可扩展且支付方式无关的框架,以便用户、商家和支付提供商能跨平台进行智能体支付。为AI代理代表用户进行支付交易提供一个共同的基础,确保交易的安全性、合规性,并防止生态系统碎片化。

    AP2的工作原理

    Agentic Payments Protocol(AP2)的工作原理基于“授权书”(Mandates)和“可验证凭证”(Verifiable Credentials)来建立信任。
    • Mandates(授权书):这是经过加密签名的数字合约,作为用户指令的可验证证明。Mandates分为两种:
      • Intent Mandate(意图授权书):用户预先签署的代理操作约束,适用于“用户不在场”场景。例如,用户告诉代理“购买演唱会门票,一旦开售就买”,这个请求被记录在Intent Mandate中。
      • Cart Mandate(购物车授权书):用户对具体购物车(商品、价格、货币)的最终批准,适用于“用户在场”场景。例如,用户让代理帮忙找一双运动鞋,代理找到后,用户确认购买,这个确认过程生成Cart Mandate。
    • Verifiable Credentials(可验证凭证):这些是用户签署Mandates时使用的数字签名,整个生态系统都认可其为交易的真实依据。
    • 数据流与角色分离:AP2通过角色分离最小化敏感数据暴露:
      • 用户/购物代理:负责解析用户任务、协商购物车,但不接触支付凭据。
      • 凭证提供商:管理支付方法(如钱包),存储支付卡号或令牌。
      • 商家端点:提供报价、签署购物车,但不接触用户支付信息。
      • 支付处理器:构造网络授权请求,接收Payment Mandate。
    • 支持的支付方式与扩展性:AP2支持多种支付方式,包括信用卡、借记卡、稳定币和实时银行转账。此外,AP2还设计了扩展机制,如与Coinbase等合作推出的A2A x402扩展,支持代理间的稳定币交易。
    • 争议解决:AP2提供了基于证据的争议解决框架。例如,在未授权交易中,可通过用户签名的mandate来确定责任;在产品不符的情况下,对比购物车与实际交付的物品来确定商家责任。

    通过这些机制,AP2确保了交易过程的安全性、透明性和可审计性,为AI代理时代的支付交易提供了坚实的信任基础。

    AP2的主要应用

    • 智能购物:用户可让AI代理监控价格和库存,一旦符合条件就自动完成购买。用户可向代理表达对特定商品的需求,代理与商家沟通,为用户创建定制化的优惠方案。
    • 协调任务:用户可委托AI代理完成复杂的任务,如预订旅行,代理可与多个服务提供商协调并同时完成多个预订。
    • 去中心化应用(DApp)、供应链自动化、内容分发网络等场景:AP2允许智能体在预设规则下自主发起、验证并完成支付,极大提升了这些场景的运作效率。
    • 机器经济:AI Agent可以为自己的服务收费、向其他Agent付款、代表用户自动处理微支付。不同平台的Agent能相互通信协作,具备真正的支付能力,可以自主完成交易结算。例如,在与Lowe’s Innovation Lab的合作演示中,AI智能体完成了一次完整的购物流程:从诊断需求、推荐商品、确认订单,到使用USDC付款并触发履约流程,所有操作均由AI独立完成。
    • 支持新兴支付系统:AP2设计为通用协议,支持稳定币和加密货币等新兴支付方式。例如,与Coinbase合作推出的A2A x402扩展,为基于代理的加密支付提供了生产级解决方案。

    AP2面临的挑战

    • 技术层面
      • 技术碎片化:不同国家的A2A系统规则各异,如巴西的PIX和墨西哥的SPEI系统,缺乏统一标准,难以跨市场规模化应用。
      • 反应速度与成本:AI代理执行任务耗时长、成本高。例如,使用ANP协议预订酒店可能需5-6分钟,且对上下文的消耗大,若成本无法降低,将阻碍协议落地。
    • 法律与责任
      • 法律空白:目前尚无明确法规规定AI代理错误交易的责任归属。在墨西哥和巴西,若使用用户凭证进行交易,即使是由代理的错误导致,责任也归用户。巴西虽在推进AI系统责任原则,但应用于支付领域仍处于早期阶段。
      • 责任界定复杂:当欺诈发生时,难以确定是用户、商家、银行还是AI模型本身的责任。
    • 安全与信任
      • 实时支付风险:A2A支付实时结算,欺诈检测需在毫秒级完成。需更适应性强的模型和预转账验证,如验证收款人银行账户,确保资金流向正确。
      • AI决策不透明:当前语言模型无法解释其决策过程,若代理管理资金,需确保其可被问责,需解决如何审计代理、避免偏见或不公平决策等问题。
    • 生态系统与市场
      • 生态系统不完善:虽然AP2提供了基础信任层,但要实现代理商业务,还需更多工具和服务。例如,传统支付平台难以满足AI公司的灵活定价模型,需构建新的基础设施。
      • 市场接受度:尽管AP2有诸多优势,但市场对其接受程度和采用速度不确定,需更多实践和案例来证明其价值。

    AP2的发展前景

    • 技术融合与创新
      • AI与加密金融协同:AP2为AI代理提供了经济行动能力,稳定币等加密金融工具以其特性成为AI支付的理想选择,这标志着AI与加密金融在基础设施层的融合正在走向现实。
      • 跨平台与跨链支付:AP2作为A2A协议和MCP协议的扩展,支持多种支付方式,未来将逐步形成一个跨平台、跨链、跨行业的智能支付生态系统。
    • 商业模式创新
      • 推动AI商务模式:AP2支持AI代理代表用户进行购物和复杂任务协调,如自动监控价格和库存、创建定制化优惠、协调旅行预订等,为AI驱动的商业模式提供了基础。
      • 拓展机器经济:AP2使AI代理能够自主管理数字资产、收费和支付,推动机器经济的发展,例如AI代理之间的服务交易和微支付。
    • 市场接受度与生态发展
      • 用户接受度提升:随着用户对AI代理支付的逐渐熟悉,其对AI代理自主拥有数字资产的接受度也将逐步提高。
      • 生态合作伙伴增多:AP2得到了包括支付平台、金融机构、科技公司等60多家组织的支持,其生态系统正在不断扩展。
    • 行业标准与规范
      • 成为行业标准:AP2作为一个开放协议,其目标是成为AI代理支付的通用标准,促进不同平台和生态之间的互操作性。
      • 推动法规完善:随着AP2的发展,其在法律和责任界定方面的实践将推动相关法规的完善,为AI代理支付提供更明确的法律框架。
    • 安全与信任保障
      • 增强交易安全:AP2通过加密签名的数字合约和可验证凭证,确保交易的防篡改和可审计性,为用户提供安全可靠的支付环境。
      • 建立信任基础:通过“可验证意图,而非推断行动”的原则,AP2创建了从意图到购物车到支付的完整证据链,形成不可反驳的审计轨迹。
    AP2将继续支持更多支付方式,包括新兴的数字支付方式,满足不同用户和场景的需求。AP2推动全球支付系统向更智能、更安全、更高效的方向发展,为未来的支付创新提供基础。
  • Evoker – 一站式AI创作平台,支持文本、图像和视频生成

    Evoker是什么

    Evoker 是一站式 AI 创作平台,激发创意灵感并加速创作过程。支持文本、图像和视频生成,提供多模态创作体验。用户可以在一个聊天框中轻松创作和完善作品,平台提供灵感市场,帮助用户发现新想法和创意触发点。Evoker 集成了多种先进的 AI 模型和工具,支持多模型共享上下文,使创作过程更加连贯。提供 Figma 插件,让用户在熟悉的工作环境中完成设计咨询或创作。

    Evoker

    Evoker的主要功能

    • 多模态创作:支持文本、图像和视频生成,满足不同创作需求。
    • 灵感市场:提供一个探索新想法和创意触发点的平台,帮助用户突破创作瓶颈。
    • 逐步调整:AI 跟踪创作过程,帮助用户逐步完善作品,确保每一步都达到理想效果。
    • 多模型集成:整合多种先进的 AI 模型,用户可以根据需求选择不同模型进行创作。
    • 共享上下文:所有模型共享上下文,确保创作过程的连贯性和一致性。
    • Figma 插件支持:作为 Figma 插件,用户可以直接在 Figma 中使用 Evoker 的功能,无需切换工具。
    • 用户友好界面:提供直观易用的界面,即使没有技术背景的用户也能轻松上手。
    • 商业许可:付费计划提供商业许可,确保用户可以将生成的内容用于商业用途。

    Evoker的官网地址

    • 官网地址:https://www.evoker.design/

    Evoker的应用场景

    • 艺术创作:帮助艺术家和设计师激发灵感,快速生成和修改图像,将艺术愿景变为现实,支持多种风格和主题的创作。
    • 内容创作:为视频内容创作者生成缩略图、开场动画、脚本提示等,提高创作效率,使创作过程更加快速流畅。
    • 设计工作:作为设计师的工具,可用于 UI/UX 设计的资产生成,帮助团队解决工具切换带来的碎片化问题,提升设计提案的速度和清晰度。
    • 文案撰写:为创意文案撰写人提供关键词生成、标题图像创作等辅助功能,帮助突破创作瓶颈,激发新的创意。
    • 社交媒体管理:协助社交媒体经理快速生成帖子的缩略图、风格板和脚本,节省时间,提高内容产出效率。
  • 混元3D 3.0 – 腾讯混元最新推出的3D生成模型

    混元3D 3.0是什么

    混元3D 3.0是腾讯最新发布的先进的3D生成模型。采用了首创的3D-DiT分级雕刻技术,能生成超高清的3D几何结构,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素建模。突破了传统3D生成的瓶颈,兼顾了整体结构与局部细节,使生成的模型边缘锐利、细节清晰。在人物生成方面,混元3D 3.0进行了专项优化,能实现精细的面部重塑,五官轮廓更加清晰立体,人物体态自然流畅,解决了以往3D模型中常见的“抽象脸”问题。模型优化了纹理生成,进一步提升了纹理的遵循度和几何对齐精度,使表面质感更加真实细腻。

    混元3D 3.0

    混元3D 3.0的主要功能

    • 超高清3D几何生成:采用3D – DiT分级雕刻技术,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素建模,兼顾整体结构与局部细节,生成边缘锐利、细节清晰的模型。
    • 人物建模优化:专项优化人物生成,实现精细面部重塑,五官轮廓清晰立体,人物体态自然流畅,解决“抽象脸”问题。
    • 复杂结构处理:分级生成策略构建底层结构后精雕细节,增强对不可见区域的理解与还原能力,提升复杂几何结构生成效果。
    • 纹理生成提升:优化纹理遵循度和几何对齐精度,实现精准纹理映射与贴合,使模型表面质感真实细腻。
    • 多场景应用支持:适用于游戏开发、影视制作、电商领域、社交应用和工业设计等,提升开发效率,节省时间和成本。

    混元3D 3.0的技术亮点

    • 首创3D-DiT分级雕刻模型:突破传统技术瓶颈,兼顾整体结构与局部细节,实现超高清3D几何生成,效果保持业界SOTA。
    • 人物生成专项优化:显著提升建模精度,实现精细的面部重塑,使五官轮廓清晰立体,人物体态自然流畅,告别“抽象脸”问题。
    • 复杂几何结构生成:采用分级生成策略,先构建底层结构,再逐步精雕细节,提升对不可见区域的理解与还原能力。
    • 纹理生成优化:进一步优化纹理遵循度和几何对齐精度,确保纹理细节忠实于设计意图,实现更精准的纹理映射与贴合。

    如何使用混元3D 3.0

    • 通过腾讯混元3D创作引擎官网使用
      • 文生3D:访问官网,点击“文生3D”,输入描述词,选择风格,勾选“Low – Poly模式”,点击生成,生成后可下载OBJ/FBX/GLB格式文件,支持直接导入Blender编辑。
      • 图生3D:点击“图生3D”,上传物体正面图,勾选“Remove Background”自动抠图(非透明背景必选),选择“Generate Shape and Texture”同时生成几何+纹理,下载模型后,可用草图生3D功能添加细节。
      • 草图生3D:手绘简笔画上传,自动转换为3D模型,适合概念设计。
      • 多视图输入:上传同一物体前/后/左/右4张图,几何准确度提高40%,复杂物体描述需具体。
      • 快速动画:生成模型后进入“3D动画”实验室,选择预置动作(跳跃、武术等),自动绑定骨骼并导出GIF/FBX。
      • 工业级应用:上传白模,输入材质描述(如“磨砂塑料材质”),一键替换纹理,生成PBR贴图,支持UV对齐检测。
    • 通过腾讯元宝APP的“3D角色梦工厂”功能使用
      • 上传照片:打开腾讯元宝APP,点击“发现”,搜索“3D角色梦工厂”,选择模板,上传正面清晰五官、纯色背景、分辨率≥500×500的照片,避免眼镜/手势/饰品。
      • AI生成模型:等待约6分钟,系统自动将头像融合到模板身体上,若效果不佳,检查背景是否杂乱或面部遮挡,勾选“PBR材质贴图”提升皮肤/服装质感。
      • 导出与打印:复制生成的OBJ格式链接,导入3D打印软件(如Cura),调整尺寸后直接打印实体手办。
    • 通过混元3D AI创作引擎使用
      • 输入多视图:新版混元3D AI创作引擎支持输入多视图,生成的模型材质细节更加逼真,满足各类风格需求。
      • 多格式兼容:新升级的混元3D AI创作引擎打通了市面主流格式,OBJ、FBX、GLB、STL、USDZ、MP4等多种输出方式一键切换,无缝对接到应用场景。

    混元3D 3.0的应用场景

    • 游戏开发:可用于快速生成游戏中的角色、场景等3D模型,提升游戏开发效率。
    • 影视制作:帮助影视行业快速创建逼真的3D场景和角色模型,节省制作时间和成本。
    • 电商领域:为电商产品生成高质量的3D模型,提升用户体验。
    • 社交应用:在社交平台上,用户可以用模型生成个性化的3D头像或虚拟形象。
    • 工业设计:助力工业设计领域快速创建产品原型,优化设计流程。
  • LLaSO – 逻辑智能开源的语音模型

    LLaSO是什么

    LLaSO(Large Language and Speech Model)是北京深度逻辑智能科技有限公司推出的全球首个完全开源的语音模型,能解决大型语音语言模型(LSLM)领域长期存在的架构碎片化、数据私有化、任务覆盖局限和交互模态单一等问题。LLaSO包含三大核心组件,LLaSO-Align(大规模语音-文本对齐数据集)、LLaSO-Instruct(多任务指令微调数据集)和LLaSO-Eval(标准化评估基准),为LSLM研究提供了统一、透明且可复现的基础设施,推动该领域从“各自为战”向“协同创新”转变。

    LLaSO

    LLaSO的主要功能

    • 数据集提供:LLaSO-Align提供大规模语音-文本对齐数据集,LLaSO-Instruct提供多任务指令微调数据集,为模型训练提供丰富的数据资源。
    • 模型训练与验证:基于LLaSO数据集训练的LLaSO-Base模型,为研究者提供了性能基准,便于比较和验证不同模型的性能。
    • 标准化评估:LLaSO-Eval提供标准化的评估基准,确保模型评估的公平性和可复现性。
    • 多模态支持:支持“文本指令+音频输入”、“音频指令+文本输入”和纯音频交互等多种模态,拓展模型的应用场景。

    LLaSO的技术原理

    • 语音-文本对齐:通过自动语音识别(ASR)技术,将语音数据与文本数据进行精确对齐,建立语音表示与文本语义空间的映射关系。
    • 多任务指令微调:用多种任务数据对模型进行微调,涵盖语言学、语义学和副语言学任务,提升模型的综合理解和生成能力。
    • 模态投影:使用多层感知机(MLP)等技术实现语音特征与文本特征之间的空间映射,使模型能处理多模态输入。
    • 两阶段训练策略:先进行语音-文本对齐训练,再进行多任务指令微调,逐步提升模型的性能和泛化能力。
    • 标准化评估基准:通过设计涵盖多种任务的评估基准,对模型进行全面、系统的评估,确保评估结果的客观性和可比性。

    LLaSO的项目地址

    • GitHub仓库:https://github.com/EIT-NLP/LLaSO
    • HuggingFace模型库:https://huggingface.co/papers/2508.15418
    • arXiv技术论文:https://arxiv.org/pdf/2508.15418v1

    LLaSO的应用场景

    • 智能语音助手:用在开发智能语音助手,如智能家居控制、智能客服、车载语音助手等,通过语音指令实现设备控制和信息查询,提升用户体验。
    • 语音内容创作:生成语音内容,如有声读物、播客、语音广告等,根据文本内容生成自然流畅的语音,提高内容创作效率。
    • 教育与学习:通过语音指令进行发音练习和口语评估,为学习者提供个性化的学习体验,提升学习效果。
    • 医疗健康:辅助医生进行语音记录和诊断,帮助患者进行语音康复训练,提高医疗效率和患者康复效果。
    • 智能客服:通过语音交互提供客户支持,理解客户问题并生成准确回答,提升服务效率和满意度。