Skip to main content

Author: Chimy

华为推出《鸿蒙智能体框架白皮书》(PDF文件)

《鸿蒙智能体框架白皮书》详细介绍了鸿蒙智能体的技术架构、核心价值和生态体系。白皮书指出,随着AI技术的发展,智能体正从被动响应工具向主动服务转变,推动人机交互范式变革。鸿蒙智能体通过系统智能体(如小艺)和领域智能体的协同,实现了跨设备、跨场景的智能服务。核心价值在于构建开放共赢的生态系统,通过开源项目OpenHarmony,联合众多合作伙伴,形成了全球第三大智能终端生态圈。

白皮书介绍了鸿蒙智能体框架(HMAF),包括智能体的全新交互方式、协议升级、高效开发工具以及全链路安全体系。该框架支持智能体与系统的深度融合,提供丰富的开发模式和工具,降低开发门槛,保障用户数据和隐私安全。白皮书呼吁更多开发者和企业加入鸿蒙生态,共同推动智能体技术的发展,为用户提供更智能、更便捷的服务体验。

行业趋势:应用智能化和Agent产业趋势

  • 从被动响应到主动服务:AI智能体从被动响应工具转变为能够自主执行复杂任务的智能体,推动人机交互范式变革。
  • 智能体爆发式增长:系统智能体和垂域应用智能体双轨发展,未来将走向深度协同。
  • 一站式开发框架和技术标准化:加速智能体构建和商用落地,降低开发门槛。

鸿蒙智能体的定义

  • 系统智能体与领域智能体:系统智能体(如小艺)提供系统级智能服务,领域智能体专注于特定领域任务。
  • 核心特质:系统级安全可信、多智能体高效协作、自主可控的个性化、多设备间自由流转。

鸿蒙智能体框架(HMAF)

智能体全新交互范式

通过系统级入口(如小艺、系统导航条)和应用内入口,实现智能体与用户的自然交互。

  • 智能体操控:通过自然语言交互实现高效应用功能访问与控制。
  • 智能体伴随:智能体在后台持续提供支持,如会议助手。
  • 智能体GUI任务:结合GUI和LUI,提供更丰富的交互体验。

智能体协议升级

提出鸿蒙Agent通信协议,实现多智能体间的高效通信和协同。

  • 鸿蒙Agent通信协议:实现系统智能体与应用智能体间的高效协同,支持端云复杂任务和全场景跨设备互通。
  • 意图框架全面升级:支持自定义意图开发,兼容MCP协议,丰富智能体工具生态。

智能体高效开发

通过小艺开放平台和鸿蒙Agent Kit,提供全链路智能体开发解决方案。

  • 小艺开放平台:提供LLM模式、工作流模式、A2A模式、多Agent模式四大开发模式。
  • 插件市场:提供丰富的系统级插件和第三方工具,支持端云插件灵活编排。
  • 智能体市场:实现智能体的高效上架和分发,构建开发者与用户的良性循环。

智能体安全可信

构建全栈安全防护体系,保护用户数据和隐私。

  • 全链路安全体系:基于可信基础设施,构建智能体数据安全、端云执行环境安全、统一身份认证等防线。
  • 关键资产保护:保护用户敏感数据、设备访问权限、用户身份凭证等关键资产。

总结与未来展望

  • 开发者赋能:通过鸿蒙智能体框架,赋能开发者快速构建和部署智能体。
  • 生态共建:推动“智能体即服务”(AaaS)商业模式,形成“应用+智能体”的共生生态。
  • 呼吁参与:鼓励更多开发者、企业和个人加入鸿蒙AI生态,携手构建智能世界。

官网地址:https://developer.huawei.com/consumer/cn/doc/guidebook/ai-agent-0000002355199797

斯坦福大学的CS336课程《从零开始的语言建模》

斯坦福大学的CS336课程《从零开始的语言建模》是一门专注于语言模型开发的深度学习课程。课程让学生通过实践,从数据收集、模型构建到训练和评估,全面掌握语言模型的开发流程。借鉴了操作系统课程的模式,要求学生从零开始构建一个完整的语言模型,包括实现分词器、Transformer架构、优化器等关键组件。

课程要求学生具备较强的Python编程能力、深度学习和系统优化经验,以及线性代数、概率统计和机器学习的基础知识。作业内容丰富,涵盖从基础模型训练到系统优化、数据处理和模型对齐等多个方面。课程提供了GPU计算资源的建议,帮助学生高效完成实践任务。通过这门课程,学生将深入理解语言模型的内部机制,掌握如何优化模型以应对大规模训练和实际应用中的挑战。

stanford-cs336

课程简介

  • 课程内容:斯坦福大学的CS336课程旨在让学生全面了解语言模型的开发过程,包括数据收集与清洗、Transformer模型构建、模型训练与评估等。课程灵感来源于操作系统课程,要求学生从零开始构建一个完整的语言模型。
  • 课程目标:通过实践,学生将深入理解语言模型的各个组件,并掌握如何优化模型以提高效率和性能。

课程要求

  • 先修知识
    • Python熟练度:大部分作业需要使用Python完成,学生需要具备较强的Python编程能力。
    • 深度学习和系统优化经验:需要熟悉PyTorch和基本的系统概念,如内存层次结构。
    • 数学基础:需要掌握线性代数、概率论和统计学的基本知识。
    • 机器学习基础:需要了解机器学习和深度学习的基本概念。
  • 课程难度:这是一门5学分的课程,非常注重实践,学生需要投入大量时间。

课程作业

  • 作业1:实现Transformer语言模型的基本组件(分词器、模型架构、优化器)并训练一个最小语言模型。
  • 作业2:使用高级工具对模型进行性能分析和优化,实现FlashAttention2的Triton版本,并构建分布式训练代码。
  • 作业3:理解Transformer的每个组件,并通过训练API拟合模型扩展规律。
  • 作业4:将原始Common Crawl数据转换为可用于预训练的数据,并进行过滤和去重以提高模型性能。
  • 作业5:应用监督微调和强化学习训练语言模型解决数学问题,并可选地实现安全对齐方法。

课程官网地址

  • 官网地址:https://stanford-cs336.github.io/spring2025/

其他信息

  • GPU计算资源:学生可以使用云服务提供商的GPU资源完成作业,课程提供了几种推荐的云服务选项。
  • 学术诚信:学生可以使用AI工具进行低级编程问题或高级概念问题的咨询,但禁止直接使用AI工具解决问题。
  • 作业提交:所有作业通过Gradescope提交,允许使用晚交天数,最多3天。

PreenCut – 开源的AI视频剪辑工具,支持自然语言进行检索定位

PreenCut是什么

PreenCut是开源的AI视频剪辑工具,基于WhisperX实现高精度语音转录,结合DeepSeek和豆包API提供语义化搜索和智能剪辑功能。工具具备自动语音转录、AI智能分段、自然语言搜索、智能剪辑导出、批量处理等核心功能。PreenCut支持基于自然语言描述快速定位视频片段并导出剪辑,极大提升视频剪辑效率,适用长视频精剪、教育内容整理、影视后期制作等多种场景。

PreenCut

PreenCut的主要功能

  • 自动语音转录:基于WhisperX技术,将视频中的语音内容高精度地转录为文字,支持多语言和说话人区分,为后续的智能分析提供基础。
  • AI智能分段:基于AI算法对视频内容进行分析,自动将视频分割成多个有意义的片段,为每个片段生成内容摘要,帮助用户快速了解视频的关键信息。
  • 自然语言搜索:用户输入描述性的文字快速定位视频中的目标片段,系统根据语义理解来匹配相关的视频内容,大大提高查找效率。
  • 智能剪辑导出:支持用户选择单个或多个片段进行导出,将片段合并为一个视频文件,导出为ZIP包,方便用户根据需求进行后续处理。
  • 批量处理:能一次性分析多个视频文件,适合大规模的视频内容处理,提高工作效率。
  • 重新分析选项:用户在不重新处理音频的情况下,基于更换提示词重新搜索和分析视频内容,增加使用的灵活性。

PreenCut的技术原理

  • 基于时间戳的计数:在视频处理过程中,PreenCut记录每个片段的开始和结束时间戳。基于计算时间戳的差值,得到每个片段的持续时间,实现对视频片段时长的计数。
  • 基于内容的计数:在智能分段过程中,AI算法分析视频内容,识别出关键信息和逻辑结构。根据内容的划分,系统统计出视频被分割成的片段数量,及每个片段中包含的关键信息点数量等。
  • 基于用户操作的计数:在用户用PreenCut进行视频剪辑和导出时,系统记录用户的操作次数,如搜索次数、片段选择次数、导出次数等。操作计数帮助用户了解自己的使用习惯和效率,为系统优化提供参考。
  • 基于资源消耗的计数:在处理视频时,PreenCut消耗一定的计算资源,如CPU时间、内存使用量等。系统对资源的使用情况进行计数和监控,确保在资源有限的情况下,高效地完成视频处理任务。

PreenCut的项目地址

  • GitHub仓库:https://github.com/roothch/PreenCut

PreenCut的应用场景

  • 长视频精剪:将访谈、讲座、播客等冗长视频内容快速拆解成精华片段,便于观众快速获取关键信息。
  • 教育内容整理:自动将课程视频分段并生成章节总结,方便学生复习和教师整理教学资料,提升教育内容的利用效率。
  • 影视后期制作:批量处理镜头素材,快速提取指定场景,简化影视后期剪辑流程,提高制作效率。
  • 新闻报道:基于语义搜索快速找到采访中的关键发言或事件描述,生成新闻素材,提升新闻制作的时效性。
  • 自媒体创作:帮助视频博主和自媒体创作者快速剪辑和整理视频素材,提高内容创作效率,适应快节奏的社交媒体需求。

Dive3D – 北大联合小红书推出的文本到3D生成框架

Dive3D是什么

Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍塌问题,显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色,在GPTEval3D基准测试中取得优异的定量结果,证明了在生成高质量、多样化3D资产方面的强大能力。

Dive3D

Dive3D的主要功能

  • 多样化3D内容生成:根据文本提示生成多种风格和细节的3D模型,避免传统方法中常见的模式坍塌问题,即生成结果过于单一和相似。
  • 高质量3D模型生成:支持生成的3D模型具有较高的视觉保真度,包括精细的纹理细节、逼真的几何形状和合理的光照效果等。
  • 良好的文本对齐能力:支持生成的3D模型与输入的文本描述高度匹配,准确地反映文本中提到的各种元素和特征。
  • 支持多种3D表示形式:支持生成不同类型的3D表示,如神经辐射场(NeRF)、高斯点云(Gaussian Splatting)和网格(Mesh)等,满足不同应用场景和用户的需求。

Dive3D的技术原理

  • 分数隐式匹配(Score Implicit Matching,SIM)损失:Dive3D的核心技术之一。传统的基于KL散度的损失函数(如在Score Distillation Sampling,SDS中使用)会导致模式寻求行为,让生成模型倾向于生成高密度区域的样本,限制生成的多样性。SIM损失直接匹配生成内容的概率密度梯度场(分数)和扩散先验的分数,避免KL散度的问题,鼓励模型探索多个高概率区域,在保持保真度的同时提高生成的多样性。
  • 统一的散度视角框架:Dive3D将扩散蒸馏和奖励引导优化整合到一个基于散度的框架中。框架包括三个核心的散度损失,条件扩散先验损失(CDP)、无条件扩散先验损失(UDP)和奖励损失(ER)。基于合理地组合和调整损失的权重,在生成的多样性、文本对齐和视觉质量之间取得平衡。
  • 基于扩散模型的优化:Dive3D用预训练的2D扩散模型(如Stable Diffusion)作为先验知识,基于多视图渲染将3D表示优化为与文本提示相匹配的2D图像。在优化过程中,迭代地对3D模型进行渲染、计算损失并更新模型参数,让生成的3D模型的渲染图像逐渐接近预训练扩散模型所期望的图像分布。
  • 高效的优化算法:为提高优化效率,Dive3D用高效的优化算法和策略。例如,引入分类器自由引导(Classifier-Free Guidance,CFG)技术,在优化过程中更好地平衡文本条件和无条件的生成效果;基于合理设置噪声时间表和优化步长等参数,加快优化收敛速度,减少生成时间。

Dive3D的项目地址

  • 项目官网:https://ai4scientificimaging.org/dive3d/
  • GitHub仓库:https://github.com/ai4imaging/dive3d
  • arXiv技术论文:https://arxiv.org/pdf/2506.13594

Dive3D的应用场景

  • 游戏开发:快速生成游戏中的角色、道具和场景。根据游戏剧本中的描述,自动生成具有不同风格和细节的游戏角色模型,减少美术设计的工作量。
  • 影视制作:为电影、电视剧和动画制作提供创意原型和概念设计。根据剧本描述生成场景和角色的3D模型,帮助导演和美术师更好地进行创意构思。
  • 建筑设计:根据文本描述生成建筑模型,帮助建筑师快速展示设计概念,进行方案比较和优化。
  • 虚拟场景构建:为VR和AR应用生成逼真的虚拟场景和物体。在虚拟旅游应用中,根据用户输入的地点描述生成相应的3D场景,让用户身临其境地体验虚拟环境。
  • 科学教育:生成复杂的科学模型,如生物细胞、分子结构等,帮助学生更好地理解抽象的科学概念。

RAG-Anything – 港大开源的多模态RAG系统

RAG-Anything是什么

RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制,显著提升复杂文档处理能力,支持多种文档格式,如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引擎、知识图谱索引、灵活的处理架构和跨模态检索机制等。

RAG-Anything

RAG-Anything的主要功能

  • 端到端多模态流水线:从文档解析到多模态智能查询,提供一体化工作流程。
  • 多格式文档支持:兼容PDF、Office文档(DOC/DOCX、PPT/PPTX、XLS/XLSX)、图像(JPG、PNG等)和文本文件(TXT、MD)。
  • 多模态内容分析引擎:针对图像、表格、公式和通用文本内容部署专门的处理器,确保各类内容的精准解析。
  • 知识图谱索引:自动提取实体和跨模态关系,构建语义连接网络。
  • 灵活的处理架构:支持MinerU智能解析模式和直接多模态内容插入模式,适配多样化场景。
  • 跨模态检索机制:实现跨文本和多模态内容的智能检索,提供精准的信息定位和匹配能力。

RAG-Anything的技术原理

  • 图增强文本索引:基于 LLM 从文本中提取实体(节点)及其关系(边),将信息用于构建知识图谱。为每个实体节点和关系边生成文本键值对,键是用于高效检索的单词或短语,值是总结相关外部数据片段的文本段落。识别、合并来自不同文本片段的相同实体和关系,减少图操作的开销,提高数据处理效率。
  • 双重检索范式
    • 低层次检索:专注于检索特定实体及其属性或关系,适用需要精确信息的详细查询。
    • 高层次检索:处理更广泛的主题和主题,基于聚合多个相关实体和关系的信息,提供对高级概念和总结的见解。
    • 图和向量集成:结合图结构和向量表示,检索算法用局部和全局关键词,提高检索效率和结果相关性。
  • 检索增强型答案生成:用检索到的信息,基于 LLM 生成基于收集数据的答案,包括实体和关系的名称、描述及原始文本片段。将查询与多源文本统一,LLM 生成与用户需求一致的答案,确保与查询意图对齐。
  • 复杂性分析:图基索引阶段用 LLM 从每个文本块中提取实体和关系,无需额外开销,高效管理新文本更新。图基检索阶段用 LLM 生成相关关键词,依靠向量搜索进行检索,显著减少检索开销。

RAG-Anything的项目地址

  • GitHub仓库:https://github.com/HKUDS/RAG-Anything
  • arXiv技术论文:https://arxiv.org/pdf/2410.05779

RAG-Anything的应用场景

  • 学术研究:快速解析和理解大量学术文献,提取关键信息和研究结果,支持文献综述和实验数据分析,助力跨学科研究。
  • 企业知识管理:整合企业内部文档,如会议记录、项目报告等,提供智能查询和知识共享,提升内部信息流通效率。
  • 金融分析:处理财务报表和市场研究报告,提取关键财务指标和市场趋势,辅助风险评估和投资决策。
  • 医疗健康:解析病历中的文本、图像和表格,支持医疗诊断和治疗方案制定,处理医学研究文献和实验数据。
  • 智能客服:快速回答客户问题,提高客服效率,整合企业知识库,提供智能查询和知识推荐,优化客户体验。

Tana – AI笔记和知识管理平台,支持将笔记转为行动项

Tana是什么

Tana 是AI笔记和知识管理平台,基于智能技术帮助用户高效管理笔记、任务和信息。Tana 支持将笔记转化为行动项,将语音备忘录转录,基于“Supertags”功能快速将非结构化信息转化为结构化信息。Tana 提供自定义信息流,确保用户在需要时快速获取所需内容。Tana 支持与多种工具(如 Zoom)集成,能处理来自不同来源的信息。Tana 基于持续学习和改进,为用户提供一个强大的知识管理平台,帮助用户减少繁琐事务,提高工作效率。

Tana

Tana的主要功能

  • 笔记与行动项转化:自动将笔记和语音备忘录转录为文本,提取关键行动项,助力高效执行任务。
  • Supertags(超级标签):基于超级标签快速将非结构化信息转化为结构化信息,实现智能分类和便捷检索。
  • 自定义信息流:创建个性化信息流,实时更新,确保用户随时获取所需信息,提升信息获取效率。
  • 语音备忘录:支持语音输入,自动转录为文本,适用多种场景,方便记录想法和任务。
  • 多工具集成:与Zoom、Slack等常用工具广泛集成,实现数据同步和无缝协作,拓展应用范围。
  • 自动化与效率提升:支持任务自动化生成和管理,配备智能提醒功能,减少手动操作,显著提高工作效率。

Tana的官网地址

  • 官网地址:https://tana.inc/

Tana的产品定价

  • Free(免费计划):包括所有Tana编辑器的功能,最多支持20,000个节点,5个预安装的模板,2个工作区,发布页面的能力。用户能享受最多0.5 GB的文件存储空间和5 MB的文件上传限制。
  • Plus(增强版计划):每月收费8美元,包括了所有免费计划的功能,引入强大的AI和会议工具,与内容进行AI聊天(ChatGPT)、自动转录的语音录音、Google日历同步、会议代理、实时转录(支持6种语言)及支持音频的超级标签和字段。享受无限的自定义超级标签、无限的节点、无限的共享工作区、无限安装的模板、50 GB的文件存储空间(可额外购买更多)、5 GB的文件上传限制,及对发布页面的密码保护。
  • Pro(专业版计划):每月收费14美元,包含Tana Plus的所有功能,提供构建强大自定义工作流的能力,支持语音、AI和自动化。包括5000个AI积分,及构建者和创建者工具,如创建命令节点、创建和共享模板、使用事件进行自动化、读写集成以及输入API访问。享受无限的文件存储和无限的文件大小上传。

Tana的应用场景

  • 知识管理:整理读书笔记、学习资料、行业资讯等,基于Supertags快速分类和检索,构建个人知识体系。
  • 任务管理:记录待办事项、计划安排,将笔记转化为行动项,设置提醒,确保按时完成任务,提升个人执行力。
  • 创意记录:随时记录灵感、创意想法,用语音备忘录快速捕捉,后续整理成结构化内容,为创作提供素材。
  • 学习辅助:整理课程笔记、学习心得,创建自定义信息流,按科目、主题分类,便于复习和巩固知识。
  • 生活规划:规划日常事务、旅行计划、购物清单等,让生活更有条理,提高生活效率。

MoFlow – AI情绪管理应用,自由书写调节情绪

MoFlow是什么

MoFlow 是结合心理学与 AI 技术的情绪管理应用。基于书写、聊天等方式,帮助用户舒缓情绪,洞察情绪底层驱动因素,提升情绪调节能力。基于认知行为疗法(CBT),MoFlow 提供深度分析与个性化引导,让用户更好地理解自己。应用特色功能包括专属能量卡、渐入灵魂的洞察报告等。书写作为一种被科学验证的有效疗愈方法,具有改善精神健康、减少忧郁症状、增加主观幸福感等优点。MoFlow 基于端对端加密技术,确保用户隐私安全,是用户情绪的绝佳栖息地和成长的智慧伙伴。

MoFlow

MoFlow的主要功能

  • 情绪表达:提供私密空间让用户自由书写情绪,AI伙伴耐心倾听反馈。
  • 情绪洞察:基于CBT原理深度分析用户输入,生成个人资产报告呈现成长轨迹。
  • 情绪引导:基于启发性问题引导书写,提供能量卡缓解情绪压力。
  • 个性化方案:依据用户情况定制引导方案,生成洞察报告助力自我提升。

如何使用MoFlow

  • 下载安装:访问MoFlow官网:https://moflowapp.com/下载应用,目前仅支持iOS版本。
  • 注册登录:打开应用后,按照提示进行注册。
  • 书写情绪:进入“抒写”模块,开始记录自己的情绪和想法。在聊天界面与AI伙伴交流,倾诉烦恼或分享喜悦,AI给予回应和支持。
  • 情绪洞察:在“洞察”模块,查看基于输入生成的个人情绪报告,了解情绪模式和思维倾向。
  • 情绪引导:在书写或聊天过程中,AI根据输入提供个性化的问题和建议,帮助用户从不同角度看待问题。
  • 使用能量卡:在情绪低落时,查看专属能量卡,获得情绪支持和鼓励。
  • 个性化方案:根据个人报告和AI分析,制定适合自己的情绪管理方案。

MoFlow的应用场景

  • 日常情绪管理:用户随时记录情绪变化,缓解压力,了解情绪模式。
  • 情绪低落时:基于专属能量卡和自我对话,获得情绪支持,找到情绪根源。
  • 面对挑战时:借助引导性问题和个性化建议,找到新视角和解决方法。
  • 个人成长:长期记录和分析情绪,深入了解自我,设定情绪管理目标。
  • 社交支持不足时:AI伙伴作为倾诉对象和情感寄托,提供温暖和支持。

Oakley Meta HSTN – Meta与Oakley联合推出的AI智能眼镜

Oakley Meta HSTN是什么

Oakley Meta HSTN 是 Meta 与 Oakley 联合推出的高性能 AI 智能眼镜,专为运动和日常佩戴设计。融合了 Oakley 的运动设计与 Meta 的 AI 技术,具备 1200 万像素超广角摄像头,支持 3K 视频录制,配备开放式扬声器和五麦克风系统,支持语音交互。眼镜内置 Meta AI 助手,可实时回答运动相关问题、提供翻译和环境信息。具备 IPX4 防水等级,续航可达 8 小时,配合充电盒可额外提供 48 小时续航。部分型号采用 Oakley 的 PRIZM™ 镜片技术,增强视觉清晰度。

Oakley-Meta-HSTN

Oakley Meta HSTN的主要功能

  • POV视频拍摄:内置1200万像素超广角摄像头,支持最长3分钟的3K高清视频录制,相比上一代产品,视频清晰度大幅提升。
  • 语音指令操作:配备开放式扬声器,可播放音乐和播客,用户可通过语音指令(如“Hey Meta,拍个视频”)实现免手操作,可使用镜腿上的按钮拍摄高质量照片与视频。
  • Meta AI 助理:内建的AI助理能实时回答与运动相关的问题,例如判断风速、查询天气或提醒日程安排,帮助用户做出更高效的决策。支持实时翻译、视觉描述功能(为视力障碍用户描述周围环境)等。
  • 开放式扬声器:集成开放式扬声器,用户可以在听音乐或通话的同时保持对周围环境的感知。
  • 清晰通话:配备五麦克风系统,确保清晰的语音输入与通话语音质量,支持WhatsApp、Messenger等应用进行消息传送与视频通话。

Oakley Meta HSTN的产品规格

  • 材质:采用Oakley的O-Matter框架材质,比传统醋酸酯轻25%,强度高两倍。
  • 摄像头:前置1200万像素超广角摄像头,支持3K高清视频录制。
  • 视频录制:最长支持3分钟的3K视频录制。
  • LED指示灯:摄像头配有LED指示灯,录影或拍照时会亮起。
  • 麦克风:配备五麦克风系统,确保清晰的语音输入与通话语音质量。
  • 电池续航:单次充电可使用约8小时,待机时间最长可达19小时。
  • 充电盒:配备充电盒,可额外提供约48小时续航。
  • 快速充电:支持快速充电,20分钟可充至50%。
  • PRIZM™镜片技术:部分型号配备Oakley标志性的PRIZM™镜片技术,在多变的光照与天气条件下提升视觉清晰度与细节识别能力。
  • 多种镜片选择:提供透明镜片、变色镜片和偏光镜片,用户也可以更换处方镜片。
  • 镜片选择:提供多种镜片选择,包括透明镜片、变色镜片和偏光镜片,支持光学镜片定制。
  • IPX4防水等级:具备IPX4防水等级,能应对汗水、雨水和飞溅的水花,适合在运动和户外活动中使用。
  • 设计风格:采用与Ray-Ban Meta基本相同的布局,偏圆的镜片,录像指示灯与摄像头左右放置。

Oakley Meta HSTN的官网地址

  • 官网地址:https://www.oakley.com/

Oakley Meta HSTN的产品定价

  • 定价
    • 标准版:起售价为399美元,约合人民币2868元。
    • 限量版:售价为499美元,约合人民币3587元。
  • 发售时间
    • 限量版:将于2025年7月11日开启预订。
    • 标准版:预计在2025年夏季晚些时候正式发售。
  • 发售地区:首批将在美国、加拿大、英国、爱尔兰、法国、意大利、西班牙、奥地利、比利时、澳大利亚、德国、瑞典、挪威、芬兰和丹麦发售。后续计划于2025年晚些时候登陆墨西哥、印度和阿联酋。

Oakley Meta HSTN的适用人群

  • 极限运动参与者:如滑板、冲浪、滑雪、骑行等运动爱好者。眼镜具备IPX4防水等级,能抵御汗水和雨水,适合在各种恶劣天气下使用。其1200万像素摄像头支持3K视频录制,可以轻松记录运动中的精彩瞬间。
  • 专业运动员:如高尔夫球员、足球运动员、棒球运动员等。Meta AI助手可以实时提供运动相关数据,例如风速、浪况等,帮助运动员更好地分析表现并做出决策。
  • 徒步旅行者:在户外徒步时,眼镜的高清摄像头和语音助手功能可以帮助用户记录沿途风景并查询相关信息。
  • 科技爱好者:追求最新科技产品的用户会对这款集成了AI助手、高清摄像头和多种智能功能的眼镜感兴趣。
  • 日常佩戴者:希望在日常生活中使用智能眼镜进行拍照、录像、接听电话和播放音乐的用户。
  • 多语言环境用户:支持多语言实时翻译,适合在国际旅行或跨国赛事中使用。

DeepPiano – 智曲科技推出的AI钢琴应用

DeepPiano是什么

DeepPiano 是智曲科技推出的以大模型为内核的钢琴智能应用。通过先进的人工智能技术,为钢琴演奏者和学习者提供多种便捷功能。DeepPiano 能实现智能乐谱翻页,自动识别演奏进度,无需手动操作,让演奏更加流畅。“AI 音频美颜”功能可快速优化录制的钢琴音频,去除噪音提升音质,达到专业水准。具备 AI 音乐创作能力,可根据用户即兴演奏生成五线谱,激发创作灵感。

DeepPiano

DeepPiano的主要功能

  • AI 自动翻谱:通过智能识别演奏进度,自动翻页电子乐谱,解决了传统演奏中手动翻谱的不便。
  • AI 音频美颜:能修复录制音频中的错音、调整节奏,同时保留演奏者的情感处理,生成接近 CD 品质的音频。
  • AI 教学评测:实时提示演奏错误,提供与曲谱同步的大师音频示范,帮助用户提升演奏水平。
  • AI 音乐创作:支持用户即兴演奏,自动生成五线谱,能识别演奏意图,修正即兴中的小失误。

DeepPiano的官网地址

  • 官网地址:https://www.deepiano.com/
  • 苹果AppStore应用商店:https://apps.apple.com/us/app/deep-piano-ai-sheet-music/id6642699519

DeepPiano的应用场景

  • 钢琴学习:为钢琴学习者提供辅助教学,帮助他们更好地掌握钢琴演奏技巧和音乐理论知识。
  • 演出伴奏:在钢琴演奏会上,DeepPiano 可以作为协奏者,为演奏者提供伴奏支持。
  • 音乐创作:激发音乐创作者的灵感,帮助他们快速生成乐谱和音乐作品。

元智医疗大模型 – 联影智能推出的医疗领域多模态模型

元智医疗大模型是什么

元智医疗大模型是联影智能推出的面向医疗领域的多模态人工智能模型,通过融合文本、影像、视觉、语音等多种模态数据,为医疗场景提供深度智能化解决方案。包含五大子模型:文本大模型可将医学知识注入通用模型并实现轻量化部署;影像大模型基于海量医疗影像数据训练,支持多种影像模态分析,精准度超过95%;视觉大模型覆盖4D建模、渲染等能力;语音大模型可在嘈杂环境中精准识别医疗术语并支持多人对话;混合大模型则融合多模态能力,已应用于复杂手术场景。“元智”大模型能提升医疗诊断效率、优化治疗流程、助力医学研究与教育,推动医疗行业智能化发展。

元智医疗大模型

元智医疗大模型的主要功能

  • 医疗文本大模型:能高效处理复杂文本推理任务,体积仅为原始模型的四分之一,方便医院本地化部署。可将医学专业知识注入通用大模型,提升医疗文本处理效率。
  • 医疗影像大模型:基于海量医疗影像数据训练,支持10多种影像模态和300多种影像处理任务,关键任务精准度超过95%。在放射科,一次胸部CT扫描即可检出37种常见病种和异常。
  • 医疗视觉大模型:具备4D建模、高速电影级渲染等能力,可精准描绘和还原器官与组织分割。
  • 医疗语音大模型:支持医疗术语精准识别和智能声纹分析,可在嘈杂环境中识别专业术语,支持多人对话场景下的身份识别。
  • 混合多模态大模型:融合多种模态能力,实现“看、听、读、想”无缝衔接的智能化工作流,已在复杂医疗场景中落地应用。

元智医疗大模型的技术特点

  • 多模态融合:整合文本、影像、视觉、语音、混合等多模态数据,具备“看、听、读、想”的能力。
  • 深度适配医疗场景:通过垂域专精和私域知识微调,实现对医疗场景的高度适配。
  • 自主进化:能根据不同的医疗场景需求孕育出自进化、多模态、自适应的医疗智能体。
  • 高性能与轻量化:以元智医疗文本大模型为例,其复杂推理和文本处理能力大幅提升,且模型体积仅为原始模型的四分之一,便于医院本地化轻量、灵活部署。

元智医疗大模型的应用场景

  • 影像诊断:如uMetaImaging影像全智能体,突破传统“单病种、单应用”局限,可实现多种疾病用一个模型进行精准诊断,例如一次胸部CT扫描即可自动检出多个部位的37种常见病种和异常。
  • 临床治疗:如uAI MERITS多元手术智能体,可实现“眼、脑、手”协同,根据医生语音指令实时操控手术设备与机械臂,提升手术的精准性与安全性。
  • 医学科教:为医学研究和教育提供支持,如uAI Research Portal科研平台,提供一站式医学影像AI分析工具。
  • 医院管理:如uMetaGenesis设备管理智能体,辅助医院管理,通过智能感知设备状态与环境,优化资源调度与维护效率。
  • 患者服务:如病历助手,基于自然语言处理技术辅助医生高效生成和管理病历。