Author: Chimy

  • MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型

    MindLLM是什么

    MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subject-agnostic)的 fMRI 编码器和一个大型语言模型(LLM)实现高性能解码,引入脑指令调优(Brain Instruction Tuning,BIT)技术,捕捉 fMRI 信号中的多样化语义信息。MindLLM 在多个基准测试中表现优异,下游任务性能提升12.0%,跨个体泛化能力提升16.4%,新任务适应性提升25.0%。MindLLM为脑机接口和神经科学研究提供新的可能性。

    MindLLM

    MindLLM的主要功能

    • 脑活动解码:将大脑在感知、思考或回忆时的神经活动转化为直观的文字描述,帮助科学家和医生更好地理解大脑的工作机制。
    • 跨个体通用性:处理不同个体的脑信号,无需针对每个个体进行单独训练,大大提升模型的泛化能力。
    • 多功能解码:MindLLM 适应多种任务,如视觉场景理解、记忆检索、语言处理和复杂推理,展现出强大的多功能性。
    • 辅助医疗与人机交互:为失语症患者恢复沟通能力,或基于神经信号控制假肢、虚拟助手等设备,推动脑机接口技术的发展。

    MindLLM的技术原理

    • fMRI 编码器:用神经科学启发的注意力机制,将 fMRI 信号编码为一系列“脑部特征令牌”(tokens)。编码器学习大脑不同区域的功能信息和空间位置信息,动态提取特征,避免因个体差异导致的信息丢失。
    • 大型语言模型(LLM):将编码后的脑部特征令牌与语言模型结合,基于 LLM 的强大生成能力将脑信号转化为自然语言文本。用预训练的 LLM(如 Vicuna-7b)作为解码器,确保生成的文本具有语义连贯性和准确性。
    • 脑指令调优:基于多样化的数据集(如视觉问答、图像描述、记忆检索任务等)训练模型,捕捉 fMRI 信号中的多样化语义信息。BIT 数据集以图像为中介,将 fMRI 数据与对应的文本标注配对,训练模型执行多种任务,提升其多功能性和适应性。
    • 主体无关设计:基于分离脑区的功能信息(跨个体一致)和 fMRI 信号值,MindLLM 在不同个体之间共享先验知识,实现跨个体的通用解码能力。

    MindLLM的项目地址

    MindLLM的应用场景

    • 医疗康复:为失语症、瘫痪等患者恢复沟通能力,解码大脑信号帮助用户表达想法或控制外部设备。
    • 脑机接口:开发更高效、更直观的脑机接口系统,如控制假肢、轮椅或虚拟现实设备,提升残疾人士的生活质量。
    • 神经科学研究:帮助科学家更好地理解大脑的认知机制、意识活动及神经信号与行为之间的关系,推动神经科学的发展。
    • 人机交互:实现更自然、更直接的人机交互方式,用大脑信号控制电子设备、智能家居或自动驾驶系统,提升交互体验。
    • 心理健康辅助:监测和分析大脑活动,辅助诊断心理疾病或评估治疗效果,为心理健康领域提供新的工具和方法。
  • Probly – AI电子表格工具,交互式生成分析结果或可视化图表

    Probly是什么

    Probly 是 AI 驱动的电子表格工具,结合电子表格功能与 Python 数据分析能力。Probly基于 WebAssembly 在浏览器中运行 Python 代码,支持交互式电子表格、数据可视化和智能分析建议。用户能导入数据,基于 AI 聊天功能快速生成分析结果或图表,用预定义的提示库进行高效操作。Probly 架构基于 Next.js 前端和 Pyodide Python 运行时,数据处理完全在本地完成,保护用户隐私。Probly适合需要强大数据分析功能又希望操作简便的用户。

    Probly

    Probly的主要功能

    • 交互式电子表格:提供功能完备的电子表格,支持公式计算、数据输入和操作。
    • Python 代码执行:用户直接在浏览器中运行 Python 代码,进行复杂的数据处理和分析,无需本地安装 Python 环境。
    • 数据可视化:支持从数据中创建图表和可视化,帮助用户更直观地理解数据。
    • AI 驱动的智能分析:基于AI 技术提供智能建议和自动化分析,用户用自然语言提问,获取分析结果。
    • 预定义提示库:提供预定义的分析提示模板,用户能保存自己的提示,方便快速复用。
    • 本地数据处理:数据分析在浏览器中基于 WebAssembly 完成,数据无需上传到服务器,保护用户隐私。
    • 便捷的操作体验:支持键盘快捷键操作,如快速切换 AI 聊天窗口和提示库。

    Probly的技术原理

    • 前端技术:基于 Next.js 框架构建前端应用,结合 TypeScript 和 React 实现交互式界面。
    • Python 运行时: Pyodide(Python 编译为 WebAssembly)实现 Python 代码的浏览器端运行,无需后端服务支持。
    • AI 集成: OpenAI API 提供智能分析和自然语言处理能力,API 调用基于服务器代理完成。
    • 数据可视化:ECharts 等库实现数据的可视化展示,支持多种图表类型。
    • 模块化设计:模块化设计,将电子表格、数据分析、AI 功能等组件化,便于扩展和维护。

    Probly的项目地址

    Probly的应用场景

    • 数据分析与报告:快速处理数据,生成可视化图表,提升工作效率。
    • 教育与学习:帮助初学者学习数据分析和Python编程。
    • 商业智能:辅助商务人士整理数据,快速生成分析报告。
    • 科研数据分析:支持科研人员进行实验数据处理和分析。
    • 个人数据管理:方便用户分析个人财务、健康等数据。
  • PRefLexOR – MIT 团队推出的新型自学习AI框架

    PRefLexOR是什么

    PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT团队提出的新型自学习AI框架,结合了偏好优化和强化学习(RL)的概念,模型能通过迭代推理改进自我学习。框架的核心是递归推理算法,模型在训练和推理阶段会进行多步推理、回顾和改进中间步骤,最终生成更准确的输出。PRefLexOR的基础是优势比偏好优化(ORPO),模型通过优化偏好响应和非偏好响应之间的对数几率来对齐推理路径。集成了直接偏好优化(DPO),通过拒绝采样进一步提升推理质量。

    PRefLexOR

    PRefLexOR的主要功能

    • 动态知识图谱构建:框架不依赖预生成的数据集,是通过动态生成任务和推理步骤,实时构建知识图谱。使模型能不断适应新任务,在推理过程中动态扩展知识。
    • 跨领域推理能力:PRefLexOR能够将不同领域的知识进行整合和推理,例如在材料科学中,模型可以通过递归推理和知识图谱生成新的设计原则。
    • 自主学习与进化:通过递归优化和实时反馈,PRefLexOR能够在训练过程中自我教学,不断改进推理策略,展现出类似人类的深度思考和自主进化能力。

    PRefLexOR的技术原理

    • 递归推理与反思:PRefLexOR通过引入“思考令牌”和“反思令牌”,明确标记推理过程中的中间步骤和反思阶段。模型在推理过程中会生成初始响应,然后通过反思逐步改进,最终生成更准确的答案。
    • 偏好优化:PRefLexOR基于优势比偏好优化(ORPO)和直接偏好优化(DPO)。模型通过优化偏好响应和非偏好响应之间的对数优势比,使推理路径与人类偏好决策路径一致。DPO进一步通过拒绝采样调整推理质量,确保偏好对齐的细微差别。
    • 多阶段训练:PRefLexOR的训练分为多个阶段:首先通过ORPO对齐推理路径,然后通过DPO进一步优化推理质量。这种混合方法类似于RL中的策略细化,模型通过实时反馈和递归处理不断改进。

    PRefLexOR的项目地址

    PRefLexOR的应用场景

    • 材料科学与设计:PRefLexOR在材料科学领域展示了强大的推理能力。通过动态生成问题和检索增强技术(RAG),能从随机文本中提取信息,构建动态知识图谱。
    • 跨领域推理:PRefLexOR能整合不同领域的知识,进行跨领域的推理和决策。在生物材料科学中,可以通过递归推理和反思机制,将生物学原理与材料科学相结合,提出新的解决方案。
    • 开放域问题解决:作为一种基于强化学习的自学习系统,PRefLexOR能解决开放域问题,通过迭代优化和反馈驱动的学习,不断改进其推理路径。
    • 生成材料信息学:PRefLexOR可用于生成材料信息学工作流,将信息转化为知识和可操作的结果。通过多步推理和自我评估,能实现更复杂的预测,支持材料预测的持续改进。
  • 清华大学《AIGC发展研究报告3.0》(PDF文件) – AI教程资料

    《AIGC发展研究报告3.0》由清华大学新闻与传播学院新媒体研究中心和人工智能学院联合发布,聚焦于人工智能生成内容(AIGC)技术的发展现状与未来趋势。报告从AI哲学思辨出发,探讨了AIGC对经典哲学理论的冲击与革新,如怀疑论、主体间性、儒家“信”的思想等,分析了国内外大模型的演进,包括OpenAI的o1模型、Grok 2、Llama 3.2等,探讨了生成机制、AI幻觉问题以及不同模型的应用场景。报告还深入研究了AIGC在文字、图像、音乐、视频等生成式内容创作中的应用,展示了AI在文学、绘画、音乐、视频等领域的创作成果。提出了AIGC在版权、法律、伦理等方面的挑战与应对策略,为理解AIGC技术的多维度影响提供了全面视角。

    获取《AIGC发展研究报告3.0》 PDF原文件,扫码关注回复: 20250304

    研究团队与背景

    • 团队简介:清华大学新闻与传播学院新媒体研究中心与人工智能学院联合研究团队,由沈阳教授领导,专注于跨学科研究,涵盖新闻传播学、计算机科学、信息管理学、医学等领域。
    • 研究方向:元宇宙、大模型产业化、大数据、新媒体与网络舆论、AI诊疗、AI文艺等。

    AI哲学

    • 怀疑论与思维本质:探讨AI的“思维”是否挑战了笛卡尔的怀疑论。
    • 主体间性与他者经验:分析AI的主体间性是否为真正的主体性,以及对“他者经验”的重新审视。
    • 儒家“信”的思想:AI虚假信息对传统儒家思想中“信”的冲击。
    • 对话与理性:AI对话模式对传统对话深度与真实性的挑战。
    • 技术与社会演进:AIGC对马克思社会阶段理论的印证,以及对社会形态的推动。
    • 技术与权力结构:AI作为“环形监狱”对隐私、自我监控和权力关系的影响。
    • 天人智一与和谐共生:从“天人合一”到“天人智一”的理念转变,强调人与自然、技术的和谐共处。

    国内外大模型发展

    • 基座升级与技术演进:从文本生成到视频创作,再到逻辑推理的三次进步。
    • 生成机制与语料预学:以“我喜欢吃苹果”为例,解析AI模型的训练、推理和生成过程。
    • AI缺陷与幻觉问题:探讨AI幻觉的成因、类型及对信息可信度的影响。
    • OpenAI o1模型:其在多领域(金融、编程、教育等)的应用与社会影响。
    • 语言大模型群雄逐鹿:对比GPT-4o、Apple Intelligence、Grok 2、Llama 3.2等六大模型的优缺点。
    • 视频大模型三足鼎立:分析Runway、清影、Vidu等视频大模型的功能特色。
    • 音乐大模型“一超多强”:Suno、Abab-music-1、天工SkyMusic等音乐大模型的特点与应用场景。

    生成式内容创作:文、图、乐、剧

    • 图灵测试与智能超越:AI在文本、图像、音乐、视频等领域的突破。
    • AI艺术创作:从“零知识启动”到“高知识生产”,再到“新知识创造”的创造力跃迁。
    • AI艺术评价体系:凡品、精品、优品、罕品、孤品的分级标准。

    • 三重概率与创作流程:初始生成、交互筛选、主观优化的创作体系。
    • 三型创作模式:确定型、非确定型、融合型创作的特点与应用。
    • 三元分离模型:AI与人类创作在过程、情感表达、受众感知上的区别。
    • AI文学创作:包括AI小说、诗歌、论文等生成案例。
    • AI绘画与美学理论:探讨AI绘画的本质、美学价值及创新美学理论。
    • AI音乐创作:高细节音乐、情感疗愈音乐、状态感知音乐等创新类型。
    • AI视频创作:AI微短剧、文旅宣传片等视频生成案例。

    各行业应用与创新

    • 服装设计:AI全流程设计服装并对接生产,推动服装行业变革。
    • 医疗健康:AI-MDT多学科诊疗系统、心理疾病辅助诊疗平台等应用。
    • 教育创新:AI辅助学习、个性化教育、教育大模型的构建。

    • 工业与能源:煤化工大模型、设备故障预测、智能安全管理。
    • 出版与文旅:AI出版、文旅虚拟人、AIGC文创产品。
    • 传媒与互联网:AIGC新闻、社交媒体、搜索引擎的融合。
    • 人形机器人与元宇宙:AI赋能人形机器人、具身智能、空间智能。

    未来展望:技术革新与社会变革

    • 职业替代与协作:分析不同职业在AI时代的替代性与协作潜力。
    • 社会形态演变:从农业社会到工业社会,再到AI社会的转变。

    • 经济变化与资源分配:智能化生产、产业优化升级、资源集中化。
    • 政治冲击与权力转移:AI对政策制定、社会治理、选举管理的影响。

    • 文化重塑与伦理挑战:AI对传统创作、社会变革、伦理思考的冲击。
    • 生活方式变革:AI在衣、食、住、行、娱乐等方面的应用。
    • 情感变迁与认知透视:AI对情感、人际关系、认知的影响。
    • 版权与法律重塑:AIGC内容的版权归属、最小可识别单元的构建。

    获取《AIGC发展研究报告3.0》 PDF原文件,扫码关注回复: 20250304

  • PhotoKit – AI图片编辑工具,一键识别分离主体与背景

    PhotoKit是什么

    PhotoKit是基于AI技术的在线图片编辑工具,支持一键AI抠图,能快速识别去除背景,通过智能笔刷修复照片、消除瑕疵或移除不需要的元素。PhotoKit提供画质增强、曝光修复等功能,可优化图片清晰度和明暗对比。支持批量处理,包括修改图片大小、压缩、裁剪和格式转换,提升了工作效率。

    PhotoKit

    PhotoKit的主要功能

    • AI智能抠图:一键识别并分离图片中的主体与背景,快速生成透明背景图,支持批量操作,适合电商、设计等场景。
    • 画质增强:基于AI算法提升图片清晰度,修复模糊或低分辨率图像,优化视觉效果。
    • 智能修复:通过智能笔刷功能,修复旧照片、去除水印、消除瑕疵或删除多余元素,还原图片完整性。
    • 曝光调整:一键修复过曝或欠曝的照片,平衡明暗对比,提升整体观感。
    • 批量处理:支持批量修改图片大小、裁剪、压缩、格式转换等,满足批量编辑需求,提高效率。
    • 创意合成与拼贴:提供照片合成、拼贴功能,可将多张图片融合或拼接,创造出独特的视觉效果。
    • 风格迁移:将图片转换为不同艺术风格,如油画、水彩等,赋予照片新的艺术感。
    • 素材库:提供超过220万张高清图片、插画和矢量图素材,免费供用户使用,丰富设计资源。
    • 跨平台使用:支持Windows、Mac、Linux、iOS和Android等设备,无需安装,云端操作,方便快捷。

    PhotoKit的官网地址

    PhotoKit的应用场景

    • 创意设计:使用风格迁移、特效滤镜等功能,将普通照片转换为艺术风格作品,满足个人创意需求。
    • 电商产品展示:商家可以使用PhotoKit快速抠图、替换背景,优化产品图片,提升商品展示效果,吸引更多客户。
    • 海报与广告设计:设计师可以用PhotoKit的批量处理、图片合成等功能,高效完成海报、广告等商业设计任务。
    • 教学素材制作:教师可以用PhotoKit对教学图片进行编辑和处理,制作更直观、生动的教学课件和演示文稿。
    • 旅行照片编辑:在旅游应用中,用户可以用PhotoKit记录和编辑旅行中的照片和视频,添加文字、贴纸或滤镜,分享旅行瞬间。
  • 馆长 – 知识库AI问答助手,分析文档提供精准答案

    馆长是什么

    馆长是轻量级的RAG(检索增强生成)知识库AI问答助手,以浏览器插件的形式为用户提供知识整理与查询服务。支持将本地文件(如PDF、Word、TXT等)、网页内容或浏览器书签导入知识库,通过语义搜索和AI分析,快速提供精准答案。馆长的所有内容仅存储在本地,无云端服务器,确保用户隐私。支持离线使用,无需联网可查询知识库,适合对数据安全和隐私有较高要求的用户。馆长支持中英文搜索,提供无限文档导入功能,上限取决于用户设备的存储能力。

    ncurator 馆长

    馆长的主要功能

    • 知识库管理:支持导入本地文件(如PDF、Word、TXT、PPT等)。可以通过网址爬取网页内容,丰富知识库。支持导入浏览器书签,整合常用信息资源。
    • 智能问答:用户输入问题后,馆长会基于知识库内容,通过语义搜索提供精准答案。AI能分析文档提取关键信息,帮助用户快速获取所需内容。
    • 数据安全与隐私:所有数据仅保存在本地电脑,无云服务器,确保数据安全。支持离线使用,下载模型后无需联网。
    • 便捷功能:支持无限文档数量,上限取决于用户电脑的存储能力。>提供中英文搜索,对中文搜索能力进行了优化。
    • 与其他工具集成:支持与Notion、Gmail、Google Drive等工具集成,进一步扩展知识库内容。
    • 个性化设置:用户可以根据需求调整查询语句或重新生成答案。支持自定义知识库结构,方便分类和管理。

    如何使用馆长

    • 下载与安装:访问馆长的官方网站,下载安装馆长插件。
    • 初始化设置:首次启动后,按提示完成初始化,选择语言并设置知识库存储路径。
    • 导入知识库:点击“导入知识库”,选择本地文件(PDF、Word等)、网页链接或浏览器书签,将内容导入知识库。
    • 问答操作:在搜索框输入问题,点击搜索或回车,馆长会基于知识库内容生成答案,用户可查看引用来源或重新生成答案。
    • 离线与数据管理:馆长支持离线使用,数据仅存储在本地,用户可随时删除或更新知识库内容。
    • 高级功能:可与Notion、Gmail等工具集成,支持中英文搜索,优化中文体验。

    馆长的应用场景

    • 个人知识管理:用户可以将个人文档(如PDF、Word等)导入知识库,快速查找和整理学习笔记、工作资料等。
    • 企业内部知识库:在企业环境中,馆长可用于构建内部知识库,方便员工查询项目资料、技术文档等,提升团队协作效率。
    • 在线学习辅助:学生和教师可将课程资料、学术文献导入知识库,通过智能问答快速获取学习资源和解答学术疑问。
    • 图书馆服务:馆长可用于图书馆管理系统,提供图书查询、借阅指南、智能推荐等服务。
  • CogView4 – 智谱开源的AI文生图模型,支持生成汉字

    CogView4是什么

    CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进水平(SOTA)。CogView4 是首个遵循 Apache 2.0 协议的图像生成模型,CogView4 支持任意分辨率图像生成,能根据复杂文本描述生成高质量图像。

    CogView4

    CogView4的主要功能

    • 支持中英双语输入:CogView4 是首个支持生成汉字的开源文生图模型,能够根据中文或英文提示词生成高质量图像。
    • 任意分辨率图像生成:该模型支持生成分辨率在 512×512 到 2048×2048 之间的图像,满足不同场景的创作需求。
    • 强大的语义对齐能力:在 DPG-Bench 基准测试中,CogView4 综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。
    • 中文文字绘画:CogView4 特别优化了中文文字生成能力,能够将汉字自然地融入图像中,适合广告、短视频等创意领域。
    • 显存优化与高效推理:通过模型 CPU 卸载和文本编码器量化等技术,CogView4 显著降低了显存占用,提升了推理效率。

    CogView4的技术原理

    • 架构设计:CogView4 采用了扩散模型结合 Transformer 的架构。扩散模型通过逐步去除噪声来生成图像,Transformer 负责处理文本和图像的联合表示。模型使用了 6B 参数的配置,支持任意长度的文本输入和任意分辨率的图像生成。
    • 文本编码器与 Tokenizer:CogView4 使用了双语(中英文)的 GLM-4 编码器,能处理复杂的语义对齐任务。文本通过 Tokenizer 转化为嵌入向量,随后与图像的潜在表示结合。
    • 图像编码与解码:图像通过 Variational Auto-Encoder(VAE)编码为潜在空间的表示,通过扩散模型逐步去噪生成最终图像。使模型能高效地处理图像的生成任务。
    • 扩散过程与去噪:扩散模型的核心是通过一系列的去噪步骤逐步生成图像。CogView4 使用了 FlowMatch Euler Discrete Scheduler 来控制去噪过程,用户可以通过调整去噪步数(num_inference_steps)来平衡生成质量和速度。
    • 多阶段训练策略:CogView4 采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。确保生成图像的高质量和美感。
    • 优化与效率:为了提升训练和推理效率,CogView4 采用了显存优化技术,如模型 CPU 卸载和文本编码器量化。模型支持 Apache 2.0 协议,便于开源社区的进一步开发。

    CogView4的项目地址

    CogView4的官方案例

    • 超长故事(四格漫画):请生成一张图包含四个场景的四格漫画图,采用动漫插画风格的连环画。其中主要出现的角色有: 小明:人类男孩,拥有一颗勇敢的心,手持宝剑,穿着简易的战士服装。 公主:人类女性,美丽优雅,穿着华丽的公主服饰,被囚禁在怪兽的老巢。 国王:人类男性,威严而仁慈,穿着华丽的王者服饰,坐在王国的宝座上。 火焰龙:怪兽,全身覆盖着火焰般的鳞片,口吐火焰,体型庞大。 黑暗魔王:怪兽,体型巨大,全身笼罩在黑暗中,拥有强大的魔法力量。

    CogView4

    • CogView4 能将中英文字符自然地融入画面,使海报、文案配图创作更加便捷。

    • 擅长理解和遵循中文提示词,例如能够画出古诗文中的意境。

    CogView4的应用场景

    • 广告与创意设计:CogView4 能将中英文字符自然地融入画面,生成高质量的海报、文案配图等,满足广告和创意设计领域的需求。
    • 教育资源生成:模型可以为教育领域生成教学插图、科学插图等,帮助学生更好地理解和吸收知识。
    • 儿童绘本创作:CogView4 能生成适合儿童绘本的插图,激发儿童的想象力。
    • 电商与内容创作:生成高质量的产品图片、广告海报等,帮助商家快速创建吸引人的视觉内容。
    • 个性化定制:根据用户需求生成定制化的图像内容,提升用户体验。
  • Microsoft Dragon Copilot – 微软推出的医疗 AI 语音助手

    Microsoft Dragon Copilot是什么

    Microsoft Dragon Copilot 是微软推出的面向医疗行业的AI语音助手,帮助临床医生简化临床文档处理、信息检索和任务自动化。Microsoft Dragon Copilot 结合 Dragon Medical One 的语音识别能力和 DAX Copilot 的环境感知AI技术,支持多语言语音笔记创建、自动化任务、个性化格式、信息检索等功能。基于减少行政负担,提升医生的工作效率和患者体验,改善医疗系统的财务影响。

    Microsoft Dragon Copilot

    Microsoft Dragon Copilot的主要功能

    • 简化文档:支持多语言语音笔记创建、自动化任务、个性化格式等。
    • 信息检索:嵌入式AI助手功能,从可信内容源检索医疗信息。
    • 任务自动化:支持会话式医嘱、临床证据总结、转诊信和就诊后总结等。
    • 集成与扩展:支持移动、网络、桌面和嵌入式EHR等多种设备。

    Microsoft Dragon Copilot的官网地址

    Microsoft Dragon Copilot的应用场景

    • 临床医生:包括全科医生、专科医生、住院医师等,简化临床文档处理、提高工作效率和减轻行政负担。
    • 护士和护理人员:在记录患者护理信息、生成护理报告和执行医嘱时使用,提升护理工作的效率和准确性。
    • 医疗行政人员:负责医疗记录管理、患者信息整理和医疗流程协调的人员,基于自动化任务减少工作量。
    • 医疗团队其他成员:医疗助理、康复治疗师等,记录患者情况和生成相关文档。
    • 医疗机构管理者:提升整体医疗服务效率和质量,改善患者体验,优化医疗资源分配。
  • SepLLM – 基于分隔符压缩加速大语言模型的高效框架

    SepLLM是什么

    SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率。SepLLM的核心是利用分隔符(如标点符号)对注意力机制的贡献,将段落信息压缩到这些标记中,减少计算负担。SepLLM在处理长序列(如400万标记)时表现出色,保持了低困惑度和高效率。支持多节点分布式训练,集成了多种加速操作(如fused rope和fused layer norm)。

    SepLLM

    SepLLM的主要功能

    • 长文本处理能力:SepLLM能高效处理超过400万个标记的长序列,适用于文档摘要、长对话等需要维持上下文连贯性的任务。
    • 推理与内存效率提升:在GSM8K-CoT基准测试中,SepLLM将KV缓存使用量减少了50%以上,同时计算成本降低28%,训练时间缩短26%,推理速度显著提升。
    • 多场景部署灵活性:SepLLM支持从零训练、微调和流式应用等多种部署场景,能与预训练模型无缝集成。
    • 支持多节点分布式训练:SepLLM的代码库支持高效的多节点分布式训练,集成了多种加速训练的操作(如fused rope、fused layer norm等)。

    SepLLM的技术原理

    • 稀疏注意力机制:SepLLM主要关注三类标记:在自注意力层中,SepLLM通过mask矩阵限制注意力计算范围,仅计算上述三类标记之间的注意力,实现稀疏化。
      • 初始标记(Initial Tokens):序列开始的若干标记,作为注意力的锚点。
      • 邻近标记(Neighboring Tokens):当前标记附近的标记,用于保持局部语义连贯性。
      • 分隔符标记(Separator Tokens):如逗号、句号等,用于压缩存储段落信息。
    • 动态KV缓存管理:SepLLM设计了专门的缓存块,包括初始缓存、分隔符缓存、历史窗口缓存和局部窗口缓存。通过周期性压缩和更新策略,SepLLM能高效处理长序列,同时减少KV缓存的使用。

    SepLLM的项目地址

    SepLLM的应用场景

    • 流式应用:用于多轮对话、实时文本生成等流式场景,支持无限长度输入,保持高效的语言建模能力。
    • 推理与内存优化:通过减少KV缓存和计算成本,适用于资源受限的环境(如边缘计算、移动设备),降低部署成本。
    • 工业应用:在大规模商业应用中,降低部署成本,提升服务效率,支持高并发请求。
    • 研究与创新:为注意力机制优化提供新思路,支持多语言、特定领域优化和硬件适配等研究方向。
  • LCVD – 川大推出的光照可控肖像动画生成框架

    LCVD是什么

    LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如身份和外观)与外在特征(如姿态和光照),参考适配器和阴影适配器将特征分别映射到不同的子空间中。在动画生成过程中,LCVD结合特征子空间,基于多条件分类器自由引导机制精细调控光照效果,保留肖像的身份和外观。模型基于稳定的视频扩散模型(SVD),生成与驱动视频姿态一致且符合目标光照条件的高质量肖像动画。LCVD在光照真实感、图像质量和视频一致性方面显著优于现有方法,为虚拟现实、视频会议和影视制作等领域提供了强大的技术支持。

    LCVD

    LCVD的主要功能

    • 肖像动画化:将静态肖像转化为动态视频,匹配驱动视频中的头部动作和表情。
    • 光照控制:在动画生成过程中,根据用户指定或参考图像的光照条件对肖像进行重打光。
    • 身份与外观保留:在动画和重打光过程中,保持肖像的身份和外观特征,避免身份信息丢失。
    • 高质量视频生成:生成的视频在光照真实感、图像质量和视频一致性方面表现优异,适合虚拟现实、视频会议和影视制作等场景。

    LCVD的技术原理

    • 特征分离:参考适配器(Reference Adapter)将参考肖像的内在特征(身份和外观)映射到特征空间。阴影适配器(Shading Adapter)将外在特征(光照和姿态)映射到特征空间。基于分离内在和外在特征,模型在动画化过程中独立控制光照和姿态。
    • 光照可控的扩散模型:基于稳定视频扩散模型(Stable Video Diffusion Model),用多条件分类器自由引导(Classifier-Free Guidance)调整光照效果。修改引导强度(如权重 ω),增强或减弱光照提示的影响,实现精细的光照控制。
    • 运动对齐与长视频生成:基于运动对齐模块,确保生成的肖像与驱动视频的姿态一致。用扩散模型采样方法,生成任意长度的视频,基于重叠策略确保视频片段之间的平滑过渡。
    • 训练与优化:在训练阶段,自监督学习优化适配器和扩散模型,确保生成的视频在光照、姿态和身份上的一致性。用损失函数(如 LPIPS、FID 等)评估和优化生成视频的质量。

    LCVD的项目地址

    LCVD的应用场景

    • 虚拟现实(VR)和增强现实(AR):创建逼真的虚拟角色,与虚拟或现实场景自然融合。
    • 视频会议:实时生成高质量肖像动画,降低带宽需求,提升用户体验。
    • 影视制作:快速生成符合不同光照条件的肖像动画,用于特效和虚拟场景。
    • 游戏开发:生成逼真的虚拟角色动画,增强游戏的真实感和沉浸感。
    • 社交媒体和内容创作:支持用户生成个性化动态头像或短视频,丰富内容创作形式。