Category: AI项目和框架

  • 协和·太初 – 北京协和与中科院共同推出的罕见病领域AI大模型

    协和·太初是什么

    协和·太初是北京协和医院与中国科学院自动化研究所共同研发的国内首个罕见病领域AI大模型,正式进入临床应用。模型基于我国罕见病知识库的多年积累和中国人群基因检测数据,是国际首个符合中国人群特点的罕见病大模型。采用极小样本冷启动技术,仅需少量数据与医学知识融合,可实现全流程辅助决策。

    协和·太初

    协和·太初的主要功能

    • 初诊咨询与建议:患者可通过与模型的多轮交互问诊,短时间内获得初步诊疗建议。
    • 辅助医生决策:模型构建了“症状—检查—鉴别诊断”的渐进式推理链条,与医生的临床思维高度契合,能帮助医生快速掌握诊疗思路。
    • 病历书写与基因解读:未来将支持病历书写、基因解读及遗传咨询等医生端服务功能。
    • 知识自主迭代:通过与患者的交互记录评估诊疗过程,实现决策驱动数据的主动更新进化,形成“临床使用—数据反馈—模型迭代”的闭环。
    • 抑制AI幻觉:构建多维度可溯源的知识库,有效抑制模型可能出现的“幻觉”,增强临床决策的可信度。

    协和·太初的技术原理

    • 极小样本冷启动技术:针对罕见病病例分散、数据稀缺的问题,研究团队采用极小样本冷启动方式,仅需少量数据与医学知识融合,可实现全流程的辅助决策功能。
    • “数据+知识”混合驱动:模型结合了罕见病知识库多年积累和中国人群基因检测数据,通过“数据+知识”的混合驱动方式,增强模型的决策逻辑和可信度。
    • 深度推理能力:引入DeepSeek-R1的深度推理能力,构建“症状—检查—鉴别诊断”的渐进式推理链条,与医生的临床思维高度契合,能展示从症状到诊断的关键节点与分支逻辑。
    • 主动感知交互与闭环迭代:模型通过与患者的多轮交互,主动感知病情变化并更新决策过程,形成“临床使用—数据反馈—模型迭代”的闭环,实现知识自主迭代。
    • 多维度可溯源知识库:为抑制AI“幻觉”,模型构建了多维度可溯源的知识库,整合权威数据,动态更新知识,增强临床决策的可信度。

    协和·太初的项目地址

    协和·太初的应用场景

    • 患者初诊与快速问诊:患者可以通过与协和·太初进行多轮交互问诊,短时间内获得初步诊疗建议,帮助快速定位可能的罕见病方向。
    • 罕见病诊疗协作网推广:模型已在北京协和医院罕见病联合门诊试点应用一年,效果良好。后续将接入北京协和医院的线上诊疗服务,逐步推广至全国罕见病协作网医院,助力分级诊疗体系建设。
    • 知识自主迭代与闭环优化:模型通过与患者的交互记录评估诊疗过程,实现决策驱动数据的主动更新进化,形成“临床使用—数据反馈—模型迭代”的闭环,持续优化诊疗能力。
  • AI co-scientist – 谷歌推出多智能体协作的 AI 科研助手

    AI co-scientist是什么

    AI co-scientist 是谷歌推出的多智能体AI系统,作为虚拟科研机器人,协助科研人员搞定各种繁琐的科研任务,包括科研选题、文献检索和实验设计。AI co-scientist 基于Gemini 2.0 赋能,用生成、反思、排序、进化等多个智能体协同工作,模拟科学研究全流程。系统能理解科研目标,生成创新假设和研究方案,基于“测试时间计算”提升推理能力。AI co-scientist在药物重定向、靶点发现和抗生素耐药性机制等领域取得初步成果,展现加速科学发现的潜力。

    AI co-scientist

    AI co-scientist的主要功能

    • 理解科研目标:科学家基于自然语言向系统描述研究目标,系统理解生成相关的研究假设和实验方案。
    • 生成创新假设:系统基于文献探索和模拟科学辩论,生成新颖的研究假设。
    • 实验设计:系统提出详细的实验方案,包括实验步骤、预期结果和验证方法,评估可行性。
    • 自我优化:系统基于“假设锦标赛”和进化过程,不断优化假设的质量。
    • 文献综述与整合:系统快速回顾和总结相关文献,整合已有研究成果,为新的研究方向提供支持。

    AI co-scientist的技术原理

    • 多智能体架构:系统由多个智能体组成,包括生成智能体(Generation Agent)、反思智能体(Reflection Agent)、排名智能体(Ranking Agent)、进化智能体(Evolution Agent)、邻近性检查智能体(Proximity Check Agent)和元评审智能体(Meta-Review Agent)。智能体各司其职,协同完成复杂的科学推理任务。
    • 测试时间计算:系统在推理过程中动态分配计算资源,基于扩展推理时间增强其推理能力。
    • Elo评分机制:系统用Elo评分机制自动评估生成的假设和研究方案的质量。Elo评分越高,假设的质量越高。
    • 模拟科学方法:系统模拟科学研究的全流程(包括假设生成、验证、改进等步骤)生成高质量的研究方案。设计灵感来源于科学研究中的“假设-验证”循环。
    • 自然语言处理:系统基于 Gemini 2.0,理解和生成自然语言,科学家用自然的方式与系统交互,描述研究目标、提供反馈或接收系统输出。
    • 工具集成与扩展:系统与外部工具(如文献数据库、专业AI模型等)集成,利用外部工具扩展其能力,例如通过AlphaFold验证蛋白质结构设计。

    AI co-scientist的项目地址

    AI co-scientist的应用场景

    • 药物重定向:快速找到现有药物的新用途,如为急性髓系白血病(AML)找到新药,节省研发时间和成本。
    • 靶点发现:识别新的治疗靶点,例如在肝纤维化研究中提出新的表观遗传靶点,助力新药开发。
    • 耐药性机制研究:探索细菌耐药性机制,如提出噬菌体诱导染色体岛的相互作用假设,为抗菌策略提供新思路。
    • 实验设计:为生物医学研究生成创新假设和详细实验方案,提高研究效率。
    • 跨学科研究:整合多领域知识,打破学科壁垒,加速复杂疾病的跨学科研究。
  • Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

    Crawl4LLM是什么

    Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。Crawl4LLM支持三种爬取模式:智能模式、随机爬取模式和基于链接数量的爬取模式,同时具备爬虫状态定期保存、数据可视化等功能,能与 DCLM 框架无缝对接,直接用在模型训练。

    Crawl4LLM

    Crawl4LLM的主要功能

    • 智能化网页选择:系统基于评估网页对 LLM 预训练的价值,优先抓取高价值网页,提升数据质量、减少无效数据抓取。
    • 多种爬取模式
      • 智能模式:基于网页价值评估,优先抓取高价值网页。
      • 随机模式:随机抓取网页,适用于非精准需求场景。
      • 基于链接数量模式:根据网页链接数量抓取,适合大规模数据采集。
    • 爬虫状态定期保存:支持定期保存爬虫状态,中断也能从中断点继续抓取,避免数据丢失。
    • 数据浏览与可视化:提供数据浏览工具和可视化界面,方便用户实时监控爬取进度和效果。
    • 与 DCLM 框架无缝对接:爬取的数据用在 LLM 预训练,提高数据流效率和准确性。

    Crawl4LLM的技术原理

    • 预训练影响力评分:Crawl4LLM 用预训练影响力评分器(如 DCLM fastText)对网页进行评分。评分器基于网页内容的质量、相关性等指标,评估网页对 LLM 预训练的贡献。在每次爬取迭代中,新发现的网页被评分器打分,根据分数决定爬取优先级。
    • 优先级队列:基于优先级队列对网页进行排序,优先爬取评分最高的网页,替代传统爬虫基于图连通性(如 PageRank)的调度机制。基于优先级队列,Crawl4LLM 快速发现和爬取对预训练最有价值的网页,减少对低价值网页的爬取。
    • 多维度数据评估:Crawl4LLM 考虑网页内容的质量,结合网页的链接数量、内容长度等多维度指标进行综合评分。分析高评分网页的链接关系,发现更多潜在的高价值网页。
    • 模拟与优化:在 ClueWeb22 数据集上进行大规模模拟实验,验证在不同场景下的有效性。基于实验优化算法参数,确保在有限的爬取量下达到最佳的预训练效果。
    • 减少对网站的负担:减少不必要的网页爬取,降低对网站的流量负担,提升爬取行为的合规性。Crawl4LLM 减少数据爬取对网站和网络资源的压力,推动了更可持续的预训练数据获取方式。

    Crawl4LLM的项目地址

    Crawl4LLM的应用场景

    • LLM预训练数据收集:高效获取高质量数据,用于大语言模型的预训练。
    • 搜索引擎优化:提升搜索结果质量,优化用户体验。
    • 数据集构建:快速筛选和构建高质量语料库,满足研究和商业需求。
    • 网络监测与分析:监测网络动态,分析热点话题和信息传播。
    • 企业级数据采集:精准抓取特定领域数据,用于知识管理或市场分析。
  • OSUM – 西北工业大学开源的语音理解模型

    OSUM是什么

    OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。OSUM基于“ASR+X”多任务训练策略,用模态对齐和目标任务的优化,实现高效稳定的训练。OSUM用约5万小时的多样化语音数据进行训练,性能在多项任务中表现优异,在中文ASR和多任务泛化能力上表现出色。

    OSUM

    OSUM的主要功能

    • 语音识别:将语音转换为文本,支持多种语言和方言。
    • 带时间戳的语音识别:在识别语音内容的同时,输出每个单词或短语的起止时间。
    • 语音事件检测:识别语音中的特定事件(如笑声、咳嗽、背景噪音等)。
    • 语音情感识别:分析语音中的情感状态(如高兴、悲伤、愤怒等)。
    • 说话风格识别:识别说话者的风格(如新闻播报、客服对话、日常口语等)。
    • 说话者性别分类:判断说话者的性别(男性或女性)。
    • 说话者年龄预测:预测说话者的年龄范围(如儿童、成年人、老年人)。
    • 语音转文本聊天:将语音输入转化为自然语言回复,用在对话系统。

    OSUM的技术原理

    • Speech Encoder:用Whisper-Medium模型(769M参数),负责将语音信号编码为特征向量。
    • Adaptor:包含3层卷积和4层Transformer,用在适配语音特征与语言模型的输入。
    • LLM(语言模型):基于Qwen2-7B-Instruct,用LoRA(Low-Rank Adaptation)微调,适应多任务需求。
    • 多任务训练策略
      • ASR+X训练范式:同时训练语音识别(ASR)任务和一个附加任务(如SER、SGC等)。基于共享特征和优化目标,提升模型的泛化能力和稳定性。
      • 自然语言Prompt:基于为LLM提供不同的自然语言提示(Prompt),引导模型执行不同的任务。
    • 数据处理与训练:约5万小时的多样化语音数据进行多任务训练,数据集包括开源数据和内部处理数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,然后与LLM结合,进行进一步的监督训练。

    OSUM的项目地址

    OSUM的应用场景

    • 智能客服:基于语音识别和情感分析,自动理解客户需求并提供个性化服务。
    • 智能家居:识别语音指令和背景事件,优化语音交互体验。
    • 教育工具:分析学生语音,提供个性化学习反馈。
    • 心理健康监测:检测语音中的情绪变化,辅助心理健康评估。
    • 多媒体内容创作:自动生成字幕和标签,辅助视频编辑。
  • BioEmu – 微软推出的生成式深度学习系统

    BioEmu是什么

    BioEmu是微软研究院推出的生成式深度学习系统,高效模拟蛋白质的动态结构和平衡态构象。能在单个GPU上每小时生成数千种蛋白质结构样本,效率远超传统的分子动力学(MD)模拟。通过结合大量蛋白质结构数据、超过200毫秒的MD模拟数据以及实验蛋白质稳定性数据,BioEmu能以约1 kcal/mol的相对自由能误差准确预测蛋白质的平衡态构象。

    BioEmu

    BioEmu的主要功能

    • 高效生成蛋白质结构:BioEmu能在单个GPU上每小时生成数千种统计独立的蛋白质结构样本,显著提高了蛋白质结构采样的效率。
    • 模拟蛋白质动态变化:模型可以定性地模拟多种功能相关的构象变化,包括隐蔽口袋的形成、特定区域的展开以及大规模结构域重排。
    • 预测蛋白质热力学性质:BioEmu能定量预测蛋白质构象的相对自由能,误差控制在1 kcal/mol以内,与实验测量的蛋白质稳定性高度一致。
    • 提供实验可验证的假设:通过同时模拟结构集合和热力学性质,BioEmu可以揭示蛋白质折叠不稳定的机制,为实验研究提供可验证的假设。
    • 支持个性化医疗:BioEmu可以根据特定基因序列预测蛋白质结构变化,为个性化医疗和疾病治疗提供支持。
    • 降低计算成本:与传统的分子动力学(MD)模拟相比,BioEmu显著降低了计算成本,同时提高了预测精度。

    BioEmu的技术原理

    • 生成式深度学习架构:BioEmu基于生成式深度学习模型,结合AlphaFold的evoformer蛋白质序列表示和扩散模型,从平衡态集合中采样三维结构。能在单个GPU上每小时生成数千个统计独立的蛋白质结构样本。
    • 大规模数据驱动的训练:BioEmu的训练数据包括大量的蛋白质结构信息、超过200毫秒的分子动力学(MD)模拟数据以及实验测量的蛋白质稳定性数据。通过这些数据,模型能学习蛋白质在不同条件下的动态行为和平衡态分布。
    • 定性和定量的模拟能力:从定性角度看,BioEmu能模拟多种功能相关的构象变化,如隐蔽口袋的形成、特定区域的展开以及大规模结构域重排。从定量角度看,BioEmu能以约1 kcal/mol的相对自由能误差准确预测蛋白质构象,与毫秒级MD模拟和实验测量的蛋白质稳定性高度一致。
    • 同时模拟结构和热力学性质:BioEmu能生成蛋白质的结构集合,能模拟其热力学性质,如相对自由能。能揭示蛋白质折叠不稳定的原因,为实验研究提供可验证的假设。
    • 高效采样与计算成本降低:与传统的分子动力学模拟相比,BioEmu显著提高了采样效率,降低了计算成本。成为研究蛋白质动态机制的强大工具。

    BioEmu的项目地址

    BioEmu的应用场景

    • 科学研究:BioEmu可用于研究蛋白质的动态机制,模拟功能相关构象变化(如隐蔽口袋形成、结构域重排等),预测蛋白质稳定性。
    • 药物开发:BioEmu能预测蛋白质的功能性构象变化,帮助快速生成目标蛋白质的多种结构,优化药物结合位点的预测和筛选。可用于个性化医疗方案设计,根据特定基因序列预测蛋白质结构变化,为疾病提供精准治疗策略。
    • 医疗应用:BioEmu可用于研究与蛋白质构象异常相关的疾病机理(如神经退行性疾病),开发新的诊断工具,以及优化治疗策略。能模拟治疗干预对蛋白质结构和功能的影响,为临床决策提供支持。
    • 补充传统方法:BioEmu通过高效采样和数据驱动的训练,显著提高了蛋白质结构模拟的效率和准确性,弥补了传统分子动力学模拟的不足,为生物医学研究提供了强大的计算支持。
  • Helix – Figure 推出的端到端通用控制模型

    Helix是什么

    Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,用于人形机器人的控制。Helix首创性地实现对机器人整个上身(包括手腕、躯干、头部和手指)的高速率(200Hz)连续控制,支持多机器人协作,多个机器人共用同一组神经网络权重完成任务。Helix 基于自然语言指令拿起从未见过的物品,表现出强大的泛化能力。Helix 的训练完全端到端,无需任务特定的微调,在低功耗 GPU 上运行,具备商业部署潜力。

    Helix

    Helix的主要功能

    • 全上身控制:对机器人整个上半身(包括手腕、躯干、头部和手指)进行高速率(200Hz)的连续控制,实现高精度的动作协调。
    • 多机器人协作:支持多个机器人同时运行同一套神经网络权重,实现协作完成任务,例如共同搬运或整理物品。
    • 自然语言理解与执行:机器人基于自然语言指令完成各种任务,例如拿起从未见过的物品、操作抽屉或冰箱等。
    • 强大的泛化能力:处理数千种形状、大小和材质各异的物品。
    • 商业部署能力:完全在低功耗嵌入式 GPU 上运行,适合大规模商业化应用。

    Helix的技术原理

    • 系统2(S2):基于 7B 参数的开源视觉语言模型(VLM),负责场景理解和语言理解。处理频率为 7-9Hz,用于“慢速思考”高级目标,将视觉和语言信息转化为语义表征。将语义信息编码为连续的潜在向量,传递给系统1。
    • 系统1(S1):基于 80M 参数的 Transformer 编码器-解码器架构,用于底层控制。处理频率为 200Hz,快速执行和调整动作。将 S2 传递的潜在向量与视觉特征结合,转化为精确的机器人动作(如手腕姿态、手指控制、头部和躯干方向)。
    • 端到端训练:从原始像素和自然语言指令映射到连续动作输出,使用标准回归损失进行训练。训练过程中引入时间偏移,模拟 S1 和 S2 的推理延迟,确保训练与部署的一致性。
    • 解耦架构:S1 和 S2 分别运行在不同的时间尺度上,S2 负责高级语义规划,S1 负责实时动作执行。既保证系统的泛化能力,又实现了快速响应。
    • 优化推理部署:在机器人上,S1 和 S2 分别运行在独立的 GPU 上,S2 异步更新潜在向量,S1 实时执行动作控制。

    Helix的项目地址

    Helix的技术原理

    • 家庭服务:整理物品、收纳、操作家电等日常家务。
    • 多机器人协作:多个机器人共享一套神经网络,共同完成搬运或组装任务。
    • 物品抓取:基于自然语言指令抓取从未见过的物品,适用于物流和仓储。
    • 工业自动化:用在复杂的人机协作任务,如零部件装配和质量检测。
    • 服务行业:在酒店、餐厅等场所提供引导、递送和清洁服务。
  • FlexTok – Apple 联合 EPFL 推出的图像处理技术

    FlexTok是什么

    FlexTok 是瑞士洛桑联邦理工学院(EPFL)和苹果公司联合开发的图像处理技术。通过将二维图像重新采样为一维离散标记序列(token sequences),以灵活的长度描述图像,实现高效的图像压缩和生成。FlexTok 的核心技术包括动态像素重组,能将图像压缩率提升300%,支持8K视频的实时渲染,显著降低功耗。

    FlexTok

    FlexTok的主要功能

    • 高效图像压缩:通过动态像素重组技术,FlexTok 能根据图像的复杂性灵活调整标记数量,将图像压缩率提升300%,同时支持8K视频的实时渲染。
    • 低功耗与高性能:在处理高分辨率图像时,FlexTok 的功耗降低45%,显著提升了设备的能效。
    • 无损超分辨率重建:FlexTok 首次实现了移动端的无损超分辨率重建,能将低分辨率图像高质量地放大。
    • 灵活的图像生成:通过“视觉词汇表”(visual vocabulary),FlexTok 可以从粗到细地描述图像,支持高保真图像生成和文本条件下的图像生成。

    FlexTok的技术原理

    • 动态像素重组技术:FlexTok 通过动态像素重组,将图像的像素信息重新排列并压缩为离散的标记序列(token sequences)。
    • 多尺度离散化处理:FlexTok 借鉴了多尺度量化自动编码器(VQ-VAE)的思想,将图像从高分辨率逐步分解为低分辨率的离散标记序列。生成过程从粗到细逐步进行,类似于人类视觉的分层次处理。
    • 自回归模型的应用:FlexTok 使用自回归模型(Autoregressive Model)对离散标记序列进行建模。自回归模型通过逐步预测下一个标记的方式生成图像,类似于语言模型生成文本的过程。能捕捉图像的局部结构和细节信息,实现高质量的图像生成。

    FlexTok的项目地址

    FlexTok的应用场景

    • 智能家居设备的图像处理:FlexTok 的高效压缩技术可以用于智能家居设备中的图像传感器,例如智能摄像头或智能门锁。通过优化图像数据的传输和存储,可以在不降低图像质量的情况下,减少存储空间占用和网络带宽消耗。
    • 家庭娱乐系统中的图像优化:在家庭影院或智能电视中,FlexTok 的超分辨率重建能力可以用于提升低分辨率视频的画质,在大屏幕上也能保持清晰的视觉效果。
    • 智能安防监控:对于家庭安防摄像头,FlexTok 的技术可以实现更高效的图像压缩和存储,同时通过超分辨率技术提升监控画面的清晰度,帮助用户更准确地识别画面中的细节。
    • 移动设备中的图像管理:在智能手机或平板电脑中,FlexTok 可以帮助用户更高效地存储和管理大量照片,同时通过无损超分辨率技术提升照片的显示质量。
  • PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型

    PaliGemma 2 mix是什么

    PaliGemma 2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型(VLM)。集成了多种视觉和语言处理能力,支持图像描述、目标检测、图像分割、OCR以及文档理解等任务,能在单一模型中灵活切换不同功能。模型提供三种不同参数规模(3B、10B、28B),满足不同场景的需求,同时支持224px和448px两种分辨率,兼顾性能与资源平衡。PaliGemma 2 Mix基于开源框架(如Hugging Face Transformers、Keras、PyTorch等)开发,易于使用和扩展,开发者可通过简单提示切换任务,无需额外加载模型。

    PaliGemma 2 Mix

    PaliGemma 2 mix的主要功能

    • 图像描述:生成准确且详细的图像描述,支持短文本和长文本描述。
    • 光学字符识别(OCR):识别图像中的文字内容,适用于文档数字化、历史文献存档和自动数据提取。
    • 目标检测与图像分割:能检测并定位图像中的物体,进行精确的语义分割。
    • 视觉问答(VQA):用户可以通过上传图片并提出问题,模型会分析图片并给出答案。
    • 文档理解:理解和分析文档图像内容,支持图表和图解分析。
    • 科学问题解答:能理解和回答复杂的科学问题。
    • 文本相关任务:包括文本检测、表格结构识别、分子结构识别等。

    PaliGemma 2 mix的技术原理

    • 模型架构:PaliGemma 2 Mix 由三个核心组件构成:
      • SigLIP 图像编码器:使用 SigLIP-So400m 作为图像编码器,通过对比预训练的方式将图像转换为一系列 token。编码器支持多种输入分辨率(如 224px²、448px² 和 896px²),分别生成 256、1024 和 4096 个 token。
      • Gemma-2B 语言模型:作为解码器,负责处理文本输入和生成输出。通过 SentencePiece 分词器将文本转换为 token,与图像 token 结合。
      • 线性投影层:将 SigLIP 输出的图像 token 投影到与 Gemma-2B 词汇 token 相同的维度,两者能有效融合。
    • 训练策略:PaliGemma 2 Mix 的训练分为三个阶段:
      • 阶段 1:基础多模态任务训练:将预训练的 SigLIP 和 Gemma-2B 结合,在包含 10 亿样本的多模态任务混合数据集上进行联合训练。目标是提升模型在多种任务中的迁移能力,训练分辨率为 224px²。
      • 阶段 2:逐步提高分辨率的训练:在 448px² 和 896px² 的分辨率下分别训练 5000 万和 1000 万样本。增加了高分辨率任务的权重,延长了输出序列长度,以支持复杂任务(如长文本 OCR)。
      • 阶段 3:微调到具体任务:对阶段 1 或阶段 2 的检查点进行微调,适应特定任务,如视觉问答(VQA)、文档理解、长篇描述生成等。
    • 多模态融合:PaliGemma 2 Mix 通过将图像 token 和文本 token 结合,输入到语言模型中进行自回归生成。图像 token 可以“前瞻”任务提示(前缀),更新表示,适应当前任务。

    PaliGemma 2 mix的项目地址

    PaliGemma 2 mix的应用场景

    • 文档理解:可以理解图表、图解等文档内容,支持复杂的文档分析任务。
    • 科学问题解答:PaliGemma 2 Mix 能理解和回答复杂的科学问题,适用于教育和科研领域。
    • 电商与内容生成:模型可以为商品图片自动生成描述,提升电商平台的产品列表吸引力。
    • 文本相关任务:包括文本检测、表格结构识别、分子结构识别、乐谱识别等,广泛应用于文档处理和科学研究。
  • HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型

    HealthGPT是什么

    HealthGPT 是浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进的医学视觉语言模型(Med-LVLM),通过异构知识适应技术实现医学视觉理解和生成任务的统一框架。采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的“插件”中,避免任务间的冲突。HealthGPT 提供两种版本:HealthGPT-M3(38亿参数)和 HealthGPT-L14(140亿参数),分别基于 Phi-3-mini 和 Phi-4 预训练语言模型。模型引入了分层视觉感知(HVP)和三阶段学习策略(TLS),优化视觉特征的学习和任务适应能力。

    HealthGPT

    HealthGPT的主要功能

    • 医学图像分析与诊断辅助:HealthGPT 能处理多种医学图像(如X光、CT、MRI等),帮助医生解读影像结果,提供诊断建议。
    • 视觉问答:模型可以基于医学图像回答相关问题,例如解释图像中的异常情况或病变位置。
    • 医学文本理解与生成:HealthGPT 能处理和生成医学文本,例如病历总结、诊断报告等,帮助医生快速整理和记录患者信息。
    • 多模态融合:通过将视觉信息与文本信息相结合,HealthGPT 可以更全面地理解复杂的医疗场景,提供更准确的诊断和治疗建议。
    • 个性化治疗方案建议:根据患者的病史和医学图像,HealthGPT 可以生成个性化的治疗方案,辅助医生进行临床决策。

    HealthGPT的技术原理

    • 异构低秩适应(H-LoRA):HealthGPT 引入了异构低秩适应技术,将视觉理解和生成任务的学习过程分离,避免了任务间的冲突。通过引入低秩矩阵来更新权重,H-LoRA 在保持模型表达能力的同时,显著减少了需要训练的参数量。
    • 分层视觉感知(HVP):技术将视觉细节学习从视觉变换器(ViT)中分离,分别处理视觉理解和生成任务对视觉粒度的不同需求。使模型能更高效地处理复杂的医学图像数据。
    • 三阶段学习策略(TLS):HealthGPT 采用三阶段学习策略逐步训练 H-LoRA 插件,模型能快速适应多种下游医疗任务。在数据受限的情况下表现出色,能在多个指标上达到或超过现有最先进模型的性能。

    HealthGPT的项目地址

    HealthGPT的应用场景

    • 医学图像生成:HealthGPT 可以生成高质量的医学图像,例如用于超分辨率任务或图像重建,辅助医疗诊断和研究。
    • 医学教育与研究:HealthGPT 可用于医学教育,帮助学生更好地理解医学图像和诊断过程。为医学研究提供了强大的工具,支持多模态数据的分析和处理。
    • 智能健康助手:HealthGPT 可以作为智能健康助手,帮助用户查询健康数据,提供日常健康管理建议。
  • Muse – 微软研究院推出的生成式AI模型

    Muse是什么

    Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏视觉效果和控制器操作,基于学习人类玩家的游戏数据(如图像和操作指令)模拟真实的游戏玩法序列。核心能力包括生成连贯一致的游戏画面、展现多样化的游戏路径以及将用户修改融入生成内容中。Muse基于WHAM Demonstrator提供交互界面,支持创意探索和迭代。微软已开源Muse的权重和样本数据,推动游戏创意生成的研究和创新,为未来的AI驱动游戏开发提供支持。

    WHAM

    Muse的主要功能

    • 生成连贯的游戏视觉和玩法:根据初始的游戏画面和控制器操作,生成长达数分钟的连贯游戏玩法序列,模拟真实的游戏动态。
    • 支持多样化的游戏路径:在相同的初始提示下,生成多种不同的游戏玩法和视觉效果,展现丰富的行为和视觉多样性。
    • 持久化用户修改:将用户对游戏画面的修改(如添加角色)融入生成的内容中,生成合理的后续玩法。
    • 创意迭代支持:基于WHAM Demonstrator界面,用户能加载初始画面、调整生成内容,并基于控制器操作引导角色,实现创意的快速迭代。

    Muse的技术原理

    • VQ-GAN:用在将游戏视觉(如游戏画面)编码为离散的表示形式。VQ-GAN基于量化的方式将图像转换为离散的标记(tokens),便于模型处理。
    • Transformer架构:作为模型的主干网络,用于预测下一步的标记。Transformer能处理离散的视觉和操作序列,捕捉它们之间的复杂关系。
    • 自回归生成:模型基于给定的初始提示(如初始游戏画面或控制器操作),逐步生成后续的视觉和操作序列。每一步的输出都依赖于前面的上下文,确保生成的序列具有连贯性和一致性。
    • 训练数据:Muse基于《Bleeding Edge》游戏的玩家操作和视觉数据进行训练。数据包括玩家的控制器操作和对应的游戏画面,模型基于学习这些数据生成新的游戏序列。

    Muse的项目地址

    Muse的应用场景

    • 游戏创意探索:快速生成游戏玩法和关卡设计,帮助开发者验证新创意。
    • 自动化游戏测试:生成多样化的测试序列,检测游戏漏洞和优化体验。
    • 内容生成:自动生成新的关卡、地图或角色动作,丰富游戏内容。
    • 玩家行为预测:模拟玩家操作,分析行为模式,优化游戏设计。
    • AI驱动体验:开发动态剧情和AI对手,提升游戏的个性化和沉浸感。