Blog

  • BlueLM-V-3B – ViVo联合香港中文大学推出的算法和系统协同设计方法

    BlueLM-V-3B是什么

    BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署多模态大型语言模型(MLLM)至移动设备。模型以小尺寸(2.7B语言参数和400M视觉参数)、快速度(24.4 token/s生成速度)和强性能(OpenCompass基准测试中得分66.1)为特点,基于优化动态分辨率方案和硬件感知部署,提升模型在手机上的推理效率和性能。

    BlueLM-V-3B

    BlueLM-V-3B的主要功能

    • 多模态理解:处理和整合文本、图像等多种数据形式,提供更丰富的交互和深入的上下文理解。
    • 实时处理:在移动设备上实现实时响应,适用于需要快速反馈的场景,如增强现实或实时翻译。
    • 隐私保护:支持在设备上进行本地处理,减少数据传输,增强用户隐私保护。
    • 高效率部署:优化模型适应移动设备的计算和内存限制,确保在资源受限的硬件上高效运行。
    • 高性能:在参数量相对较小的情况下,实现与更大参数量模型相媲美的性能。
    • 跨语言能力:支持多语言理解,增强模型在不同语言环境下的适用性。

    BlueLM-V-3B的技术原理

    • 算法设计
      • 动态分辨率处理:重新设计动态图像分辨率策略,适应高分辨率图像理解,减少图像令牌数量,降低部署复杂性。
      • 宽松的宽高比匹配方法:引入参数α,选择更合适的宽高比,减少图像放大,优化训练和部署效率。
    • 系统设计
      • 批量图像编码:用NPU的并行处理能力,对图像补丁进行批量处理,加速图像编码过程。
      • 流水线并行处理:在图像编码过程中,设计流水线并行处理,隐藏Conv2D操作的执行延迟。
      • 令牌下采样器:基于合并和融合信息,减少图像令牌数量,适应NPU的处理能力。
      • 分块计算:为处理长输入令牌,采用分块策略,平衡并行处理和NPU性能。
    • 模型量化:用INT8和INT4精度量化模型权重,保持LLM激活的INT16和ViT激活的FP16精度,平衡计算效率和模型准确性。
    • 整体框架:在模型初始化时同时加载ViT和LLM模型,用户上传图像后立即开始处理,同时输入指令,提高响应速度和内存使用效率。

    BlueLM-V-3B的项目地址

    BlueLM-V-3B的应用场景

    • 增强现实(AR):在移动设备上提供实时的增强现实体验,例如手机摄像头识别现实世界中的物体,并提供相关信息。
    • 实时翻译:在跨语言交流中,实时翻译语音或图像中的文字,帮助用户克服语言障碍。
    • 教育辅助:作为学习工具,帮助学生理解复杂的概念,提供图像和文本的互动式学习体验。
    • 视觉问答(VQA):用户基于拍照或上传图片,询问图像内容相关问题,模型提供准确的答案。
    • 图像和文档理解:在办公自动化中,理解和处理图像和文档中的内容,如自动识别发票、合同等文档信息。
  • EyeDiff – 文本到图像扩散模型,自然语言生成多模态眼科图像

    EyeDiff是什么

    EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变特征,并与文本提示高度一致。基于集成生成的图像,EyeDiff显著提升检测少数类别和罕见眼病的准确性,有效解决数据不平衡问题,为眼科领域专家级疾病诊断模型的开发提供新方案。

    EyeDiff

    EyeDiff的主要功能

    • 文本到图像生成:根据自然语言提示生成多模态眼科图像。
    • 诊断能力提升:基于生成的图像提高对常见和罕见眼病的诊断准确性。
    • 数据不平衡解决:在罕见疾病中,基于生成图像解决数据不足和不平衡问题。
    • 数据增强:为深度学习模型提供合成训练数据,增强模型的泛化能力。

    EyeDiff的技术原理

    • 基于Stable Diffusion(SD)模型:基于SD v1-5,一个先进的文本到图像生成模型,在潜在空间中进行去噪处理生成与输入文本高度一致的图像。
    • 多模态数据训练:在包含14种眼科图像模态和80多种眼病的大规模数据集上进行训练,学习图像分布与对应文本描述之间的关系。
    • 文本编码与图像特征融合:用CLIP文本编码器处理文本提示,基于交叉注意力机制将其与图像特征结合,确保生成的图像准确反映文本提示。
    • 潜在扩散模型(LDM):基于潜在扩散模型,模型由时间条件UNets组成,根据噪声图像潜在表示、时间步和文本嵌入输入减少噪声。
    • 图像质量评估:基于VQAScore和人类专家评估生成图像的质量,确保生成的图像与文本提示高度一致。
    • 下游疾病诊断任务:将生成的图像用于增强下游疾病诊断任务,比较不同模型(原始真实图像、过采样图像和EyeDiff生成图像)的性能评估EyeDiff的有效性。

    EyeDiff的项目地址

    EyeDiff的应用场景

    • 自动疾病筛查:辅助自动化筛查系统,基于生成的图像增强模型的诊断能力,提高对常见和罕见眼病的识别率。
    • 数据增强:在眼病数据集不足,尤其是罕见眼病数据稀缺的情况下,生成合成图像,用在数据增强,改善模型训练效果。
    • 跨中心数据共享:生成隐私保护的图像,有助于在保护患者隐私的前提下,促进不同医疗机构之间的数据共享和合作研究。
    • 教育和培训:生成的图像用在医学教育和专业培训,提供给眼科医生和学生更多的案例学习,尤其是在罕见病案例难以获得的情况下。
    • 临床研究:在临床研究中,帮助生成标准化和规范化的图像数据,研究眼病的发病机制、病程进展和治疗效果。
  • KuaiFormer – 快手推出的检索框架,基于Transformer

    KuaiFormer是什么

    KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer驱动的“下一个动作预测”范式,有效进行实时兴趣获取和多兴趣提取,显著提升检索性能。KuaiFormer用多兴趣查询Token、自适应序列压缩机制,实现在亿级候选集上的稳定训练。已在2024 年 5 月集成到快手 App 的短视频推荐系统,为超过4亿日活用户提供服务,显著增加用户日均使用时长。

    KuaiFormer

    KuaiFormer的主要功能

    • 多兴趣提取:引入多个查询Token捕捉用户的多样化兴趣,模型能更好地理解和预测用户的复杂兴趣。
    • 自适应序列压缩:为提高长序列建模的效率,KuaiFormer设计自适应序列压缩机制,基于压缩早期观看的视频序列减少输入序列长度,保留最新的视频信息。
    • 稳定训练技术:KuaiFormer用一种定制的softmax学习目标和LogQ校正方法,稳定地训练模型,在面对亿级候选集时能保持性能。
    • 实时推荐:实时响应用户的请求,从数十亿的选项中快速选出与用户实时兴趣相关的候选项目。

    KuaiFormer的技术原理

    • Transformer架构:基于自注意力机制捕捉用户行为序列中的复杂依赖关系。
    • Next Action Prediction:KuaiFormer将检索过程转变为预测用户的下一个动作,有助于更准确地捕捉用户的实时兴趣。
    • 多兴趣Query Token:受到BERT中[CLS] Token的启发,引入多个可学习的Query Token,结合多兴趣训练策略,从历史项目序列中提取不同的用户兴趣表示。
    • 自适应Item压缩机制:KuaiFormer将早期项目序列分组并压缩,减少输入序列长度,同时对最新项目进行细粒度建模。
    • Smooth In-Batch Softmax Loss:KuaiFormer基于In-Batch Softmax作为学习目标,应用LogQ校正方法纠正采样偏差。

    KuaiFormer的项目地址

    KuaiFormer的应用场景

    • 短视频推荐:快手App的短视频推荐系统,分析用户的历史观看行为和兴趣,为用户推荐可能感兴趣的新视频。
    • 内容发现:在内容发现方面,帮助用户探索和发现新内容,增加内容的多样性和新颖性,提升用户体验。
    • 个性化推荐:捕捉用户的多维兴趣,提供更加个性化的推荐,满足用户的个性化需求。
    • 实时推荐系统:实时响应用户的行为变化,快速更新推荐列表,适用于需要实时推荐更新的场景。
    • 大规模数据处理:在处理数十亿级别的视频库时,KuaiFormer 的高效率和可扩展性成为大规模数据处理的理想选择。
  • XiYan-SQL – 阿里推出文本到SQL的多生成器集成框架

    XiYan-SQL是什么

    XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Schema半结构化架构表示,增强对数据库结构的理解,包括数据类型、主键和示例值。XiYan-SQL基于三阶段流程生成和优化SQL查询,包括架构链接、基于示例学习(ICL)和SFT的生成器,及纠错和选择模型。

    XiYan-SQL

    XiYan-SQL的主要功能

    • 自然语言理解:理解用户的自然语言查询请求,将其转换为SQL查询语句。
    • 数据库结构理解:基于M-Schema架构表示,理解数据库的结构,包括表、字段、数据类型等。
    • SQL查询生成:根据用户的自然语言请求和数据库结构,生成相应的SQL查询语句。
    • 查询优化:对生成的SQL查询进行优化以提高查询效率和准确性。
    • 错误纠正:在生成SQL查询的过程中,识别并纠正潜在的错误。
    • 多数据库适应性:适应不同类型的数据库,包括关系型和非关系型数据库。

    XiYan-SQL的技术原理

    • 多生成器集成策略:XiYan-SQL结合多个生成器,每个生成器负责生成SQL的不同部分,提高生成质量。
    • 提示工程(Prompt Engineering):基于精心设计的提示,引导模型更好地理解用户的查询意图。
    • 监督微调(SFT):在预训练模型的基础上,监督学习对模型进行微调,适应特定的数据库结构和查询需求。
    • M-Schema架构表示:XiYan-SQL引入M-Schema,一种半结构化的数据库架构表示方法,包含数据库的元信息,如表名、字段名、数据类型等,增强模型对数据库结构的理解。
    • 三阶段流程
      • 架构链接:识别和链接数据库架构中的相关元素。
      • 生成器:基于链接的架构信息和用户的查询意图,生成SQL查询候选。
      • 优化和选择:基于纠错模型和选择模型对生成的SQL查询进行优化和筛选,确保生成的查询语句是准确和高效的。

    XiYan-SQL的项目地址

    XiYan-SQL的应用场景

    • 数据库查询简化:非技术用户用自然语言直接查询数据库,无需学习复杂的SQL语法。
    • 数据分析师工具:数据分析师用自然语言描述数据需求,XiYan-SQL自动生成相应的SQL查询,提高工作效率。
    • 智能助手和聊天机器人:集成到智能助手或聊天机器人中,理解用户的查询请求并直接从数据库中检索信息。
    • 教育和培训:在教育领域,帮助学生和新手更容易地理解和学习数据库查询语言。
    • 业务智能(BI)工具:在BI工具中,作为后端处理引擎,将用户的自然语言查询转换为数据库可以理解的查询语句。
  • 跃问视频 – 阶跃星辰推出的AI视频生成工具

    跃问视频是什么

    跃问视频是阶跃星辰推出的AI视频生成工具,支持多种视频创作主题,例如城市、科幻、自然、跑车、美食等。用户可以通过跃问视频官方提供的视频示例获得创意灵感,点击示例自动输入对应的提示词。跃问视频还提供视频描述优化服务,选择视频主题或输入主题后,可一键优化生成视频描述,帮助提升内容质量,支持最长生成10秒视频。目前已开放内测体验。

    跃问视频

    跃问视频生成演示

    演示1:视频展示了一幅水墨风格的画面,背景是连绵的山脉和广阔的天空。在画面的前景中,有一个戴着斗笠的神秘人物剪影,静静地站立着。周围的樱花树枝上,粉色的樱花在微风中轻轻飘落,增添了画面的诗意和动感。整个视频采用静态拍摄,画面清晰,充满了中国古典艺术的韵味。(官方提示词)


    演示2:一个小怪物从一个手机屏幕中跳到了出来,在桌子上跳起了舞(官方提示词)


    演示3:视频中,一只喜鹊在故宫的红墙前的树枝间觅食。背景是被雪覆盖的红墙,增添了画面的静谧美感。喜鹊在树枝间灵活地移动,偶尔停留观察四周。整个场景通过固定镜头拍摄,呈现出一种宁静而写实的风格,细致地捕捉了冬日中的自然景象。(官方提示词)

    如何使用跃问视频

    • 访问官网:访问跃问视频的官方网站,注册登录账号。
    • 输入视频描述:在输入框内输入想要生成的视频内容,没有灵感可以点击视频主题或参考灵感内容,可以点击换一批探索更多。
    • 描述优化:用户可以开启或关闭描述优化功能,开启后,输入主题可自动帮助优化提示内容,能更准确的生成视频。
    • 内测申请:提交提示内容会弹出内测申请界面,可以填写提交内测信息后,等待申请通过。

    跃问视频的应用场景

    • 教育与学习学生和教师可以使用跃问视频来辅助教学,比如通过观看动物视频来学习生物知识,或者通过艺术展览视频来了解艺术史。
    • 创意灵感艺术家、设计师和内容创作者可以通过观看跃问视频获取灵感,比如从自然景观中获取设计灵感,或者从运动视频中获得创意点子。
    • 娱乐与休闲用户可以在休息时间观看跃问视频,享受各种有趣的视频内容,如动物行为、自然风光等,以放松心情。
    • 营销与广告企业可以用跃问视频来优化他们的视频内容,提高搜索引擎排名,吸引更多潜在客户。
  • Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式

    Verifier Engineering是什么

    Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engineering基于自动化验证器执行验证任务并向基础模型提供反馈,分为搜索、验证和反馈三个阶段,优化模型性能。基于闭环反馈机制,强化模型的泛化能力,是实现人工通用智能的重要步骤。

    Verifier Engineering

    Verifier Engineering的主要功能

    • 搜索(Search):根据给定指令,从模型输出分布中采样代表性或潜在问题的样本。
    • 验证(Verify):用各种验证器(如规则检测、评估指标或手动注释)来评估生成的候选响应。
    • 反馈(Feedback):基于验证结果监督式微调或上下文学习等方法增强模型性能。
    • 提升模型性能:基于闭环反馈循环,持续改进模型的准确性和可靠性。

    Verifier Engineering的技术原理

    • 目标条件马尔可夫决策过程(GC-MDP):将验证器工程形式化为GC-MDP,包括状态空间、动作空间、转移函数、目标空间、目标分布和奖励函数。
    • 搜索结构:线性搜索和树搜索,在状态-动作空间中导航,平衡探索和利用。
    • 验证器分类:根据验证形式(二进制、分数、排名、文本反馈)、验证粒度(标记级、思想级、轨迹级)、验证器来源(基于程序、基于模型)和是否需要额外训练分类验证器。
    • 反馈方法
      • 基于训练的反馈:基于数据高效地更新模型参数。
      • 基于推理的反馈:在推理过程中修改输入或策略,不改变模型参数。

    Verifier Engineering的项目地址

    Verifier Engineering的应用场景

    • 自然语言处理(NLP):机器翻译、文本摘要、情感分析、问答系统、对话系统等,基于验证器工程提升模型的语言理解和生成能力。
    • 代码生成与编程辅助:辅助开发人员编写、调试代码,自动生成代码片段,及优化代码质量。
    • 教育和学术研究:构建智能教育助手,提供个性化学习建议,自动评估学生作业和论文。
    • 内容审核与安全:检测和过滤不当内容,如仇恨言论、假信息和违反政策的内容,确保平台内容的安全性。
    • 知识问答和搜索引擎:提高搜索引擎的准确性,提供更相关和准确的信息检索结果。
  • MARS – 字节推出优化大模型训练效率的框架

    MARS是什么

    MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。实验结果表明,MARS在训练GPT-2模型时,相较传统的AdamW优化器,展现出卓越的性能。

    MARS

    MARS的主要功能

    • 提高训练效率:MARS结合预条件梯度方法和方差减少技术,提高大型模型训练的效率,尤其是在训练深度神经网络和大型语言模型时。
    • 统一优化框架:提供适应不同Hessian近似方法的统一框架,包括全矩阵和对角矩阵近似。
    • 算法实例化:在MARS框架下,实现三种具体的优化算法实例:MARS-AdamW、MARS-Lion和MARS-Shampoo,分别基于不同的预条件梯度更新策略。
    • 方差减少:引入缩放随机递归动量技术,有效减少训练过程中的梯度方差,加速模型收敛。

    MARS的技术原理

    • 预条件梯度方法:基于预条件梯度方法调整学习率,让每个参数或参数组有定制的学习率,适应其局部曲率。
    • 方差减少技术:引入方差减少技术,如STORM(Stochastic Recursive Momentum),减少随机梯度的方差,加速优化过程。
    • 缩放随机递归动量:在STORM的基础上引入缩放参数,调整方差减少的强度,定义新的梯度估计器。
    • 梯度裁剪和指数移动平均:为优化训练稳定性,MARS在梯度估计器中应用梯度裁剪,用指数移动平均(EMA)计算递归动量。

    MARS的项目地址

    MARS的应用场景

    • 深度学习模型训练:训练深度神经网络,尤其是参数众多的复杂模型。
    • 大规模语言模型:优化大型语言模型的训练过程,如GPT系列模型,提高训练效率和模型性能。
    • 计算机视觉任务:在图像分类、目标检测等计算机视觉领域中,加速模型的训练和提高模型的泛化能力。
    • 强化学习算法:在强化学习中,优化策略网络或价值函数的参数,尤其是在面对高方差梯度时。
    • 推荐系统模型:在构建推荐系统时,优化模型参数,更好地处理大规模用户和物品特征。
  • Documind – 开源AI文档处理工具,将PDF转换为图像提取结构化数据

    Documind是什么

    Documind是开源的AI文档处理工具,能从PDF文档中提取结构化数据。Documind具备将PDF转换为图像、用OpenAI API进行信息提取,根据用户定义的模式格式化输出结果的功能。Documind支持在本地或云端灵活部署,适用于多种文档格式的数据处理。用户基于定义提取模式指定所需信息,Documind据此从文档中提取相应的数据。

    Documind

    Documind的主要功能

    • PDF到图像的转换:将PDF文件转换为图像,进行更详细的AI处理。
    • 信息提取:用OpenAI的API,识别和提取PDF中的文本信息。
    • 自定义提取模式:用户定义特定的提取模式(schema),指定从文档中提取哪些信息。
    • 结果格式化:根据用户定义的模式,将提取的数据格式化为结构化格式。
    • 灵活部署:支持在本地或云环境中部署,适应不同的使用场景。

    Documind的技术原理

    • 光学字符识别(OCR):用OCR技术将PDF中的图像或扫描文档转换为机器可读的文本。
    • 自然语言处理(NLP):用NLP技术,理解和分析文本内容,识别关键信息。
    • 机器学习:机器学习模型,识别文档中的模式和结构,提高信息提取的准确性。
    • API集成:集成OpenAI等第三方API,用先进的AI技术增强信息提取和处理能力。

    Documind的项目地址

    Documind的应用场景

    • 财务审计:从财务报表、发票、银行对账单等PDF文件中自动提取数据,便于会计和审计工作。
    • 法律文档处理:提取合同、法律文件中的条款和关键信息,支持法律研究和合规性检查。
    • 医疗记录管理:从医疗报告、病例记录等PDF文档中提取患者信息,提高医疗记录的数字化和分析效率。
    • 保险索赔处理:自动从保险索赔文件中提取关键信息,加快索赔处理流程。
    • 客户关系管理(CRM):从客户通信记录、销售合同等文档中提取客户数据,丰富CRM系统。
  • 闪令 – AI互动社交平台,高自由度角色扮演和剧情体验

    闪令是什么

    闪令是互动内容社交平台,为年轻人打造的AI剧情社区。用户进行高自由度的角色扮演和剧情体验,选择古风、同人、穿越等多种剧情故事。闪令提供有声互动和情感直达的体验,拥有43种音色和300万种组合方式,支持语音输入,让沟通更真实。闪令为小剧场打造多样的AI模型,适配各种剧情下的互动场景,提供无限的结局和故事线,让用户沉浸在完整的故事世界中。

    shanling

    闪令的主要功能

    • 高自由度角色扮演:用户根据自己的喜好选择不同的角色和剧情,进行角色扮演。
    • 多样剧情体验:提供古风、同人、穿越、奇幻、耽美、百合、重生等多种剧情故事,满足不同用户的喜好。
    • 有声互动:拥有43种独有音色和300万种组合方式,支持语音输入功能。
    • AI模型互动:为小剧场打造的AI模型,适配各种剧情下的互动场景。
    • 无限结局和故事线:完整的故事线赋予AI小剧场完整的世界观,角色设定和行为逻辑。

    如何使用闪令

    • 下载和安装:访问闪令官方网站,根据设备系统选择下载和安装。
    • 注册和登录:打开应用后,进行用户注册或登录。
    • 选择剧情:登录后,浏览不同的剧情分类,选择感兴趣的剧情或角色。
    • 角色创建:在剧情中,用户需要创建自己的角色,包括选择角色的外观、性格等特征。
    • 剧情互动:进入剧情后,点击和选择不同的对话选项,与虚拟角色进行互动,推动剧情发展。
    • 语音交流:用语音输入功能,与虚拟角色进行更真实的对话交流。

    闪令的产品定价

    • 1日畅玩令牌:$30.00
    • 7日畅玩令牌:$60.00
    • 30日畅玩令牌:$220.00

    闪令的应用场景

    • 故事体验:用户进入各种风格的故事世界,如古风、奇幻、现代等,体验不同的剧情和角色。
    • 角色扮演游戏:用户选择或创建角色,与故事中的其他角色进行互动,推动剧情发展。
    • 情感交流:基于有声互动功能,用户与虚拟角色进行情感交流,体验更真实的对话和情感反馈。
    • 创意写作:用户创作自己的故事,与其他用户分享,或者邀请他们参与自己的故事。
    • 社交互动:用户在闪令社区中与其他用户交流,分享故事体验,讨论剧情发展,甚至合作创作。
  • Copilot Actions – 微软推出 AI 自动执行重复性任务的功能

    Copilot Actions是什么

    Copilot Actions 是微软在 Ignite 大会上推出的 Microsoft 365 Copilot一项新功能,支持用户用简单的提示自动完成日常的重复性任务,如总结 Teams 会议、生成周报等。用户只需一次性设置,AI 能根据预设的模板和规则自动执行任务,提高工作效率,让用户专注于更有价值的工作。Copilot Actions功能目前处于私人预览阶段。

    Copilot Actions

    Copilot Actions 的主要功能

    • 自动化日常任务:用户基于简单的提示自动完成重复性的日常任务,例如总结 Microsoft Teams 会议、编制周报或假期归来时接收错过的会议、聊天和邮件的总结邮件。
    • 一次性设置:用户设置一次,之后 AI 将根据预设的模板和规则自动执行任务,类似于一个强大的 AI 宏。
    • 提升生产力:基于自动化任务,用户专注于更有影响力和价值的工作,节省时间并提高整体生产力。

    Copilot Actions 的官网地址

    Copilot Actions 的应用场景

    • 会议管理:自动生成会议纪要,包括讨论要点、行动项和责任分配,及帮助安排会议,包括提醒和日程协调。
    • 报告编制:自动汇总每周或每月的关键数据和进度,生成报告,及跟踪项目进度,自动更新状态报告。
    • 邮件管理:自动分类和优先级排序收到的邮件,及自动回复或草拟常见询问的邮件模板。
    • 数据汇总与分析:从不同来源汇总数据,生成分析报告,及定期更新业务仪表板,反映最新数据。
    • 人力资源管理:自动化新员工的入职流程,包括分配必要的软件和资源,及快速回答员工关于公司政策的常见问题。