Category: AI项目和框架

  • Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM

    Promptic是什么

    Promptic是轻量级的LLM应用开发框架,提供高效且符合Python风格的开发方式。基于LiteLLM,Promptic支持开发者能轻松切换不同的LLM服务提供商,只需更改一行代码。Promptic支持流式响应、内置对话记忆、错误处理和重试,及可扩展的状态管理。帮助开发者专注于构建功能,而不是底层的复杂性。Promptic的灵活性和易用性让其成为LLM开发领域的有力助手。

    Promptic

    Promptic的主要功能

    • 类型安全的输出:用Pydantic模型确保LLM返回的数据结构符合预期,提高代码的健壮性。
    • 代理构建:创建能被LLM调用的工具函数,实现复杂的任务分解。
    • 流式支持:支持实时响应生成,适用于长内容或交互式应用场景。
    • 内置对话记忆:支持LLM在多次交互中保持上下文,增强用户体验。
    • 错误处理和重试:提供错误处理机制和自动重试功能,增强应用的稳定性和可靠性。

    Promptic的技术原理

    • LiteLLM集成:基于LiteLLM构建,LiteLLM是轻量级的LLM客户端库,抽象不同LLM提供商的API。
    • 装饰器模式:用Python装饰器扩展函数功能,如@llm@llm.tool,无需修改函数内部代码增加新的行为。
    • 动态提示生成:将函数的文档字符串与实际参数动态组合生成提示(prompt),发送给LLM进行处理。
    • 响应验证:基于Pydantic模型对LLM的响应进行验证,确保数据的正确性和完整性。
    • 状态管理:基于State类实现对话状态的管理,支持对话记忆功能,让开发者自定义存储解决方案。

    Promptic的项目地址

    Promptic的应用场景

    • 聊天机器人:构建智能聊天机器人,与用户进行自然语言对话,提供客户服务或信息查询。
    • 内容生成:自动生成文章、故事、诗歌或其他创意写作内容。
    • 语言翻译:实现实时语言翻译服务,帮助用户跨越语言障碍。
    • 情感分析:分析客户反馈、评论或社交媒体帖子的情感倾向,改善客户服务和产品开发。
    • 数据摘要:为长篇文章或报告生成简短摘要,节省用户阅读时间。
  • 千影 QianYing – 巨人网络推出的有声游戏生成大模型

    千影 QianYing是什么

    千影 QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨人网络AI Lab与清华大学SATLab联合推出的,能实现角色多样动作交互控制和物理仿真特性,与YingSound结合可生成匹配画面的复杂音效。YingSound是巨人网络AI Lab、西北工业大学ASLP Lab和浙江大学联合推出的,能为无声视频添加逼真音效,具备视频语义理解和时间对齐能力。千影 QianYing旨在通过AI技术降低游戏开发门槛,推动游戏创作平权,加速“游戏+AI”创新。

    qianying

    千影 QianYing的主要功能

    • YingGame的主要功能
      • 角色动作交互控制:YingGame能实现角色多样动作的交互控制,用户能自定义游戏角色的动作和外观。
      • 物理仿真特性:模型具备强大的物理模拟特性,能模拟真实世界的物理效果,增强游戏的真实感。
      • 视频生成:结合自研的视频配音大模型YingSound,YingGame能根据游戏画面生成匹配的复杂音效,实现有声游戏视频的生成。
      • 交互能力:YingGame能理解用户的输入交互,如鼠标、键盘操作,控制角色进行多种动作。
    • YingSound的主要功能
      • 时间对齐与视频语义理解:YingSound具备超强的时间对齐能力和视频语义理解能力,能精确地为视频添加音效。
      • 高精细度音效生成:模型能为各类视频,包括真实场景、动漫和游戏视频,生成多种类型的高精细度音效。
      • 多样化应用场景:YingSound支持从视频或视频文本结合的方式生成高保真音效,具备多样化应用场景的泛化能力。
      • 跨模态对齐效果:基于创新的技术架构和强化学习,YingSound在生成效果、时间对齐及视频语义理解等方面达到业界领先水平。

    千影 QianYing的技术原理

    • YingGame的技术原理
      • 物理仿真特性:集成物理引擎模拟现实世界的物理规则,如重力、碰撞等,增强游戏的真实感和沉浸感。
      • 跨模态学习:基于跨模态学习技术,将视觉信息与音效信息结合起来,生成与游戏画面匹配的音效。
    • YingSound的技术原理
      • 音频-视频同步技术:基于精确的时间对齐技术,确保生成的音效与视频内容同步,涉及到复杂的时间序列分析。
      • 深度神经网络:用深度神经网络来生成高精细度的音效,神经网络能学习从视频内容中提取的关键特征,转化为相应的音效。

    千影 QianYing的项目地址

    千影 QianYing的应用场景

    • 开放世界游戏开发:在开放世界游戏中,创建具有复杂动作和物理交互的角色,提供更加真实和沉浸式的游戏体验。
    • 游戏视频内容创作:游戏开发者生成高质量的游戏预告片、剧情动画和其他视频内容,提升游戏的市场吸引力。
    • 游戏教育和培训:在教育领域,创建模拟环境和情景,用在技能训练或安全教育,提高学习效率和效果。
    • 游戏直播和电子竞技:为游戏直播添加特效和音效,提升直播的观赏性和互动性,同时为电子竞技赛事提供更加生动的观看体验。
    • 游戏测试和原型设计:快速生成游戏原型,加速游戏设计和测试过程,减少开发时间和成本
  • Maya – 开源多语言多模态模型,能处理和理解八种不同语言

    Maya是什么

    Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言理解。Maya基于毒性分析和数据集过滤,确保训练数据的安全性和质量,支持包括中文、法语、西班牙语、俄语、印地语、日语和阿拉伯语在内的多种语言,致力于提升低资源语言的AI内容生成质量。

    Maya

    Maya的主要功能

    • 多语言支持:Maya能处理和理解八种不同的语言,包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语,增强对低资源语言的支持。
    • 多模态能力:结合图像和文本数据,让机器基于过自然语言理解视觉世界,执行图像描述、视觉问题回答等任务。
    • 指令微调:基于指令微调,更好地理解和响应自然语言指令,提升在实际应用中的性能和适应性。
    • 数据集创建与毒性过滤:创建多语言图像-文本预训练数据集,进行毒性分析和过滤,确保数据的安全性和质量。
    • 跨文化理解:基于多语言和多模态数据,更好地理解和处理不同文化背景下的视觉和语言信息。

    Maya的技术原理

    • 模型架构:基于LLaVA 1.5架构,用Aya-23 8B模型作为多语言语言模型(LLM)和SigLIP作为视觉编码器,支持多语言和多模态输入。
    • 预训练数据集:创建包含558,000张图像的多语言图像-文本预训练数据集,涵盖八种语言,支持多语言视觉语言模型的开发。
    • 毒性分析:用LLaVAGuard 7B和Toxic-BERT对数据集中的图像和文本进行毒性分析,识别和过滤掉不安全或有害的内容。
    • 预训练与微调
      • 预训练:用投影矩阵W将图像特征转换为语言特征,基于多轮对话数据进行预训练,优化图像和文本的对齐。
      • 微调:在PALO 150K指令微调数据集上进行微调,进一步提升模型对指令的理解和响应能力。
    • 跨模态对齐:基于投影矩阵和训练策略,优化图像特征和语言特征之间的对齐,提高模型在视觉-语言任务中的表现。

    Maya的项目地址

    Maya的应用场景

    • 跨语言内容理解:帮助用户理解不同语言的图像内容,例如在多语言环境中识别和解释路标、广告、菜单等。
    • 图像和视频分析:在安全监控、内容审核等领域,分析图像和视频,识别和过滤不当内容。
    • 教育和学习:为非母语学习者提供多语言学习材料的图像和文本分析,增强语言学习体验。
    • 旅游和导航:帮助游客在不同国家识别和翻译街道标志、地图和文化地标等。
    • 电子商务:在多语言电商平台上,帮助用户理解产品描述和图像,提升购物体验。
  • DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板

    DiffSensei是什么

    DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM),实现对漫画中多角色外观和互动的精确控制。框架用掩码交叉注意力机制和MLLM适配器,根据文本提示动态调整角色特征,包括表情、姿势和动作,生成具有连贯性和视觉吸引力的漫画面板。DiffSensei引入MangaZero数据集,支持多角色、多状态的漫画生成任务。

    DiffSensei

    DiffSensei的主要功能

    • 定制化漫画生成:根据用户提供的角色图像和文本提示生成漫画,支持用户对角色的外观、表情、动作进行定制。
    • 多角色控制:框架支持多角色场景的漫画生成,处理角色间的互动和布局。
    • 文本兼容的身份适配:基于MLLM,根据文本提示动态调整角色特征,让角色的表现与文本描述相匹配。
    • 精确布局控制:用掩码交叉注意力机制,精确控制角色和对话的布局,无需直接像素传输。
    • 数据集支持:引入MangaZero数据集,一个大规模的、为多角色、多状态漫画生成任务设计的标注数据集。

    DiffSensei的技术原理

    • 整合MLLM和扩散模型:结合MLLM作为文本兼容的身份适配器和基于扩散的图像生成器,生成定制化的漫画面板。
    • 掩码交叉注意力(Masked Cross-Attention):复制关键和值矩阵,在每个交叉注意力层中创建独立的角色交叉注意力层,实现角色布局的精确控制。
    • 对话布局编码(Dialog Layout Encoding):引入可训练的嵌入层表示对话布局,将对话嵌入与噪声潜在表示相结合,实现对话位置的编码。
    • MLLM作为特征适配器:MLLM接收源角色特征和面板标题作为输入,生成与文本兼容的目标角色特征,动态调整角色状态。
    • 多角色特征提取:用CLIP和图像编码器提取局部图像特征和图像级特征,基于特征提取器处理,避免直接从参考图像编码细粒度空间特征。
    • 扩散损失和语言模型损失:在训练MLLM时,计算语言模型损失(LM Loss)约束输出格式,均方误差损失(MSE Loss)指导基于面板标题的目标角色特征,计算扩散损失确保编辑后的特征与图像生成器保持一致。

    DiffSensei的项目地址

    DiffSensei的应用场景

    • 漫画创作:艺术家和漫画家生成漫画页面,快速实现从脚本到视觉叙事的转换,提高创作效率。
    • 个性化内容生成:用户根据自己的故事想法,上传角色图片,生成个性化的漫画内容,用在个人娱乐或社交媒体分享。
    • 教育和培训:在教育领域,创建与教学内容相匹配的视觉故事,帮助学生更好地理解和记忆复杂的概念。
    • 电影和游戏预制:在电影制作和游戏设计中,作为预制工具,快速生成故事板或概念艺术,便于前期创意和视觉开发。
    • 广告和营销:营销人员创建吸引人的漫画广告,用新颖的方式吸引目标受众。
  • STIV – 苹果公司推出的视频生成大模型

    STIV是什么

    STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。STIV模型基于PixArt-Alpha架构,融合时空注意力机制、旋转位置编码(RoPE)和流匹配训练目标,增强视频生成的稳定性和效率。STIV支持多种下游应用,如视频预测、帧插值和长视频生成等。

    STIV

    STIV的主要功能

    • 文本到视频(T2V)和文本图像到视频(TI2V)生成:STIV能根据文本提示或结合文本和初始图像帧生成视频内容。
    • 多模态条件支持:模型支持基于文本和图像的条件进行视频生成,增强视频内容与输入条件的一致性。
    • 视频预测:模型对视频未来帧进行预测,适用于自动驾驶和嵌入式AI等领域。
    • 帧插值:在给定的帧之间生成中间帧,提高视频的流畅度和连续性。
    • 多视角生成:从单一视角生成视频的新视角,增强视频的立体感和真实感。
    • 长视频生成:基于关键帧预测和帧插值技术,生成更长时长的视频内容。

    STIV的技术原理

    • Diffusion Transformer(DiT):基于DiT架构,能有效处理时空数据。
    • 帧替换:在训练过程中,将噪声帧替换为无噪声的图像条件帧,增强视频生成的准确性和一致性。
    • 联合图像-文本分类器自由引导(JIT-CFG):一种无分类器引导技术,调整文本和图像条件的权重,优化视频生成过程。
    • 时空注意力机制:基于分解的时空注意力机制,分别处理空间和时间维度的特征,提高模型的效率和效果。
    • 旋转位置编码(RoPE):RoPE增强模型处理相对时空关系的能力,更好地适应不同分辨率的生成任务。
    • 流匹配训练目标:用流匹配目标替代传统的扩散损失,实现更优的条件最优传输策略,提升生成质量。

    STIV的项目地址

    STIV的应用场景

    • 娱乐与社交媒体:用户生成个性化的视频内容,如舞蹈、旅行或日常生活的短视频,在抖音、Instagram等社交平台上分享。
    • 广告与营销:企业创建动态的广告视频,根据产品特点或服务优势快速生成吸引人的视频内容,提高广告的吸引力和转化率。
    • 教育与培训:教育机构生成教育视频,如模拟实验过程或历史事件,为学生提供更加直观和互动的学习体验。
    • 新闻与报道:新闻机构将新闻报道转化为视频内容,快速生成新闻故事的可视化呈现,提高新闻的传播效率和观众的理解度。
    • 自动驾驶与仿真:自动驾驶技术公司生成各种交通场景的视频,测试和训练自动驾驶系统的决策和反应能力。
  • SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

    SynCamMaster是什么

    SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。基于插件式模块和多视图同步模块,实现视点间的动态同步,保持4D一致性。SynCamMaster能扩展到新视角视频合成,重新渲染输入视频从新视角观看。

    SynCamMaster

    SynCamMaster的主要功能

    • 多视角视频生成:SynCamMaster能从同一动态场景的不同视角生成多个视频。
    • 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
    • 开放世界视频生成:SynCamMaster支持从任意视角生成开放世界的视频。
    • 6自由度相机姿势:结合6自由度(6 DoF)相机姿势,用户能从任意视角捕捉场景。
    • 预训练模型增强:用即插即用的模块增强预训练的文本到视频模型,用在多相机视频生成。
    • 新视角视频合成:SynCamMaster能扩展到新视角视频合成,引入参考视频到多相机视频生成模型中,实现从新视角重新渲染输入视频。

    SynCamMaster的技术原理

    • 预训练的文本到视频模型:基于预训练的文本到视频的扩散模型,根据文本描述生成一致的3D视频内容。
    • 多视图同步模块:引入多视图同步模块,模块被集成到每个Transformer块中,用在维护不同视角间的外观和几何一致性。
    • 相机编码器:用相机编码器将相机的外部参数(如旋转矩阵和平移向量)编码到与空间特征相同维度的嵌入空间中。
    • 交叉视角自注意力:在多视图同步模块中,用交叉视角自注意力层聚合来自不同视角的特征,实现视图间的信息交流和同步。
    • 混合训练数据集:设计种混合训练方案,结合多相机图像、单目视频和虚幻引擎渲染的多相机视频。
    • 渐进式训练策略:推出渐进式训练策略,逐渐增加训练中不同视角之间的相对角度差异,提高模型在处理大视角差异时的性能。

    SynCamMaste的项目地址

    SynCamMaster的应用场景

    • 虚拟拍摄:在电影和视频制作中,从多个角度生成视频,帮助导演和制作团队预览场景,实现复杂的镜头组合。
    • 游戏开发:游戏开发者创建动态的游戏预告片或演示视频,展示游戏环境和角色从不同视角的互动。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成与用户视角变化一致的动态内容,提升沉浸式体验。
    • 模拟训练:对于需要多角度观察的场景,如驾驶模拟、手术模拟等,提供从不同视角的实时视频,增强训练效果。
    • 监控系统:在安全监控领域,整合多个摄像头的视频流,生成统一视角的视频,便于监控人员更好地理解事件发展。
  • FLOAT – 基于流匹配的音频驱动说话人头像生成模型

    FLOAT是什么

    FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transformer架构的向量场预测器,实现帧间时间一致性,支持语音驱动的情感增强,让生成的说话动作更自然、富有表现力。FLOAT在视觉质量、运动保真度和生成效率方面均超越现有的基于扩散和非扩散的方法,达到业界领先水平。

    FLOAT

    FLOAT的主要功能

    • 音频驱动的说话人像生成:根据单一源图像和驱动音频生成说话人像视频,实现音频同步的头部动作,包括言语和非言语动作。
    • 时间一致性视频生成:在运动潜在空间内建模,FLOAT生成的视频在时间上具有高度一致性,解决传统基于扩散模型的视频生成中的时间连贯性问题。
    • 情感增强:用语音驱动的情感标签,增强视频中的情感表达,让生成的说话动作更加自然和富有表现力。
    • 高效采样:基于流匹配技术,提高视频生成的采样速度和效率。

    FLOAT的技术原理

    • 运动潜在空间:将生成建模从像素潜在空间转移到学习的运动潜在空间,更有效地捕捉和生成时间上连贯的运动。
    • 流匹配:基于流匹配在运动潜在空间中高效地采样,生成时间一致的运动序列。
    • 基于Transformer的向量场预测器:基于Transformer的架构预测生成流的向量场,预测器能处理帧条件并生成时间一致的运动。
    • 帧条件机制:基于简单的帧条件机制,将驱动音频和其他条件(如情感标签)整合到生成过程中,实现对运动潜在空间的有效控制。
    • 情感控制:用预训练的语音情感预测器生成情感标签,将标签作为条件输入到向量场预测器中,在生成过程中引入情感控制。
    • 快速采样与高效生成:基于流匹配技术减少生成过程中的迭代次数,实现快速采样,保持生成视频的高质量。

    FLOAT的项目地址

    FLOAT的应用场景

    • 虚拟主播和虚拟助手:在新闻播报、天气预报、在线教育等领域,生成逼真的虚拟主播,提供24小时不间断的节目制作。
    • 视频会议和远程通信:在视频会议中,创建用户的虚拟形象,即使在没有摄像头的情况下也能进行视频交流。
    • 社交媒体和娱乐:在社交媒体平台上,用户生成自己的虚拟形象,用在直播、互动娱乐或虚拟社交。
    • 游戏和虚拟现实:在游戏和虚拟现实应用中,于创建或自定义游戏角色的面部表情和动作,提升沉浸感。
    • 电影和动画制作:在电影后期制作中,生成或增强角色的面部表情和口型,减少传统动作捕捉的需求。
  • TEN Agent – 开源的实时多模态 AI 代理框架

    TEN Agent是什么

    TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,具备天气查询、网络搜索、视觉识别、RAG能力,支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agent支持多语言和跨平台操作,支持开发者基于模块化设计轻松扩展功能,如集成视觉识别和RAG能力。TEN Agent提供实时代理状态管理,让AI代理动态响应用户交互,适用于智能客服、实时语音助手等多种场景。

    TEN Agent

    TEN Agent的主要功能

    • 多模态交互:TEN Agent支持语音、文本和图像的多模态交互,让AI代理用更自然的方式与用户沟通。
    • 实时通信:内置RTC(实时通信)能力,支持TEN Agent进行实时的语音和视频交互,无需额外配置。
    • 模块化设计:TEN Agent用模块化设计,让开发者能像插件一样轻松添加新功能。
    • 调试简便:提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
    • 技术集成:集成OpenAI的实时API,增强AI代理的能力。
    • 多语言和多平台支持:TEN Agent支持多种编程语言(如C++、Go、Python)和多个操作系统平台(包括Windows、Mac、Linux和移动设备)。
    • 边缘云集成:支持边缘计算和云计算的集成,平衡隐私、成本和性能。

    TEN Agent的技术原理

    • OpenAI Realtime API和RTC集成:TEN Agent将OpenAI的实时API与RTC技术结合,实现超低延迟的交互体验。
    • AI噪音抑制:RTC模块具备AI噪音抑制功能,确保音频交互的流畅和高质量。
    • 语音识别(STT):将用户的语音转换为文本,便于AI代理处理。
    • 语言模型(LLM):处理转换后的文本,理解用户的意图,生成响应。
    • 语音合成(TTS):将AI代理的文本响应转换为语音,基于RTC模块播放给用户听。

    TEN Agent的项目地址

    TEN Agent的应用场景

    • 智能客服:作为智能客服系统,提供24*7的自动化客户支持,处理常见问题和请求。
    • 实时语音助手:集成到智能手机或其他设备中,作为语音助手,帮助用户执行任务,如设置提醒、搜索信息等。
    • 教育辅助:在教育领域,作为虚拟助教,提供语言学习支持,或者辅助教学过程。
    • 智能家居控制:作为智能家居系统的中枢,用语音控制家中的智能设备,如灯光、温度控制等。
    • 健康咨询:在医疗保健领域,提供基本的健康咨询服务,如症状检查和预约安排。
  • Project Mariner – 谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物

    Project Mariner是什么

    Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术,用 Chrome 扩展程序实现浏览器自动化,理解和执行网页任务。Project Mariner能理解和推理浏览器屏幕上的信息,包括像素和网页元素,基于 Chrome 扩展程序使用这些信息完成任务。Project Mariner 能控制 Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格,像人类一样使用和浏览网站。Project Mariner在 WebVoyager 基准测试中达到 83.5% 的高分成绩。目前,Project Mariner 只能在浏览器的活动选项卡中执行键入、滚动和点击操作,在执行某些敏感操作(如购买物品)之前,会要求用户进行最终确认。

    Project Mariner

    Project Mariner的主要功能

    • 多模态理解:理解浏览器屏幕上的所有内容,包括像素、文本、代码、图像和表单等数据。
    • 浏览器交互:实时导航和操作复杂的网站,自动执行浏览器中的任务,保持用户的控制权。
    • 自动化任务:自动与浏览器进行交互操作,将数据整理、填充到网页其他区域,同时将数据按照用户的要求整理好。
    • 复杂指令处理:理解、执行复杂的用户指令,分解为可执行的步骤。
    • 关系理解:理解不同网页元素之间的关系及其功能。
    • 视觉反馈:在执行任务时提供视觉反馈和更新,让用户了解进度。
    • 安全性:在执行敏感操作(如购物和付款)之前,会要求用户进行最终确认,确保安全性。

    如何使用Project Mariner

    Project Mariner目前处于早期测试阶段,仅对少数测试者开放,访问Project Mariner的官方网站,加入等候名单。

    Project Mariner的应用场景

    • 数据整理与复制:将网页上的数据复制到电子表格中进行整理,例如从存储大量数据的网页提取信息,整理到Excel等表格软件中。
    • 在线购物:根据用户给出的购物清单,自动在电子商务网站上搜索商品添加到购物车。
    • 旅行规划:帮助用户查找航班和酒店信息,自动化旅行规划过程中的网页浏览和信息比较。
    • 日常购物:为用户在零售网站上购物,如搜索、购买家庭用品。
    • 食谱查找:在食谱网站上根据用户需求自动搜索和选择食谱。
  • Ultravox – 端到端多模态大模型,直接理解文本和人类语音

    Ultravox是什么

    Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。Ultravox在Llama 3、Mistral和Gemma等模型上训练,具备快速处理音频输入的能力,Ultravox 0.4版本首次令牌生成时间约为150毫秒,每秒处理约60个令牌。未来计划,Ultravox能直接生成语音流,进一步增强与人类的自然交流。

    Ultravox

    Ultravox的主要功能

    • 实时语音理解:Ultravox能直接处理语音,转换为模型可理解的嵌入,实现与 AI 的实时对话。
    • 多模态交互:支持语音和文本的整合,提供更自然的交流体验。
    • 低成本部署:提供相对低成本的实时对话服务。
    • 自定义和扩展性:基于开放的模型架构,用户根据需求进行模型的定制和扩展。
    • 高维空间转换:基于多模态投影器,将音频直接转换为LLM使用的高维空间表示,提高语音理解的效率和准确性。
    • 支持新语言和领域知识:用户用自己的音频数据进行训练,添加新的语言或领域知识,增强模型的多语言和领域适应性。

    Ultravox的技术原理

    • 多模态大型语言模型(LLM):构建在大型语言模型的基础上,处理和理解自然语言文本。
    • 多模态投影器: 多模态投影器能够将音频数据转换为LLM可以理解的高维空间表示。
    • 无需单独的ASR阶段:直接消费音频嵌入,实现更自然、更流畅的对话。
    • 实时处理能力: Ultravox的设计具有非常短的时间到第一令牌(TTFT)和高tokens处理速率。
    • 直接语音到文本转换: Ultravox接收音频输入、输出流式文本。

    Ultravox的项目地址

    Ultravox的应用场景

    • 智能客服和支持:作为自动化客服系统,提供即时的客户支持和问题解答。
    • 虚拟助手:在智能家居和车载系统中,用语音控制设备和获取信息。
    • 语言学习:辅助语言学习者练习发音、语法和对话,提供实时反馈。
    • 实时翻译:在国际会议或多语言环境中,提供实时语音翻译服务。
    • 教育和培训:创建互动式教学内容,提供个性化学习体验。