Category: AI项目和框架

  • llmware – 专为企业级应用设计的开源统一框架

    llmware是什么

    llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Retrieval-Augmented Generation)流程。llmware支持私有部署,能安全集成企业知识源,针对业务流程进行成本效益的调整和优化。框架包含模型目录、库管理、查询功能及RAG优化模型等关键特性,能简化知识型LLM应用的开发。

    llmware

    llmware的主要功能

    • RAG流水线:提供连接知识源到生成式AI模型的全生命周期集成组件。
    • 小型专业化模型:包含50多个针对企业流程自动化中的关键任务进行微调的模型,如基于事实的问答、分类、摘要和信息抽取等。
    • 模型目录(Model Catalog):提供统一的模型访问方式,支持150多个模型,包括50多个针对RAG优化的BLING、DRAGON和行业BERT模型。
    • 库(Library):用在大规模摄入、组织和索引知识集合,支持解析、文本分块和嵌入。
    • 查询(Query):支持对库进行文本、语义、混合、元数据和自定义过滤的多种查询方式。
    • 带源提示(Prompt with Sources):结合知识检索和LLM推理的最简单方式。

    llmware的技术原理

    • 模型集成:基于模型目录集成多种模型,提供统一的访问接口,让开发者轻松切换和使用不同的模型。
    • 知识管理:用库(Library)组件大规模地摄入、组织和索引知识集合,为后续的检索和生成任务提供支持。
    • 灵活的查询机制:结合文本、语义、混合查询等多种方式,提供灵活的查询机制适应不同的检索需求。
    • 提示与上下文结合:用带源提示(Prompt with Sources)的方式,将知识检索与LLM推理结合,提高生成任务的准确性和相关性。
    • RAG工作流优化:专门设计的RAG优化模型,能有效地执行检索增强的生成任务,提升企业自动化流程的效率。

    llmware的项目地址

    llmware的应用场景

    • 知识管理:企业高效地管理和利用内部知识库。
    • 自动化流程:用微调的小型模型,企业自动化处理问答、分类、摘要等任务。
    • 数据分析:通过集成多种模型,企业进行更深入的数据分析和洞察。
    • 金融、法律和监管密集型行业:LLMWare适用于需要处理复杂数据和文档的金融、法律和监管行业,帮助提高生产力。
    • 企业环境中的AI应用开发:适合企业环境中开发AI应用程序,尤其是需要私有部署和与现有企业知识源集成的场合。
  • CogView-4 – 智谱AI推出的文本到图像生成模型

    CogView-4是什么

    CogView-4是智谱AI推出的文本到图像生成模型,基于 Transformer 架构的扩散模型,用于生成高质量图像。通过优化参数规模和使用高质量图像微调数据集,能生成更符合指令且更具美感的图像,效果接近顶级模型(如 MidJourney-V6 和 Flux)。CogView-4模型在图像生成方面表现出色,能更准确地理解并执行指令,同时生成更具美感的图像,为用户提供更丰富、更符合预期的视觉体验。

    CogView-4

    CogView-4的主要功能

    • AI图像生成:能更好地理解复杂的文本描述,包括多场景、多元素的组合。
    • 中英文字生成能力增强:支持图片生成带有中文和英文输出,输出结果的能力显著提升。
    • 高质量的图像:CogView-4 能根据文本提示生成高质量的图像。支持的图像尺寸包括1024×1024、768×1344、864×1152、1344×768、1152×864、1440×720以及720×1440,默认的图像尺寸为1024×1024。

    CogView-4的项目地址

    CogView-4的实测案例

    • 提示词:Amigurumi风格的编织物质感定格动画的一幕,皮克斯风格的中国小朋友在厨房里擀面包饺子。

    CogView-4

    • 提示词:一幅精致的手绘地图,风格复古,线条细腻,色彩柔和。地图中央有一个醒目的导向牌,导向牌上清晰地写着“五道口”三个黑体字样,字体工整且略带立体感。

    CogView-4

    CogView-4的应用场景

    • 电商与广告:生成高质量的产品图片、广告海报等,帮助商家快速创建吸引人的视觉内容。
    • 个性化定制:根据用户需求生成定制化的图像内容,提升用户体验。
    • 教育资源生成:为教育领域生成教学插图、科学插图等,帮助学生更好地理解和吸收知识。
    • 儿童绘本创作:生成适合儿童绘本的插图,激发儿童的想象力。
  • CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型

    CogVideoX-2是什么

    CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资源使用,同时确保视频帧之间的连贯流畅。 通过独特的 3D 旋转位置编码技术,视频在时间轴上能够自然流动,赋予画面生命力。模型结构、训练方法、数据工程全面更新,图生视频基础模型能力大幅度提升38%。生成更可控,支持画面主体进行大幅度运动,同时保持画面稳定性。指令遵从能力行业领先,能够理解和实现各种复杂prompt。能驾驭各种艺术风格,画面美感大幅提升支持 FP16、BF16、FP32、FP8 和 INT8 等多种推理精度。

    CogVideoX-2的主要功能

    • 文本到视频生成:CogVideoX-2能根据用户输入的文本描述生成高质量的视频内容,支持长达6秒、每秒8帧、分辨率为720×480的视频输出。
    • 图生视频:可以将用户提供的静态图像转化为动态视频。为达到最佳效果,推荐上传比例为3:2的图片
    • 高效显存利用:模型在FP16精度下推理仅需18GB显存,适合在资源有限的设备上运行。
    • 多推理精度支持:支持FP16、BF16、INT8等多种推理精度,用户可以根据硬件条件选择合适的精度以优化性能。
    • 灵活的二次开发:模型设计简洁,易于进行二次开发和定制,适合不同层次的开发者。
    • 高质量视频生成:通过3D变分自编码器(3D VAE)和专家Transformer架构,CogVideoX-2能够生成连贯且高质量的视频。
    • 低门槛提示词:用户可以使用简单的文本描述作为输入,模型能够理解并生成相应的视频内容。

    CogVideoX-2的技术原理

    • 3D 变分自编码器(3D VAE):CogVideoX-2 采用了 3D VAE 技术,通过三维卷积同时压缩视频的空间和时间维度,将视频数据压缩至原始大小的 2%,显著减少了计算资源的消耗。
    • 专家 Transformer 架构:模型引入了专家 Transformer 架构,能深入解析编码后的视频数据,结合文本输入生成高质量、富有故事性的视频内容。架构通过 3D Full Attention 实现时空注意力建模,优化了文本和视频之间的对齐度。
    • 3D 旋转位置编码(3D RoPE):为了更好地捕捉视频帧之间的时空关系,CogVideoX-2 使用了 3D RoPE 技术,分别对时间、空间坐标进行旋转位置编码,提升了模型在时间维度上的建模能力。
    • 高质量数据驱动:智谱 AI 开发了高效的视频数据筛选方法,排除了低质量视频,确保训练数据的高标准和纯净度。构建了从图像字幕到视频字幕的生成管道,解决了视频数据普遍缺乏详尽文本描述的问题。
    • 混合训练策略:CogVideoX-2 采用了图像与视频混合训练、渐进式分辨率训练以及高质量数据微调等策略,进一步提升了模型的生成能力和连贯性。

    CogVideoX-2的项目地址

    CogVideoX-2的应用场景

    • 影视创作:影视制作人员可以用 CogVideoX-2 将剧本概念快速转化为可视化演示,直观评估剧情走向和场景设置是否合理。
    • 广告与营销:品牌和广告公司可以通过 CogVideoX-2 根据文案直接生成多种风格的广告视频,节省制作成本的同时提高创意灵活性。
    • 教育与培训:教育工作者可以用模型批量制作生动的教学视频,帮助学生更好地理解和掌握知识。
    • 社交媒体与短视频制作:社交媒体博主和短视频创作者可以将文字创意快速转化为引人入胜的视频内容,吸引粉丝关注。
  • Baichuan-M1-14B – 百川智能推出的行业首个开源医疗增强大模型

    Baichuan-M1-14B是什么

    Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。专为医疗场景优化,同时具备强大的通用能力。模型基于 20 万亿 token 的高质量医疗与通用数据训练,涵盖 20 多个医疗科室的细粒度专业知识。在医疗推理和知识问答方面表现出色,在医疗场景中,性能可达到比自身参数量大五倍的模型水平。 Baichuan-M1-14B 的核心优势在于创新的模型结构和训练方法。引入了短卷积注意力机制、滑动窗口注意力机制和优化位置编码震荡等技术,提升了上下文理解和长序列任务的表现。模型采用多阶段课程学习和对齐优化方法,通过强化学习优化生成质量和逻辑推理能力。

    Baichuan-M1-14B

    Baichuan-M1-14B的主要功能

    • 强大的医疗推理能力:Baichuan-M1-14B 在医疗领域表现出色,医疗推理能力超越了更大参数量的 Qwen2.5-72B-Instruct,与 o1-mini 相差无几。能处理复杂的医疗问题,提供精准的医学推理和建议。
    • 多语言支持:模型支持中英双语,能处理多语言的医疗数据。
    • 开源可商用:Baichuan-M1-14B 是开源模型,支持低成本部署和多语言应用。开源策略旨在降低开发门槛,推动医疗 AI 生态的建设。
    • 医疗循证模式:模型解锁了“医疗循证模式”,能通过多层级证据分级体系,对不同权威等级的证据进行分析与整合,提供可靠的医疗推理。基于自建的循证医学知识库,涵盖海量医学论文、权威指南和专家共识。
    • 多领域推理能力:Baichuan-M1-14B 在语言推理、视觉推理和搜索推理等多个领域展现了全面的推理能力。

    Baichuan-M1-14B的技术原理

    • 数据收集与处理
      • 海量医疗数据:模型训练基于 20 万亿 token 的高质量医疗与通用数据,涵盖 20+ 医疗科室。
      • 数据分类与评估:数据按医疗科室、内容和价值进行分类,确保数据分布均衡。
      • 合成数据:通过教材、指南、知识图谱和临床病历生成多样化的高质量医疗推理数据。
    • 创新模型结构
      • 短卷积注意力机制:通过引入短卷积操作,减少对 induction heads 的依赖,提升上下文学习能力。
      • 滑动窗口注意力机制:减少 KV Cache 内存占用,提升长序列任务的计算效率。
      • 优化位置编码震荡:通过增大部分注意力头的维度,降低 RoPE 曲线震荡。
    • 多阶段训练方法
      • 通识能力提升阶段:提升基础语言能力和常识。
      • 医疗基础知识提升阶段:引入高质量医疗数据,重点提升推理、数学及医学知识能力。
      • 医疗进阶知识提升阶段:进一步优化数据质量,聚焦复杂医疗推理和长尾知识。
    • 强化学习优化
      • ELO(Exploratory Log-likelihood Optimization):优化思维链路径,提升生成质量和逻辑推理能力。
      • TDPO(Token-level Direct Preference Optimization):使用偏序对数据优化生成模型,使其更贴合用户偏好。
      • PPO(Proximal Policy Optimization):通过策略优化进一步增强生成逻辑与任务表现。
    • 模型优化策略
      • 大峰值学习率策略:采用 WSD 学习率调度策略,促进模型泛化能力。
      • 动态梯度剪裁:减少因特殊样本或陡峭损失空间导致的不稳定。

    Baichuan-M1-14B的项目地址

    Baichuan-M1-14B的应用场景

    • 临床辅助决策:Baichuan-M1-14B 能通过“医疗循证模式”快速、精准地回答医疗临床问题。为医生提供可靠的医学推理支持,帮助提升诊疗效率。
    • 医学科研支持:模型能够帮助科研人员快速获取权威医学证据和临床指南,缩短科研探索时间。
    • 患者健康管理:Baichuan-M1-14B 可以为患者提供个性化的健康管理建议,帮助其更好地理解自身健康状况,科学管理生活方式。
    • 科研与数据分析:模型的多领域推理能力能处理复杂的科研问题,提供高效的数据分析支持。
  • TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法

    TokenVerse是什么

    TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念进行无缝组合生成。支持多种概念,包括物体、配饰、材质、姿势和光照等,突破了现有技术在概念类型或广度上的限制。 TokenVerse 基于 DiT 模型的调制空间,通过优化框架为每个词汇找到独特的调制空间方向,实现对复杂概念的局部控制。在个性化图像生成领域具有显著优势,能满足设计师、艺术家和内容创作者在不同场景下的多样化需求。

    TokenVerse

    TokenVerse的主要功能

    • 多概念提取与组合:TokenVerse 能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念,实现无缝组合生成。支持多种概念类型,如物体、配饰、材质、姿势和光照。
    • 局部控制与优化:通过基于 DiT 模型的调制空间,TokenVerse 为每个词汇找到独特的调制方向,实现对复杂概念的局部控制。使生成的图像能更精准地符合用户的描述和需求。
    • 个性化图像生成:适用于需要高度个性化图像生成的场景,如生成具有特定姿势、配饰和光照条件的人物图像,或者将不同图像中的概念组合成新的创意图像。

    TokenVerse的技术原理

    • 调制空间的语义化:TokenVerse 基于 Diffusion Transformer(DiT)模型,通过注意力机制和调制(shift and scale)来处理输入文本。
    • 局部控制与个性化:okenVerse 通过优化每个文本标记(token)的调制向量,实现对复杂概念的局部控制。具体来说,通过为每个文本标记找到独特的调制方向,模型可以将这些方向用于生成新图像,将提取的概念以期望的配置组合起来。
    • 多概念解耦与组合:TokenVerse 能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念,实现无缝组合生成。支持多种概念类型,包括物体、配饰、材质、姿势和光照。
    • 优化框架:TokenVerse 的优化框架以图像和文本描述为输入,为每个单词找到调制空间中的独特方向。
    • 无需微调模型权重:TokenVerse 的优势在于无需调整预训练模型的权重,即可实现复杂概念的个性化生成。保留了模型的先验知识,支持对重叠物体和非物体概念(如姿势、光照)的个性化。

    TokenVerse的项目地址

    TokenVerse的应用场景

    • 创意设计与艺术创作:TokenVerse 能从单张图像中解耦复杂的视觉元素,支持多种概念的组合生成,如物体、配饰、材质、姿势和光照等。设计师和艺术家可以快速实现独特的视觉效果,
    • 内容创作与个性化图像生成:对于内容创作者,TokenVerse 提供了一种无需微调模型权重即可生成个性化图像的方法。用户可以通过输入图像和文本描述,生成符合特定需求的图像。
    • 人工智能研究与开发:TokenVerse 为人工智能研究者提供了一种新的技术思路,可用于探索更先进的图像生成模型和方法。
    • 多概念组合与创意探索:TokenVerse 支持从多张图像中提取概念并进行无缝组合,生成新的创意图像。
  • Baichuan-M1-preview – 百川智能推出的国内首个全场景深度思考模型

    Baichuan-M1-preview是什么

    Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能力,在数学、代码等多个权威评测中表现优异,超越了o1-preview等模型。核心亮点是解锁了“医疗循证模式”,通过自建的亿级条目循证医学知识库,能快速、精准地回答医疗临床和科研问题。

    Baichuan-M1-preview

    Baichuan-M1-preview的主要功能

    • 多领域推理能力:Baichuan-M1-preview 同时具备语言、视觉和搜索三大领域的推理能力。
      • 语言推理:在AIME、Math等数学基准测试以及LiveCodeBench代码任务上的成绩超越了o1-preview。
      • 视觉推理:在MMMU-val、MathVista等权威评测中,表现优于GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等国内外头部模型。
      • 搜索推理:具备强大的信息检索和整合能力。
    • 医疗循证模式:模型解锁了“医疗循证模式”,通过自建的亿级条目循证医学知识库,能快速、精准地回答医疗临床和科研问题。实现了从证据检索到深度推理的完整端到端服务,帮助用户在面对复杂医学问题时做出最佳决策。
    • 深度思考模式:在深度思考模式下,Baichuan-M1-preview 能准确解答数学、代码、逻辑推理等问题,像资深医疗专家一样,通过深度思考构建严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康管理建议。

    Baichuan-M1-preview的技术原理

    • 数据与训练方法:为了提升模型的医疗推理能力,百川智能收集了万亿级 token 的严肃医疗数据,生成了超千亿 token 的多样化数据,涵盖医疗复杂决策推理链条、决策依据等。在训练阶段,模型采用多阶段领域提升方案,引入 ELO 强化学习法优化思维链路径,提升生成质量和逻辑推理能力。
    • 开源版本支持:Baichuan-M1-preview 的小尺寸版本 Baichuan-M1-14B 作为行业首个开源的医疗增强大模型,医疗能力超越了更大参数量的 Qwen2.5-72B,与 o1-mini 相当。

    如何使用Baichuan-M1-preview

    • 访问平台:正式上线百小应,可登录访问百小应的官方网站进行体验。
    • 选择深度思考:打开深度思考模式,可进行数学、代码、逻辑推理等问题解答。

    Baichuan-M1-preview的应用场景

    • 医疗领域:Baichuan-M1-preview 解锁了“医疗循证模式”,通过自建的亿级条目循证医学知识库,能快速、精准地回答医疗临床和科研问题。像资深医疗专家一样,通过深度思考构建严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康管理建议。
    • 教育领域:模型在数学和代码评测中表现出色,能为学生提供学习辅助,帮助他们更好地理解和掌握复杂概念。
    • 科研与数据分析:Baichuan-M1-preview 的多领域推理能力使其能够处理复杂的科研问题,在医学科研中,能大幅缩短科研探索时间。
    • 内容创作与客服:模型能生成高质量的文本内容,支持内容创作、文案撰写等工作。语言推理能力使其在客服领域具有应用潜力,能快速准确地回答用户问题。
    • 创意产业:Baichuan-M1-preview 的多领域推理能力使其能够同时处理文本和视觉信息,为创意工作提供新的思路和工具,例如生成创意文案、解析图像内容等。
  • PaSa – 字节跳动推出的学术论文检索智能体

    PaSa是什么

    PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提供精准、全面的学术论文检索结果。

    PaSa

    PaSa的主要功能

    • 自主调用搜索工具:PaSa 能自动调用搜索引擎,根据用户输入的学术问题生成多样化的搜索关键词,并执行多次搜索,确保全面覆盖相关文献。
    • 阅读和分析论文内容:PaSa 通过其核心组件 Crawler 和 Selector 实现高效的信息处理。Crawler 负责收集相关论文,包括通过扩展引文网络发现更多潜在相关的文献。Selector 则对收集到的论文进行精读,筛选出真正符合用户需求的文献。
    • 选择相关参考文献:PaSa 能从海量文献中筛选出与用户查询最相关的参考文献,提供全面且准确的搜索结果。
    • 支持复杂学术查询:PaSa 专为处理复杂的学术问题设计,能理解并处理细粒度的学术查询,例如涉及特定算法或研究方法的问题。
    • 强化学习优化:PaSa 使用强化学习方法进行训练,通过合成数据集 AutoScholarQuery 和真实世界查询基准 RealScholarQuery 来提升搜索效率和准确性。
    • 高效检索能力:PaSa 的检索速度极快,能在两分钟内完成一次详尽的学术调研。在性能测试中,PaSa 在 Recall@20 和 Recall@50 指标上分别比 Google Scholar 提升了 37.78% 和 39.90%。

    PaSa的技术原理

    • 核心组件:PaSa 的核心包括两个主要的 LLM 智能体:Crawler 和 Selector。
      • Crawler:负责通过搜索引擎收集与用户查询相关的学术论文。能生成多样化的搜索关键词,并执行多次搜索以最大化召回率。
      • Selector:负责精读 Crawler 找到的每一篇论文,评估其是否符合用户需求,提高搜索结果的精确性。
    • 强化学习优化:PaSa 使用强化学习(RL)和近端策略优化(PPO)算法进行训练,以应对文献搜索中的稀疏奖励和长轨迹问题。训练过程中,PaSa 通过以下方式提升性能:
      • 合成数据集:研究团队构建了 AutoScholarQuery 数据集,包含 35,000 个细粒度的学术查询及其对应的相关论文。数据来自顶级人工智能会议的论文。
      • 真实世界数据集:为了评估 PaSa 在实际场景中的表现,团队还开发了 RealScholarQuery 数据集,收集真实世界的学术查询。

    PaSa的项目地址

    PaSa的应用场景

    • 学术研究中的文献调研:PaSa 可以帮助研究人员快速完成学术论文的检索和调研工作。通过模仿人类研究者的行为,自主调用搜索引擎、阅读论文并追踪引文网络,能在两分钟内完成一次详尽的学术调研。
    • 高校科研与教学支持:在高校场景中,PaSa 可以作为科研辅助工具,帮助教师和学生快速获取相关学术资源。教师可以用 PaSa 快速调取学术资源库中的内容,辅助文献综述生成、研究实验设计以及论文翻译润色等工作。
    • 知识产权分析:PaSa 的高效检索能力还可以应用于知识产权领域。
    • 多任务学习与数据挖掘:南京大学 PASA 大数据实验室的研究表明,PaSa 的底层技术还可以应用于多任务学习和数据挖掘领域。
  • EMO2 – 阿里研究院推出的音频驱动头像视频生成技术

    EMO2是什么

    EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片,生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合,通过扩散模型合成视频帧,生成自然流畅的动画。 包括高质量的视觉效果、高精度的音频同步以及丰富的动作多样性。

    EMO2

    EMO2的主要功能

    • 音频驱动的动态头像生成:EMO2 能通过音频输入和一张静态人像照片,生成富有表现力的动态头像视频。
    • 高质量视觉效果:基于扩散模型合成视频帧,结合手部动作生成自然流畅的面部表情和身体动作。
    • 高精度音频同步:确保生成的视频与音频输入在时间上高度同步,提升整体的自然感。
    • 多样化动作生成:支持复杂且流畅的手部和身体动作,适用于多种场景。

    EMO2的技术原理

    • 音频驱动的运动建模:EMO2 通过音频编码器将输入的音频信号转换为特征嵌入,捕捉音频中的情感、节奏和语义信息。
    • 末端效应器引导:该技术特别关注手部动作(末端效应器)的生成,因为手部动作与音频信号之间存在强相关性。模型首先生成手部姿势,然后将其融入整体的视频生成过程中,确保动作的自然性和一致性。
    • 扩散模型与特征融合:EMO2 采用扩散模型作为核心生成框架。在扩散过程中,模型结合参考图像的特征、音频特征以及多帧噪声,通过反复去噪操作生成高质量的视频帧。
    • 帧编码与解码:在帧编码阶段,ReferenceNet 从输入的静态图像中提取面部特征,这些特征与音频特征结合后进入扩散过程。最终,模型通过解码生成具有丰富表情和自然动作的视频。

    EMO2的项目地址

    EMO2的应用场景

    • 虚拟现实和动画:可用于生成富有表现力和自然的说话头像动画。
    • 跨语言和文化:支持多种语言的语音输入,能够为不同风格的人物生成动画。
    • 角色扮演和游戏:可以将指定角色应用于电影和游戏场景中。
  • UI-TARS – 字节跳动推出的开源原生 GUI 代理模型

    UI-TARS是什么

    UI-TARS是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和记忆能力,能实时理解动态界面,通过多模态输入(如文本、图像)执行复杂的任务。 UI-TARS 的核心优势在于跨平台的标准化行动定义,支持桌面、移动和网页等多种环境。结合了快速直观反应和复杂任务规划的能力,支持多步推理、反思和错误纠正。还具备短期和长期记忆功能,能更好地适应动态任务需求。

    UI-TARS

    UI-TARS的主要功能

    • 多模态感知:UI-TARS 能处理文本、图像等多种输入形式,实时感知和理解动态界面内容,支持跨平台(桌面、移动、网页)的交互。
    • 自然语言交互:用户可以通过自然语言指令与 UI-TARS 对话,完成任务规划、操作执行等复杂任务。支持多步推理和错误纠正,能像人类一样处理复杂的交互场景。
    • 跨平台操作:支持桌面、移动和网页环境,提供标准化的行动定义,同时兼容平台特定的操作(如快捷键、手势等)。
    • 视觉识别与交互:UI-TARS 能通过截图和视觉识别功能,精准定位界面元素,并执行鼠标点击、键盘输入等操作,适用于复杂的视觉任务。
    • 记忆与上下文管理:具备短期和长期记忆能力,能够捕捉任务上下文信息,保留历史交互记录,从而更好地支持连续任务和复杂场景。
    • 自动化任务执行:可以自动化完成一系列任务,如打开应用、搜索信息、填写表单等,提高用户的工作效率。
    • 灵活部署:支持云端部署(如 Hugging Face 推理端点)和本地部署(如通过 vLLM 或 Ollama),满足不同用户的需求。
    • 扩展性:UI-TARS 提供了丰富的 API 和开发工具,方便开发者进行二次开发和集成。

    UI-TARS的技术原理

    • 增强感知能力:UI-TARS 使用大规模的 GUI 截图数据集进行训练,能对界面元素进行上下文感知和精准描述。通过视觉编码器实时抽取视觉特征,实现对界面的多模态理解。
    • 统一行动建模:UI-TARS 将跨平台操作标准化,定义了一个统一的行动空间,支持桌面、移动端和 Web 平台的交互。通过大规模行动轨迹数据训练,模型能够实现精准的界面元素定位和交互。
    • 系统化推理能力:UI-TARS 引入了系统化推理机制,支持多步任务分解、反思思维和里程碑识别等推理模式。能在复杂任务中进行高层次规划和决策。
    • 迭代训练与在线反思:解决数据瓶颈问题,UI-TARS 通过自动收集、筛选和反思新的交互轨迹进行迭代训练。在虚拟机上运行,能从错误中学习并适应未预见的情况,减少人工干预。

    UI-TARS的项目地址

    UI-TARS的应用场景

    • 桌面和移动自动化:通过自然语言控制计算机或移动设备,完成任务,如打开应用、搜索信息等。
    • Web 自动化:结合 Midscene.js,开发者可以使用 JavaScript 和自然语言控制浏览器。
    • 视觉识别与交互:支持截图和图像识别功能,能够根据视觉信息执行精确的鼠标和键盘操作。
  • Step-Video V2 – 阶跃星辰推出的升级版视频生成模型

    Step-Video V2是什么

    Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和创新,采用了更高压缩比的VAE模型以及深度优化的DiT架构,引入强化学习算法。能生成复杂的动态场景,如芭蕾舞、空手道等,同时支持丰富的镜头语言和基础文字生成。Step-Video V2还具备出色的人物表情捕捉能力,能细腻呈现光影效果。

    Step-Video V2

    Step-Video V2的主要功能

    • 复杂运动生成:能流畅地生成复杂动态场景,如芭蕾舞、空手道、羽毛球等运动场景。
    • 人物细节刻画:可以细腻呈现真实人物或虚构角色的表情、神态和光影效果。
    • 丰富镜头语言:支持推、拉、摇、移等多种镜头运动方式,以及不同景别之间的切换,为视频创作提供更多可能性。
    • 基础文字生成:可将文字自然融入视频内容,生成效果显著优于前代模型。
    • 语义理解与指令遵循:结合自研多模态理解大模型和视频知识库,能更精准地描述视频内容和镜头语言,生成更贴近真实世界的视频。
    • 中英双语输入:支持中英双语输入,进一步拓展了视频生成的应用场景。

    Step-Video V2的技术原理

    • 高效压缩的 VAE 模型:Step-Video V2 采用了压缩比更高的变分自编码器(VAE)模型,通过空间和时间的高效压缩,在保证视频重构质量的同时,显著降低了计算复杂度,从而大幅提升视频生成的效率。
    • 深度优化的 DiT 架构与强化学习:该版本对扩散模型与 Transformer 架构(DiT)进行了深度优化,引入强化学习算法。使视频生成的运动更流畅自然,细节表现力更强,无论是复杂动态场景还是细腻的人物表情,能以更加逼真的方式呈现。
    • 多模态理解与视频知识库的结合:Step-Video V2 结合了自研的多模态理解大模型和视频知识库,能更精准地描述视频内容和镜头语言,生成更加贴近真实世界的视频。

    如何使用Step-Video V2

    • 申请试用:Step-Video V2 已在跃问网页端开放试用申请,用户可以通过访问跃问网页端,选择跃问视频提交申请。
    • 使用方法
      • 输入指令:用户可以通过中英双语输入具体的视频生成指令,包括场景描述、人物动作、镜头语言等。
      • 基础文字生成:Step-Video V2 支持将文字自然融入视频内容,用户可以在指令中添加文字需求。
      • 镜头语言:用户可以指定镜头运动方式,如推、拉、摇、移等,模型会根据指令生成对应的镜头效果。
    • 注意事项目前仅支持网络视频链接,暂不支持本地视频文件上传。视频内容需符合平台规范,避免涉及违规或敏感内容。

    Step-Video V2的应用场景

    • 视频内容创作:Step-Video V2 在视频内容创作领域提供了强大的支持,能根据用户的指令生成高质量的视频内容。
    • 教育和培训:在教育和培训领域,Step-Video V2 可以用来生成教学视频,如体育动作教学、舞蹈教学等。能精确地模拟各种动作,为学习者提供直观的学习材料。
    • 娱乐和游戏:Step-Video V2 可以用于生成游戏内的动画和视频,或者为电影和电视剧制作特效。
    • 广告与营销:在广告和营销领域,Step-Video V2 可以用来生成吸引人的广告视频,展示产品特点或品牌故事。
    • 新闻和媒体:Step-Video V2 可以用于生成新闻报道中的视频片段,或者为纪录片制作高质量的视频内容。