Category: AI项目和框架

  • AIMv2 – 苹果开源的多模态自回归预训练视觉模型

    AIMv2是什么

    AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文本分解为子词令牌,然后将两者拼接为统一序列进行自回归预训练。简化了训练过程,增强了模型对多模态数据的理解能力。AIMV2提供了多种参数规模的版本(如300M、600M、1.2B和2.7B),适用于从手机到PC等不同设备。在性能方面,AIMV2在多模态任务和传统视觉任务中均表现出色。

    AIMv2

    AIMv2的主要功能

    • 视觉问答(VQA):AIMV2 提取视觉特征并与问题文本结合,传递给大型语言模型(LLM),生成准确且贴合上下文的答案。
    • 指代表达理解:在 RefCOCO 和 RefCOCO+ 等基准测试中,AIMV2 能精准地将自然语言描述与视觉区域对应起来。
    • 图像字幕生成:结合 LLM,AIMV2 可以生成高质量的图像描述。
    • 多媒体检索:AIMV2 的多模态表示能力能高效地处理多媒体检索任务,支持对图像和文本的联合检索。
    • 与大型语言模型(LLM)集成:AIMV2 的架构与 LLM 驱动的多模态应用高度契合,能无缝集成到各种多模态系统中。
    • 零样本适应性:AIMV2 支持零样本识别适应性,能在不进行额外训练的情况下适应新的视觉任务。

    AIMv2的技术原理

    • 多模态自回归预训练框架:AIMV2 将图像分割为不重叠的小块(Patch),将文本分解为子词标记,然后将两者拼接为一个多模态序列。在预训练阶段,模型通过自回归的方式预测序列中的下一个元素,图像块还是文本标记。这种设计使得模型能够同时学习视觉和语言模态之间的关联。
    • 视觉编码器与多模态解码器:AIMV2 的架构由视觉编码器和多模态解码器组成。视觉编码器基于视觉 Transformer(ViT)架构,负责处理图像 Patch。多模态解码器则使用因果自注意力机制,根据前文内容预测下一个元素。
    • 损失函数设计:AIMV2 定义了图像和文本领域的单独损失函数。文本损失采用标准的交叉熵损失,图像损失则采用像素级回归损失,用于比较预测的图像块与真实图像块。整体目标是最小化文本损失和图像损失的加权和,以平衡模型在两个模态上的性能。
    • 训练数据与扩展性:AIMV2 使用了大量图像和文本配对数据集进行预训练,包括公开的 DFN-2B 和 COYO 数据集。训练过程简单高效,不需要过大的批量大小或特殊的跨批次通信方法。AIMV2 的性能随着数据量和模型规模的增加而提升,展现出良好的可扩展性。
    • 预训练后的优化策略:AIMV2 探索了多种训练后策略,例如高分辨率适配和原始分辨率微调。这些策略使得模型能够更好地处理不同分辨率和宽高比的图像,进一步提升其在下游任务中的表现。

    AIMv2的项目地址

    AIMv2的应用场景

    • 图像识别:AIMV2 可作为冻结的特征提取器,用于多个图像识别基准测试。
    • 目标检测和实例分割:AIMV2 可作为主干网络集成到目标检测模型(如 Mask R-CNN)中,用于目标检测和实例分割任务。
    • 开放词汇对象检测:AIMV2 在开放词汇对象检测任务中表现出色,能识别和定位未见过的类别,展示强大的泛化能力。
  • Baichuan-Audio – 百川智能开源的端到端语音交互模型

    Baichuan-Audio是什么

    Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码本离散化技术将音频信号转化为离散标记,保留语义和声学信息,用独立的音频头增强音频特征处理能力。模型基于两阶段预训练策略,结合交错数据训练,平衡音频建模和语言理解能力。Baichuan-Audio在实时语音对话、问答、语音识别(ASR)和语音合成(TTS)等任务中表现出色,Baichuan-Audio开源的训练数据和模型为语音交互研究提供了重要资源。

    Baichuan-Audio

    Baichuan-Audio的主要功能

    • 实时语音对话:支持流畅的语音交互,理解用户的语音指令、生成自然的语音回应。
    • 语音理解与生成:结合语音识别(ASR)和语音合成(TTS)能力,实现语音输入到语音输出的无缝转换。
    • 多语言支持:支持中文和英文的高质量对话,具备跨语言语音翻译能力。
    • 语音问答:处理复杂的语音指令和问题,提供准确的语音回答。
    • 音频内容生成:基于文本指导生成对齐的语音内容,确保语音输出的语义连贯性。

    Baichuan-Audio的技术原理

    • 音频标记化:基于多码本离散化技术,将连续的音频信号转化为离散的音频标记。用Whisper Large Encoder提取音频特征,基于8层残差向量量化(RVQ)技术保留语义和声学信息。
    • 独立音频头:模型设计了独立的音频头,处理音频标记,增强音频特征的捕捉能力。
    • 端到端框架:模型用端到端的架构,处理音频输入、生成音频输出,避免传统级联模型中语音到文本再到语音的多次转换。
    • 两阶段预训练策略:为平衡音频建模和语言理解能力,Baichuan-Audio基于两阶段预训练策略。第一阶段固定语言模型参数,训练音频相关组件;第二阶段放开所有参数进行联合训练。
    • 交错数据训练:模型用交错数据(如音频-文本交错数据和交错文本到语音数据)进行预训练,增强跨模态知识转移和语音生成能力。
    • 流匹配解码器:基于流匹配(Flow-Matching)的解码器,将音频标记解码为高质量的梅尔频谱图,用HiFi-GAN vocoder合成自然语音。

    Baichuan-Audio的项目地址

    Baichuan-Audio的应用场景

    • 实时语音交互:支持流畅的语音对话,实时理解语音指令、生成自然的语音回应。
    • 语音问答:处理复杂语音指令和问题,提供准确的语音回答。
    • 多语言支持:支持中文和英文的高质量对话,具备语音翻译能力。
    • 音频内容生成:基于文本指导生成对齐的语音内容,确保语义连贯性。
    • 跨模态能力:结合语音识别(ASR)和语音合成(TTS),实现语音输入到语音输出的无缝转换。
  • VideoFusion – AI视频剪辑工具,自动去除视频黑边、水印和字幕

    VideoFusion是什么

    VideoFusion 是开源的短视频拼接与处理软件,专为高效视频编辑设计。支持自动去除视频中的黑边、水印和字幕,能将视频自动旋转为横屏或竖屏,适配不同播放场景。软件具备降噪、去抖动、音量平衡等功能,能提升视频画质。 VideoFusion 支持多种视频格式,如 MP4、MOV、AVI 等,提供批量处理功能,适合需要快速处理大量视频的用户。支持用户自定义视频的分辨率、压缩方式和补帧算法,满足不同需求。

    VideoFusion

    VideoFusion的主要功能

    • 自动去除黑边、水印和字幕:能智能识别并去除视频中的多余黑边、水印或字幕,使视频更加整洁。
    • 自动旋转视频:支持将视频自动旋转为横屏或竖屏,适配不同设备的播放需求。
    • 画质提升:具备降噪、去抖动、音量平衡等功能,可显著提升视频的整体质量。
    • 批量处理:支持同时处理多个视频,提高工作效率,节省时间。
    • 格式支持:兼容多种视频格式,如 MP4、MOV、AVI 等,适用性广泛。
    • 自定义设置:用户可以根据需求调整视频的分辨率、压缩方式和补帧算法,满足个性化需求。
    • 实时进度反馈:在处理过程中提供实时进度条和日志记录,方便用户了解处理状态。
    • 开源与扩展性:基于 Python 开发,代码开源,用户可以自由下载、修改或参与开发,适合有一定编程基础的用户进行二次开发。

    VideoFusion的技术原理

    • 噪声分解与扩散模型:VideoFusion 使用了分解扩散模型(Decomposed Diffusion Models),将视频帧的噪声分解为基础噪声(base noise)和残差噪声(residual noise)。基础噪声在所有帧之间共享,保证了视频帧之间的内容一致性;残差噪声则负责引入帧与帧之间的差异,保持视频的多样性。
    • 智能去黑边与内容提取:软件通过智能算法自动识别并去除视频中的黑边、水印和多余文字等,同时提取视频主体内容。
    • 自动旋转与分辨率优化:VideoFusion 能自动检测视频的方向,旋转为统一的横屏或竖屏格式。软件会计算所有视频的最佳分辨率,进行缩放和裁剪,确保拼接后的视频观感一致,同时最小化黑边区域。
    • 批量处理与实时反馈:软件支持批量处理多个视频,用户只需几次点击即可完成去黑边、拼接、补帧、音频降噪等操作。处理过程中提供实时进度反馈和日志记录,方便用户监控处理状态。
    • AI 驱动的画质提升:VideoFusion 内置了多种 AI 驱动的功能,如视频降噪、去抖动、白平衡调整、亮度优化等,能显著提升视频的整体质量。

    VideoFusion的项目地址

    VideoFusion的应用场景

    • 视频创作者:视频创作者可以用 VideoFusion 快速拼接多个视频片段,无需复杂的参数设置。
    • 自媒体与社交媒体运营:适用于需要快速生成大量短视频的场景,如抖音、快手等平台的内容制作。
    • 企业与机构:企业可以用 VideoFusion 快速整合不同分辨率和格式的视频素材,节省时间和成本。
    • 教学与培训:可用于将多个教学视频片段拼接成完整的课程内容,同时优化音量和画质。
    • 视频后期制作:自动计算最佳分辨率,确保拼接后的视频观感一致。
  • SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

    SongGen是什么

    SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

    SongGen

    SongGen的主要功能

    • 细粒度控制:用户基于歌词、描述性文本(如乐器、风格、情感等)对生成的歌曲进行控制。
    • 声音克隆:支持基于三秒参考音频实现声音克隆,使生成的歌曲具有特定歌手的音色。
    • 两种生成模式:提供“混合模式”(直接生成人声和伴奏的混合音频)和“双轨模式”(分别合成人声和伴奏,便于后期编辑)。
    • 高质量音频输出:基于优化的音频标记化和训练策略,生成具有高自然度和清晰人声的歌曲。

    SongGen的技术原理

    • 自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,用交叉注意力机制引导音频标记的生成。
    • 音频标记化:用X-Codec将音频信号编码为离散的音频标记,基于代码本延迟模式处理多代码序列,支持高效生成。
    • 混合模式与双轨模式
      • 混合模式:直接生成混合音频标记,引入辅助人声音频标记预测目标(Mixed Pro),增强人声清晰度。
      • 双轨模式:基于平行或交错模式分别生成人声和伴奏标记,确保两者在帧级别上的对齐,提升生成质量。
    • 条件输入编码
      • 歌词编码:VoiceBPE分词器将歌词转换为音素级标记,基于小型Transformer编码器提取关键发音信息。
      • 声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。
      • 文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,提供音乐风格、情感等控制。
    • 训练策略
      • 多阶段训练:包括模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。
      • 课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习。
      • 数据预处理:开发自动化数据预处理管道,从多个数据源收集音频,分离人声和伴奏,生成高质量的歌词和描述性文本数据集。

    SongGen的项目地址

    SongGen的应用场景

    • 音乐创作:快速生成歌曲雏形,探索不同风格,为歌词生成伴奏,加速创作流程。
    • 视频配乐:为短视频、广告、电影生成背景音乐,根据内容调整风格,提升视觉效果。
    • 教育辅助:帮助学生理解音乐创作,通过生成歌曲学习语言发音,激发创造力。
    • 个性化体验:根据用户输入生成定制歌曲,用声音克隆实现“个人专属歌手”,增强娱乐性。
    • 商业应用:为品牌生成专属音乐,替代版权受限的音乐素材,用于广告和推广。
  • Smallpond – DeepSeek开源的轻量级数据处理框架

    Smallpond是什么

    Smallpond是DeepSeek推出的基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计。Smallpond支持处理 PB 级数据集,借助 DuckDB 的高性能分析能力和 3FS 的分布式存储优势,实现高效的数据加载、查询和转换。Smallpond支持快速上手,提供示例数据和详细的文档,适合需要高效处理大规模数据的用户和开发者。

    Smallpond

    Smallpond的主要功能

    • 轻量级和易用性:提供简洁的 API 和易于理解的工作流程,方便用户快速上手。
    • 高性能数据处理:由 DuckDB 驱动,支持高效处理大规模数据集。
    • PB 级数据扩展性:基于 3FS 构建,支持处理 PB 级别数据。
    • 便捷操作:无需长时间运行的服务即可完成数据处理任务。
    • 快速上手:提供快速入门指南和示例数据,支持用 DuckDB SQL 进行数据处理。

    Smallpond的技术原理

    • 数据加载:基于 3FS 加载数据,支持多种数据格式(如 Parquet、CSV)。
    • 数据处理:用 DuckDB 的 SQL 引擎对数据进行处理,支持复杂的查询和分析操作。
    • 数据存储:处理后的数据保存回 3FS,支持分区存储和高效读写。
    • 并行处理:Smallpond 支持数据分区和并行处理,充分利用集群资源,提高处理效率。

    Smallpond的项目地址

    Smallpond的性能表现

    Smallpond基于GraySort 基准测试在运行 3FS 的集群上对 Smallpond 进行评估,集群包含50个计算节点和25个存储节点。基准测试对110.5 TiB 的数据进行了排序,耗时30分钟14秒,平均吞吐量达到3.66 TiB/min。

    Smallpond

    Smallpond的应用场景

    • 大规模数据预处理:Smallpond 能高效处理和转换大规模数据集,支持数据清洗、格式转换和特征提取等操作,为机器学习和深度学习任务提供高质量的输入数据。
    • 数据分析与实时查询:快速执行复杂的数据分析和实时查询任务,适用于需要快速生成分析结果的场景,如数据仪表盘和实时监控系统。
    • 分布式机器学习训练:为分布式机器学习训练任务提供强大的数据支持,提升训练效率,适合处理 PB 级训练数据。
    • 嵌入式数据分析应用:轻松嵌入到各种应用中,为嵌入式设备或资源受限的环境提供高效的数据分析能力。
    • 数据仓库与湖存储集成:与现有的数据仓库和数据湖存储系统(如 3FS)无缝集成,支持高效的数据读写和管理,适合构建现代化的数据处理和分析架构。
  • CorrDiff – NVIDIA 推出的生成式 AI 模型,专注于全球气象数据

    CorrDiff是什么

    CorrDiff 是 NVIDIA 推出的生成式 AI 模型,用于将低分辨率的全球天气数据下采样为高分辨率数据,提高天气预测的准确性和效率。采用两步法处理数据:首先通过 UNet 架构预测大气变量的条件均值,然后基于扩散模型对预测结果进行精细化修正。与传统方法相比,每次推理速度提升 1000 倍,能耗降低 3000 倍。CorrDiff 能合成低分辨率数据中不存在的高分辨率细节,为天气预报提供更准确的极端天气预测。

    CorrDiff

    CorrDiff的主要功能

    • 高分辨率数据生成:CorrDiff 能将分辨率从 25 公里提升至 2 公里,生成更精细的气象数据,适用于预测极端天气事件(如台风)。
    • 两步预测方法:CorrDiff 采用两步法处理数据。第一步通过 UNet 架构预测条件均值,第二步基于扩散模型对预测结果进行校正,生成高分辨率细节和极端值。
    • 高效的计算与节能:与传统方法相比,CorrDiff 的计算速度提升 1000 倍,能耗降低 3000 倍。例如,过去需要大量 CPU 集群完成的任务,现在仅需单个 NVIDIA GPU 即可高效完成。
    • 支持多种气象变量:CorrDiff 能预测常见的气象变量,能合成低分辨率数据中不存在的变量,如雷达反射率,这对于判断降雨位置和强度极为关键。
    • 确定性和概率性预测:CorrDiff 能提供高保真的确定性和概率性预测,准确恢复极端事件的谱和分布。
    • 易于部署和扩展:作为 NVIDIA Earth-2 的一部分,CorrDiff 提供标准化 API 和预构建容器,支持在云平台、数据中心或工作站上快速部署。

    CorrDiff的技术原理

    • UNet 预测:第一步使用 UNet 架构,是常用于图像处理的网络,能有效提取特征并预测大气变量的条件均值。
    • 扩散修正:第二步基于扩散模型对预测结果进行修正。扩散模型通过在图像中加入噪声,再逐步去除噪声的过程来生成高分辨率细节和极端值。类似于流体力学中的 Reynolds 分解,能有效处理多尺度大气数据。

    CorrDiff的项目地址

    CorrDiff的应用场景

    • 极端天气事件预测:CorrDiff 能将低分辨率(如 25 公里)的全球天气数据细化至高分辨率(如 2 公里),更准确地预测极端天气现象,如台风、暴雨和飓风等。
    • 高分辨率天气预报:模型通过生成式学习技术,将粗分辨率输入数据中的细节补充完整,生成更精细的天气预报结果。
    • 灾害风险评估与应对:CorrDiff 生成的高分辨率数据可用于评估极端天气事件的潜在影响,为城市规划、基础设施建设和灾害应对提供决策支持。
    • 生成多种气象变量:CorrDiff 能预测常见的气象变量,能合成低分辨率数据中不存在的变量,如雷达反射率,这对于判断降雨位置和强度极为关键。
  • 3FS – DeepSeek开源的高性能分布式文件系统

    3FS是什么

    3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SSD的吞吐量和数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取吞吐量。3FS提供强一致性保障,提供通用文件接口,无需学习新的存储API。3FS在大规模数据处理和推理优化中表现出色,在GraySort测试中达到3.66 TiB/min的吞吐量,KVCache读取吞吐量可达40 GiB/s。

    3FS

    3FS的主要功能

    • 高性能数据访问:聚合数千个SSD的吞吐量和数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取吞吐量。支持大规模集群中的高吞吐量并行读写,优化AI训练和推理任务中的数据加载效率。
    • 强一致性保障:实现链式复制与分配查询(CRAQ)技术,确保数据的强一致性,简化应用开发复杂性。
    • 通用文件接口:提供无状态元数据服务,支持事务性键值存储(如FoundationDB),用户无需学习新的存储API。
    • 优化AI工作负载
      • 数据准备:高效管理大量中间输出,支持层次化目录结构。
      • 数据加载:支持跨计算节点的随机访问,无需预取或数据集洗牌。
      • 检查点支持:为大规模训练提供高吞吐量并行检查点功能。
      • KVCache:为推理任务提供高吞吐量、大容量的缓存替代方案,优化推理效率。
    • 高扩展性和灵活性:支持大规模集群部署,适用于从单节点到数千节点的多样化应用场景。

    3FS的技术原理

    • 分离式架构:基于计算与存储分离的设计,将存储资源集中管理,用高速网络(如RDMA)实现数据的高效传输。让应用以“位置无关”的方式访问存储资源,简化资源管理。
    • 链式复制与分配查询(CRAQ):为实现强一致性,3FS基于CRAQ技术。基于链式复制确保数据在多个副本间的一致性,用分配查询优化读取性能,减少延迟。
    • 无状态元数据服务:3FS推出无状态的元数据服务,基于事务性键值存储(如FoundationDB),提高系统的可扩展性,降低元数据管理的复杂性。
    • Direct I/O与RDMA优化:基于Direct I/O直接访问SSD,避免使用文件缓存,减少CPU和内存开销,用RDMA技术实现高效的数据传输,进一步提升性能。
    • KVCache技术:在推理任务中,基于KVCache缓存关键中间结果,避免重复计算,显著提高推理效率。KVCache结合高吞吐量和大容量的优势,是DRAM缓存的低成本替代方案。
    • 数据局部性优化:基于优化数据布局和访问模式,减少数据传输的延迟和带宽消耗,特别是在大规模分布式训练和推理任务中表现出色。

    3FS的性能表现

    • 大规模读取吞吐量:在由 180 个存储节点组成的集群中,每个存储节点配备 2×200Gbps InfiniBand 网卡和 16 个 14TiB NVMe SSD。大约 500+ 个客户端节点用于读压测,每个客户端节点配置 1x200Gbps InfiniBand 网卡。在训练作业的背景流量下,最终聚合读吞吐达到约 6.6 TiB/s。
    • GraySort性能测试:3FS在GraySort基准测试中表现出色。GraySort是大规模数据排序测试,用在衡量分布式系统的数据处理能力。测试集群包括25个存储节点(每个节点2个NUMA域,每个域1个存储服务,2×400Gbps NIC)和50个计算节点(每个节点192个物理核心,2.2 TiB内存,1×200Gbps NIC)。在该测试中,3FS成功完成110.5 TiB数据的排序任务,分布在8192个分区中,耗时仅30分钟14秒,平均吞吐量达到3.66 TiB/min。
    • KVCache推理优化:KVCache是3FS为优化LLM(大语言模型)推理过程而设计的缓存技术,基于缓存解码层中的关键向量和值向量,避免重复计算。在KVCache的性能测试中,读取吞吐量峰值达到了40 GiB/s,显著提升推理效率。KVCache的垃圾回收(GC)操作也表现出高IOPS性能,确保缓存的高效管理和更新。

    3FS

    3FS的项目地址

    3FS的应用场景

    • 大规模AI训练:高效支持海量数据的快速读写,提升训练速度。
    • 分布式数据处理:优化数据加载和管理,支持随机访问,无需预取或洗牌。
    • 推理优化:通过KVCache缓存中间结果,减少重复计算,提升推理效率。
    • 检查点支持:提供高吞吐量的并行检查点功能,保障训练任务的稳定性和可恢复性。
    • 多节点计算环境:无缝集成到大规模集群,支持灵活扩展,满足不同规模的AI应用需求。
  • GPT-4.5 – OpenAI 推出的最强聊天模型

    GPT-4.5是什么

    GPT-4.5 是 OpenAI 推出的最新大型聊天模型,是目前规模最大、性能最强的聊天模型。基于扩展无监督学习,提升模式识别、知识广度和创意生成能力,减少了幻觉现象,让对话更自然、更符合人类交流习惯。GPT-4.5 的核心优势在于广泛的知识储备、更高的“情商”及对用户意图的精准理解,适合用于写作、编程、解决实际问题及创意设计等场景。GPT-4.5支持联网搜索、文件和图像上传功能。GPT-4.5 经过严格的安全测试,提升模型的安全性和可靠性。

    GPT-4.5

    GPT-4.5的主要功能

    • 自然语言对话:提供更自然、更温暖的对话体验,理解用户意图并给出贴合需求的回答。
    • 写作辅助:帮助用户进行创意写作、文案撰写、文章润色等,提供更连贯、更具创意的文本。
    • 编程支持:支持代码生成、调试和优化,处理复杂的编程任务和多步骤编码工作流。
    • 知识问答:拥有更广泛的知识储备,回答各种领域的问题,减少幻觉现象。
    • 多语言支持:支持多种语言的对话和写作,在一些罕见语言(如斯瓦希里语、约鲁巴语)上有显著提升。
    • 情感理解:更好地捕捉用户的情绪和需求,提供更贴心的建议或回应。
    • 支持多种输入方式:支持文本、文件和图像输入、GPT-4.5 支持联网搜索获取最新信息,提供更及时的答复。
    • API集成:支持Chat Completions API、Assistants API和Batch API将GPT-4.5集成到各种应用程序中。

    GPT-4.5的技术原理

    • 无监督学习的扩展:基于大规模无监督学习提升其性能。无监督学习是指模型在大量未标注的数据上进行训练,学习语言的模式和结构。GPT-4.5基于扩大计算资源、数据量及架构和优化创新,进一步提升模型对世界的理解能力。
    • 深度世界知识(Deep World Knowledge):在Microsoft Azure AI超级计算机上进行训练,整合更广泛的知识和更深入的世界理解。使模型在处理各种主题时更加可靠,减少了幻觉现象。
    • 人类协作训练:GPT-4.5基于新的可扩展技术,用小型模型生成的数据来训练更大型的模型。提高模型的可操控性、对细微差别的理解以及自然对话能力。基于人类偏好测试,GPT-4.5在对话的自然性和理解能力上优于前代模型。
    • 情感智能(EQ)的增强:GPT-4.5改进对人类意图的理解和情感智能,更好地捕捉对话中的隐含线索和期望。在对话中表现出更强的同理心和创造力,生成更符合人类交流习惯的内容。
    • 安全性和对齐:在训练过程中结合传统的监督微调(SFT)和人类反馈的强化学习(RLHF)方法,提高模型的安全性,确保行为符合人类价值观。

    GPT-4.5的性能表现

    • 知识问答(SimpleQA):GPT-4.5在SimpleQA数据集上的准确率达到62.5%,领先于OpenAI的其他模型。
    • 幻觉率:在SimpleQA的幻觉率评估中,GPT-4.5的幻觉率为37.1%(越低越好),显著低于其他模型。
    • PersonQA 数据集:在PersonQA数据集上,GPT-4.5的准确率达到了0.78,明显优于GPT-4o(0.28)和o1(0.55)。
    • 多语言性能:GPT-4.5在多语言评估(MMLU)中超越GPT-4o,尤其在罕见语言(如斯瓦希里语、约鲁巴语)上有明显提升。
    • 安全性和偏见检测:GPT-4.5在拒绝有害内容方面表现良好,在过度拒绝方面比前代模型稍高。
    • 编程和任务执行:在编程任务方面,GPT-4.5的代码生成和修复任务表现有所提升,尤其是在Agentic Tasks评估中能完成一些复杂任务,例如在Linux + Python环境中执行终端操作、自动下载和运行程序等。
    • 人类偏好测试:在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%)。

    GPT-4.5

    如何使用GPT-4.5

    • ChatGPT Pro 用户:2月28日起,ChatGPT Pro 用户可以使用 GPT-4.5 的研究预览版。
    • Plus 和 Team 用户:3月的第一周,GPT-4.5将逐步开放给 ChatGPT 的 Plus 和 Team 用户。
    • Enterprise 和 Edu 用户:3月的第二周,GPT-4.5将开放给 Enterprise(企业)和 Edu(教育)用户。

    GPT-4.5的项目官网

    GPT-4.5的产品定价

    • 输入成本:75美元/百万tokens
    • 输出成本:150美元/百万tokens

    GPT-4.5的应用场景

    • 写作辅助:帮助生成文本、润色内容,适合写作、文案创作等。
    • 编程支持:提供代码建议、调试帮助,提高编程效率。
    • 学习辅导:解答学术问题,辅助复习备考,适合学生和教育场景。
    • 沟通协作:自然对话,适合客服、团队协作和跨文化交流。
    • 任务自动化:处理复杂任务,支持多步工作流程,提升效率。
  • 腾讯混元Turbo S – 腾讯推出的新一代快思考模型

    腾讯混元Turbo S是什么

    腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂度,减少了KV-Cache缓存占用,显著提升了训练和推理效率。作为业界首次将Mamba架构无损应用于超大型MoE模型的实践,Turbo S在知识、数学、推理等多个领域表现出色,与DeepSeek V3、GPT-4o等领先模型相当。

    混元Turbo S的核心优势在于快速响应,能实现“秒回”,吐字速度提升一倍,首字时延降低44%。在短思维链任务(如数学、代码、逻辑推理)中表现优异,同时结合了混元T1慢思考模型的长思维链能力,兼顾稳定性和准确性。

    腾讯混元Turbo S

    腾讯混元Turbo S的主要功能

    • 快速响应能力:混元Turbo S能实现“秒回”,吐字速度提升一倍,首字时延降低44%,显著提升了交互的流畅性和用户体验。
    • 多领域知识与推理能力:在知识、数理、逻辑推理等多个领域表现出色,对标DeepSeek V3、GPT-4o等业界领先模型。
    • 内容创作与多模态支持:支持高质量的文学创作、文本摘要、多轮对话等功能,同时具备文字生成图像的多模态能力。
    • 低部署成本与高性价比:采用Hybrid-Mamba-Transformer融合架构,降低了传统Transformer的计算复杂度和部署成本。

    腾讯混元Turbo S的技术原理

    • Mamba架构的优势:Mamba架构基于状态空间模型(State Space Model, SSM),通过引入选择性机制(Selective Mechanism),能高效处理长序列数据。在处理长文本时表现出色,同时显著降低了计算复杂度和KV-Cache缓存占用。
    • Transformer架构的保留:Transformer架构擅长捕捉复杂的上下文关系,混元Turbo S保留了这一优势,同时通过融合Mamba架构,突破了传统Transformer在长文本处理和推理成本上的瓶颈。
    • MoE模型的优化:混元Turbo S是工业界首次成功将Mamba架构无损地应用在超大型MoE(Mixture of Experts)模型上。提升了模型的显存和计算效率,降低了训练和推理成本。
    • 长短思维链融合:在保持文科类问题的快速响应(快思考)体验的同时,混元Turbo S通过自研的长思维链数据,显著改进了理科推理能力,实现了模型整体性能的提升。

    腾讯混元Turbo S的性能表现

    • 知识领域
      • 在MMLU基准测试中,混元Turbo S得分为89.5,略低于DeepSeek V3的88.5,但高于其他模型。
      • 在MMLU-pro测试中,混元Turbo S得分为79.0,表现优于GPT4o-0806和Claude-3.5。
      • 在GPQA-diamond测试中,混元Turbo S得分为57.5,表现优于Llama3.1-405B和DeepSeek V3。
      • 在SimpleQA测试中,混元Turbo S得分为22.8,表现不如其他模型。
      • 在Chinese-SimpleQA测试中,混元Turbo S得分为70.8,表现优于GPT4o-0806和Claude-3.5。
    • 推理领域
      • 在BBH测试中,混元Turbo S得分为92.2,表现优于其他所有模型。
      • 在DROP测试中,混元Turbo S得分为91.5,表现优于GPT4o-0806和Claude-3.5。
      • 在ZebraLogic测试中,混元Turbo S得分为46.0,表现不如其他模型。
    • 数学领域
      • 在MATH测试中,混元Turbo S得分为89.7,表现优于GPT4o-0806和Claude-3.5。
      • 在AIME2024测试中,混元Turbo S得分为43.3,表现优于GPT4o-0806和Claude-3.5。
    • 代码领域
      • 在HumanEval测试中,混元Turbo S得分为91.0,表现优于GPT4o-0806和Claude-3.5。
      • 在LiveCodeBench测试中,混元Turbo S得分为32.0,表现不如其他模型。
    • 中文领域
      • 在C-Eval测试中,混元Turbo S得分为90.9,表现优于GPT4o-0806和Claude-3.5。
      • 在CMMLU测试中,混元Turbo S得分为90.8,表现优于GPT4o-0806和Claude-3.5。
    • 对齐领域
      • 在ArenaHard测试中,混元Turbo S得分为88.6,表现优于GPT4o-0806和Claude-3.5。
      • 在IF-Eval测试中,混元Turbo S得分为88.6,表现优于GPT4o-0806和Claude-3.5。

    腾讯混元turbo-s

    如何使用腾讯混元Turbo S

    • 腾讯云官网:混元Turbo S已在腾讯云官网正式上线,开发者和企业用户可以通过API调用该模型。
    • 腾讯元宝:模型将逐步在腾讯元宝APP中灰度上线,用户可以在APP内选择“Hunyuan”模型并关闭深度思考功能进行体验。
    • 免费试用:即日起,开发者和企业用户可以在腾讯云上通过API调用混元Turbo S,享受为期一周的免费试用。访问腾讯混元turbos模型API免费试用申请地址进行填写申请。
    • 未来计划:混元Turbo S将成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。

    腾讯混元Turbo S的模型定价

    • 模型定价:混元Turbo S的API调用定价为输入0.8元/百万tokens,输出2元/百万tokens。

    腾讯混元Turbo S的应用场景

    • 日常对话:适合快速问答、智能客服等场景。
    • 代码生成与逻辑推理:在数学、代码生成、逻辑推理等短思维链任务中表现优异。
    • 内容创作:支持高质量的文本生成和文生图功能。
  • VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

    VideoGrain是什么

    VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区域的控制能力,保持区域间的特征分离,解决现有扩散模型中语义错位和特征耦合的问题。VideoGrain 不依赖于额外的参数调整,能在真实世界场景中实现高质量的视频编辑,保持时间一致性。VideoGrain在多粒度编辑任务中表现出色,显著优于现有的 T2I 和 T2V 方法,为视频内容创作提供更灵活和精准的工具。

    VideoGrain

    VideoGrain的主要功能

    • 多粒度视频编辑:将视频中的多个对象分别编辑为不同类别(如将一个人编辑为“蜘蛛侠”,另一个人编辑为“北极熊”),或对对象的局部进行修改(如改变衣服颜色或添加配饰)。
    • 文本驱动的区域控制:基于自然语言提示精确控制视频中的特定区域,实现精准的编辑效果
    • 时间一致性:在编辑过程中,保持视频的时间连贯性,避免因编辑导致的帧间闪烁或不自然的过渡。
    • 无需参数调整:作为零样本方法,VideoGrain 不需对模型进行额外的训练或参数调整。
    • 高效计算性能:在实验中表现出较低的内存占用和较快的编辑速度,适合实时视频编辑应用。

    VideoGrain的技术原理

    • 交叉注意力调节:基于调节交叉注意力层,增强文本提示对目标区域的聚焦能力,同时抑制对无关区域的注意力。将文本提示与视频帧的空间区域进行绑定,基于调整查询-键对的注意力权重,使文本特征集中在对应的区域,实现文本到区域的精准控制。
    • 自注意力调节:在自注意力层中,增强区域内特征的自注意力,减少区域间的干扰。模型能避免因类别特征耦合导致的编辑错误(例如将不同实例视为同一类别)。确保每个查询只关注其目标区域,保持了特征的分离和编辑的独立性。

    VideoGrain的项目地址

    VideoGrain的应用场景

    • 影视制作:快速替换角色、修改场景或添加特效,提升后期制作效率。
    • 广告营销:灵活调整产品、人物或背景,快速适配不同广告需求。
    • 内容创作:为视频博主提供创意工具,轻松添加特效、修改场景或角色。
    • 教育培训:增强教学视频效果,通过修改内容吸引学生注意力。
    • 互动娱乐:实时修改游戏预告片或互动视频内容,提升用户体验。