Blog

  • Aligner – 北大推出的残差修正模型对齐技术

    Aligner是什么

    Aligner是北京大学团队提出的大语言模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。采用自回归的 seq2seq 模型,在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上训练,无需依赖复杂的强化学习从人类反馈(RLHF)流程。 Aligner 的核心优势在于高效性和灵活性。作为即插即用的模块,可以直接应用于各种开源和基于 API 的模型,无需访问模型参数。

    Aligner

    Aligner的主要功能

    • 修正残差学习:Aligner 作为自回归的 seq2seq 模型,在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上训练,学习对齐与未对齐答案之间的差异,实现了更精准的模型对齐。
    • 弱到强泛化:使用小参数量的 Aligner 模型对大参数量的 LLMs 进行微调,可以显著提升强模型的性能。
    • 即插即用:Aligner 能对齐如 GPT3.5、GPT4 和 Claude2 等无法获取参数的模型。
    • 训练过程
      • 数据收集:从各种开源数据集中获取问题(Query),生成原始答案。
      • 答案修正:使用 GPT-4、Llama2-70B-Chat 和人工标注来修正原始答案,符合人类价值观。
      • 模型训练:基于修正后的数据集,训练 Aligner 模型,能将原始答案修正为对齐的答案。

    Aligner的性能表现

    • 提升帮助性和安全性:实验表明,使用 Aligner-7B 能提高 GPT-4 的帮助性和安全性,分别增加了 17.5% 和 26.9%。
    • 弱到强泛化:基于 Aligner-13B 监督下微调 Llama2-70B,帮助性和安全性分别提升了 8.2% 和 61.6%。
    • 多模型兼容性:Aligner-7B 对齐提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。

    Aligner的项目地址

    Aligner的应用场景

    • 多轮对话场景:在多轮对话中,Aligner 可以改善对话的对齐效果,在稀疏奖励的挑战下。
    • 人类价值向奖励模型的对齐:Aligner 可以通过特定语料训练,修正前置模型的输出以反映特定的价值观。
    • MoE-Aligner 的流式化和并行处理:通过将 Aligner 专门化处理并集成,可以创建更强大且全面的混合专家(MoE)Aligner。
  • LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架

    LalaEval是什么

    LalaEval是香港中文大学和货拉拉数据科学团队共同推出的面向特定领域大语言模型(LLMs)的人类评估框架,框架通过一套完整的端到端协议,涵盖领域规范、标准建立、基准数据集创建、评估规则构建以及评估结果的分析和解释。核心特点是通过争议度和评分波动分析,自动纠正人工主观错误,生成高质量的问答对。LalaEval采用了单盲测试原理,确保评分的客观性和公正性。已在物流领域成功应用。

    LalaEval

    LalaEval的主要功能

    • 领域范围界定:明确特定领域的范围和边界,与组织的目标或业务需求相关。在物流领域,从最底层的子领域(如同城货运)逐步上升到更广泛的子域。
    • 能力指标构建:定义评估LLMs性能、效果或适用性的能力维度,包括通用能力和领域能力。通用能力如语义理解、上下文对话、事实准确性等;领域能力则涉及概念和术语理解、行业政策知识等。
    • 评测集生成:开发标准化测试并从经过审查的信息源中收集数据,在一致的条件下进行评估。
    • 评测标准制定:设计详细的评分方案,为人类评估者提供结构化框架,确保评估的科学性和可靠性。
    • 结果统计分析:系统地检查评估过程中的数据,通过评分争议度、题目争议度、评分波动性等分析框架,自动化实现评分结果质检、低质量QA对二次识别和评分波动原因量化归因。

    LalaEval的技术原理

    • 单盲测试原理:在评估过程中,模型的响应被匿名化并以随机顺序呈现给至少三名人类评估者。
    • 争议度和评分波动分析:LalaEval通过建立评分争议度、题目争议度和评分波动性三大分析框架,自动检测和纠正人工评分中的主观性错误。
    • 结构化评估流程:LalaEval采用端到端的评估流程,涵盖领域范围界定、能力指标构建、评测集生成、评测标准制定以及结果统计分析。
    • 动态交互的部署结构:LalaEval的部署结构强调模块化和动态交互,能根据不同的业务场景灵活调整评估流程,确保框架在不同领域的可扩展性。

    LalaEval的项目地址

    LalaEval的应用场景

    • 物流领域大模型评估:LalaEval针对同城货运等具体业务场景。通过明确领域范围、构建能力指标、生成评测集和制定评估标准,LalaEval能对大语言模型在物流行业的表现进行科学评估,帮助企业优化物流业务流程。
    • 邀约大模型的评测:在司机邀约场景中,LalaEval通过模拟真实对话场景,评估大模型在自动邀约任务中的表现。
    • 企业内部大模型的定制与优化:LalaEval为企业提供了一种标准化的评估方法,能根据企业自身的业务需求动态生成评测集,通过自动化分析减少人工主观性。
    • 跨领域应用的扩展性:设计遵循模块化和动态交互原则,能灵活扩展到其他领域。
  • Stackie.AI – AI记录与生成应用,自动进行内容格式化和分类

    Stackie.AI是什么

    Stackie.AI是创新的智能记录与生成应用,通过AI技术帮助用户高效整理和管理生活中的各种信息。支持笔记、跟踪器、备忘录等多种功能,能将用户随意的想法转化为有组织、可操作的任务。用户可以使用无限模板和生成式AI,快速创建个性化的笔记、清单、摘要等,可以模拟特定角色进行互动对话。 Stackie.AI 的核心优势在于自动整理和自动补全功能,能减少用户手动输入和格式化的时间,更专注于内容创作。支持多模态输入,包括文本、语音和图像,满足不同用户的使用习惯。

    Stackie.AI

    Stackie.AI的主要功能

    • 多模态输入:支持文本、语音和图像输入,用户可以根据自己的习惯选择最便捷的方式记录信息。
    • 自动整理与分类:AI 会自动将输入的内容进行格式化和分类,无需手动调整格式,让记录更加高效。
    • 个性化互动:用户可以与AI进行对话,模拟特定角色(如朋友、导师等)进行互动,记录过程更加有趣。
    • 无限模板:提供丰富的模板库,涵盖笔记、清单、备忘录、健康跟踪等多种场景,用户也可以根据需求自定义模板。
    • 任务生成:将随意的想法转化为有序的任务列表,帮助用户更好地规划和执行。
    • 智能提醒:设置提醒功能,确保重要事项不会遗漏。
    • 健康跟踪:支持卡路里记录、睡眠监测、咖啡因和糖摄入监控等功能,帮助用户管理健康。
    • 心理健康支持:提供感恩日记、情绪记录等功能,帮助用户提升心理健康。
    • 学习辅助:记录学习笔记、问题解答,支持语言学习等功能,帮助用户提升学习效率。
    • 创意整理:将碎片化的想法整合成有条理的笔记、清单或计划,激发创意。
    • 快速生成:基于AI技术快速生成摘要、重点、简报等内容,提升工作效率。
    • 个性化“堆栈”:用户可以创建个性化的“堆栈”,如一个睡眠日志或学习计划,也可以根据模板进行调整。

    Stackie.AI的官网地址

    Stackie.AI的应用场景

    • 健康与保健:记录卡路里、咖啡因摄入量、睡眠情况等健康指标,支持个人成长或治疗目标。
    • 心理健康:创建日记、情绪日记或心理健康追踪器,通过AI生成的见解进行反思。
    • 日常计划与任务管理:通过自定义模板组织待办事项、管理日程,并设置提醒。
    • 习惯养成:设定日常习惯目标并自动记录进展,促进习惯的坚持。
  • Cherry Studio – 多模型AI客户端,内置 300 多个 AI 助手

    Cherry Studio是什么

    Cherry Studio 是功能强大的多模型桌面客户端,支持 Windows、macOS 和 Linux 系统。集成了多种主流的大语言模型(如 OpenAI、DeepSeekGemini 等)以及本地模型运行功能,用户可以根据需求自由切换云端和本地模型,同时与多个模型对话,方便对比输出结果。Cherry Studio 内置了 300 多个预配置的 AI 助手,涵盖写作编程、设计等多个领域,用户可以自定义助手的角色和功能。 支持多种文件格式(如文本、PDF、图像等),具备全局搜索、代码高亮、流程图可视化等功能,同时提供数据备份和多设备同步支持,确保数据安全。

    Cherry Studio

    Cherry Studio的主要功能

    • 多模型支持
      • 主流云服务集成:支持 OpenAI、Gemini、Anthropic 等主流 AI 云服务。
      • 本地模型支持:通过 Ollama 集成,支持本地模型运行,确保数据隐私。
      • 多模型对话:可同时与多个模型对话,方便比较不同模型的输出结果。
    • AI 助手与对话
      • 预配置 AI 助手:内置 300+ 预配置的 AI 助手,涵盖写作、编程、设计等多个领域。
      • 自定义助手:用户可根据需求自定义助手的角色、语气和功能。
      • 对话记录保存:所有对话记录均可保存,方便随时查阅。
    • 文档与数据处理
      • 多格式支持:支持文本、图像、PDF、Office 文档等多种文件格式。
      • WebDAV 文件管理:支持 WebDAV 文件管理与数据备份,确保数据安全。
      • 数据可视化:支持 Mermaid 图表可视化,方便信息展示。
    • 实用工具集成
      • 全局搜索:快速定位本地或云端的文件和助手配置。
      • AI 翻译:支持多种语言之间的精准翻译。
      • 代码高亮:支持多种编程语言的语法高亮。

    Cherry Studio的官网地址

    Cherry Studio的应用场景

    • 文本创作:作家和内容创作者可以用 Cherry Studio 的文本生成功能,快速构思故事、撰写文章、生成创意文案等。
    • 代码生成与调试:开发者可以用 Cherry Studio 生成代码片段、进行代码审查和调试,显著提高开发效率。
    • 本地模型运行:支持通过 Ollama 部署本地模型,确保数据隐私的同时,能根据需求快速调用模型。
    • 数据分析:研究人员可以用其多模态对话和文件上传功能,进行复杂的数据分析和研究。
    • 文献处理:支持 PDF、DOCX 等多种文件格式,能快速提取关键信息、生成内容摘要,适合学术研究和文献综述。
  • SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型

    SpeechGPT 2.0-preview是什么

    SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。能精准控制语速、情感、风格和音色,实现智能切换。SpeechGPT 2.0-preview 具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。

    SpeechGPT 2.0-preview

    SpeechGPT 2.0-preview的主要功能

    • 情感与风格控制:支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,角色扮演能力突出。
    • 实时打断交互:百毫秒级响应速度支持自然对话中的即时打断与续接。
    • 文本能力集成:在语音表现力基础上,保留文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能。
    • 多任务兼容性:可处理长文档解析、多轮对话等场景,兼容短文本任务的性能未因长上下文能力而降低。

    SpeechGPT 2.0-preview的技术原理

    • 端到端语音建模
      • 超低比特率流式语音 Codec:自研的超低比特率流式语音 Codec,能够处理 24khz 的语音输入,将语音压缩至每秒 75 个 token,支持流式输入输出,实现 200ms 以内延迟的实时交互。
      • 语义-声学联合建模:通过语义-声学联合建模,直接处理语音输入并生成语音或文本输出,无需传统级联式 ASR(语音识别)和 TTS(语音合成)模块。
    • 语音-文本混合建模
      • Codec Patchify:通过 Codec Patchify 技术聚合相邻时间步的语音 token 为统一向量,有效减小语音和文本序列之间的模态差异,缓解跨模态建模中的冲突问题。
      • 多阶段训练流程:包括模态适应预训练、跨模态指令微调和链式模态微调,兼顾文本能力与语音能力,避免模型在学习语音能力时降低智商。
    • 语音文本对齐预训练:通过充分的语音文本对齐预训练,模型可以“涌现”出语音风格的泛化性,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。
    • 模型架构设计
      • 语音文本联合建模:speech-text LLM 会同时输入和输出语音和文本表示,LLM 的隐藏状态同时用于语音和文本的解码任务。
      • 多解码头的自回归语言模型:设计了具有多解码头的自回归语言模型作为 patch decoder,能通过自回归方式逐步解码,每次生成一个时间步的多个 RVQ codec token,输出语音。

    SpeechGPT 2.0-preview的项目地址

    SpeechGPT 2.0-preview的应用场景

    • 智能助手:可用于客服、教育或医疗等领域的智能助手,提供实时口语练习、情感陪伴等服务。
    • 内容创作:自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式。
    • 无障碍通信:为听障或言语障碍者提供实时语音转文字及合成服务。
  • CityDreamer4D – 南洋理工推出的无边界 4D 城市建模框架

    CityDreamer4D是什么

    CityDreamer4D是南洋理工大学 S-Lab 团队开发的用于生成无边界 4D 城市的组合生成模型。将动态物体(如车辆)与静态场景(如建筑和道路)分离,通过三个模块——建筑实例生成器、车辆实例生成器和城市背景生成器,基于高效的鸟瞰图场景表示法来生成城市场景。模型构建了包括 OSM、GoogleEarth 和 CityTopia 在内的多个数据集,涵盖多视角和多光照条件。CityDreamer4D 能生成逼真的 4D 城市,支持城市风格化、局部编辑和城市模拟等应用。

    CityDreamer4D

    CityDreamer4D的主要功能

    • 无边界 4D 城市生成:通过分离动态物体(如车辆)和静态场景(如建筑和道路),CityDreamer4D 能生成包含时间和空间维度的动态城市场景。支持生成无限扩展的城市布局,同时保持多视角一致性。
    • 实例编辑与局部修改:CityDreamer4D 支持对建筑和车辆实例进行局部编辑,例如修改车辆的位置和风格,或调整建筑的高度和外观,不影响其他场景元素。
    • 城市风格化:模型支持对生成的城市进行风格化处理,例如将城市风格转换为《我的世界》或赛博朋克风格,保持多视角一致性。
    • 城市模拟:CityDreamer4D 可以作为强大的城市模拟工具,生成逼真的 4D 城市场景,支持街景和航拍视角,适用于自动驾驶、城市规划和虚拟现实等应用。
    • 数据集支持:开发团队构建了多个数据集,包括 OSM(OpenStreetMap)、GoogleEarth 和 CityTopia,涵盖多视角和多光照条件。

    CityDreamer4D的技术原理

    • 分离动态与静态元素:CityDreamer4D 将动态物体(如车辆)与静态场景(如建筑和道路)分离,分别由不同的生成器处理。
    • 模块化生成:模型由三个主要模块组成:
      • 建筑实例生成器(Building Instance Generator):负责生成建筑实例,使用对象中心坐标空间来捕捉建筑的紧凑形状。
      • 车辆实例生成器(Vehicle Instance Generator):生成车辆实例,采用对象规范坐标空间,结合周期性位置编码。
      • 城市背景生成器(City Background Generator):生成背景元素(如道路、植被等),使用生成性哈希网格来处理背景的不规则纹理。
    • 鸟瞰图场景表示法:为了提高效率和可扩展性,CityDreamer4D 采用了高效的鸟瞰图(BEV)场景表示法。通过紧凑的 BEV 地图来描述城市布局,结合高度图来表示建筑高度,支持无边界扩展。
    • 神经场组合:模型基于面向背景和面向实例的神经场来生成背景元素和实例(建筑和车辆)。能有效捕捉城市中不同元素的多样性和独特性。

    CityDreamer4D的项目地址

    CityDreamer4D的应用场景

    • 城市模拟与规划:CityDreamer4D 可以作为强大的城市模拟工具,生成逼真的 4D 城市场景,支持动态物体(如车辆)和详细环境的生成。
    • 局部编辑与定制化:借助其组合式架构,CityDreamer4D 支持对建筑和车辆实例的局部编辑。可以独立修改车辆的位置和风格,或调整建筑的高度和外观,不会影响其他场景元素。
    • 城市风格化:CityDreamer4D 支持城市风格化处理,能将《我的世界》(Minecraft)或赛博朋克(Cyberpunk)等不同风格无缝应用于整个城市。
    • 多视角一致性:在生成的 4D 城市中,CityDreamer4D 能确保多视角一致性,支持街景和航拍视角的生成。
  • VARGPT – 北大推出的多模态理解生成统一模型

    VARGPT是什么

    VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在LLaVA架构基础上进行扩展,通过next-token预测实现视觉理解,通过next-scale预测实现视觉生成,能高效处理混合模态输入和输出。 VARGPT采用三阶段训练策略:预训练阶段学习语言和视觉特征,混合视觉指令微调阶段进一步对齐视觉和文本特征并增强指令遵循能力。使模型在视觉问答、推理等任务上表现优异,同时在视觉生成任务中展现出强大的能力,能自然地生成高质量图像。

    VARGPT

    VARGPT的主要功能

    • 视觉理解与生成的统一:VARGPT是多模态大语言模型,能在单一的自回归框架内实现视觉理解和视觉生成。通过next-token预测范式完成视觉理解任务,如视觉问答和推理,基于next-scale预测范式实现视觉生成。
    • 混合模态输入与输出:VARGPT支持文本和图像的混合模态输入,能同时输出文本和图像。在处理复杂的视觉-语言任务时更加灵活和高效。
    • 高效视觉生成:VARGPT配备了专门的视觉解码器,包含20亿参数,用于高质量的视觉生成。能根据文本指令生成图像,在自回归过程中逐步构建图像内容。
    • 多模态任务的广泛适用性:VARGPT在多个视觉中心的基准测试中表现优于其他模型,能自然地支持指令到图像的合成,适用于多种视觉-语言任务。

    VARGPT的技术原理

    • 统一的自回归框架:VARGPT将视觉理解和生成任务统一在一个自回归框架内。对于视觉理解,模型采用next-token预测范式,即通过预测下一个文本标记来完成视觉问答和推理任务;对于视觉生成,采用next-scale预测范式,逐步预测图像的下一个尺度信息。使模型能在单一框架内高效处理视觉和语言任务。
    • 视觉解码器与特征映射:VARGPT包含一个专门的视觉解码器,拥有20亿参数,用于高质量的视觉生成。解码器由30个Transformer块组成,每个块包含30个注意力头,宽度为1920,采用自适应归一化(AdaLN)。
    • 多尺度标记化:为了支持视觉生成,VARGPT使用了多尺度变分自编码器(VAE)架构,类似于VAR模型。架构通过多尺度量化方案将图像分解为不同尺度的标记,词汇表大小为4090,训练数据为OpenImages数据集。
    • 混合模态输入与输出:VARGPT支持文本和图像的混合模态输入,能同时输出文本和图像。模型通过特殊的标记和提示格式,灵活地在文本和视觉模态之间切换,实现混合模态生成。
    • 三阶段训练策略
      • 预训练阶段:学习文本和视觉特征之间的映射关系。
      • 混合视觉指令微调阶段:通过构造视觉生成指令数据集,结合多轮对话指令数据集进行混合训练,增强模型在视觉问答和指令到图像合成任务中的能力。

    VARGPT的项目地址

    VARGPT的应用场景

    • 视觉问答与推理:VARGPT能处理复杂的视觉问答任务,通过理解图像内容并生成准确的文本回答。
    • 指令到图像生成:VARGPT支持根据文本指令生成高质量图像。可以通过简单的文字描述来生成特定场景的图像。
    • 多模态内容创作:VARGPT能处理混合模态输入和输出,支持文本与图像的无缝切换。输入文本描述,模型生成相应的图像,或者根据图像生成相关的文本内容。
    • 创意与娱乐:VARGPT的图像生成能力可以应用于创意和娱乐领域,生成个性化的艺术作品、虚拟角色等。
  • YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型

    YuE是什么

    YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士、嘻哈等,并且支持英语、中文、日语和韩语等多种语言。YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决了音乐生成中的长上下文、复杂音乐信号、语言内容失真等挑战,生成的歌曲具有连贯的音乐结构和吸引人的声乐旋律。模型完全开源,用户可以自由使用和修改代码。提供了灵活的生成选项,用户可以通过简单的命令行参数调整生成歌曲的风格、声乐类型等细节。

    YuE

    YuE的主要功能

    • 歌词转歌曲:能将输入的歌词转化为完整的歌曲,包含主唱和伴奏。
    • 多种音乐风格支持:支持流行、金属、爵士、嘻哈等多种音乐风格。
    • 高质量生成:通过多种技术优化,确保生成的歌曲连贯且高质量。
    • 多语言支持:支持英语、中文、日语和韩语等多种语言。
    • 长时间音乐创作:可以生成长达 5 分钟的完整歌曲。
    • 开源与可定制:代码和模型完全开源,用户可以自由使用和修改。
    • 情感和风格匹配:能根据歌词的情感基调生成匹配的音乐风格。
    • 跨模态应用:可以与其他多模态模型结合,用于多媒体艺术创作。

    YuE的技术原理

    • 语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛。能更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。
    • 双分词技术:YuE 提出了一种双分词技术,用于在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模。模型可以在生成主唱部分的同时,同步生成合适的伴奏,确保两者在节奏和旋律上的协调性。
    • 歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲。使模型能更好地处理长上下文信息,确保生成的歌曲在整体结构上保持连贯性。
    • 三阶段训练方案:YuE 采用了三阶段训练方案,确保更好的可扩展性、音乐性和歌词可控性。具体来说:
      • 第一阶段:基础模型训练,学习音乐生成的基本模式。
      • 第二阶段:风格和情感对齐,通过大量样本来调整模型,能生成特定风格和情感的音乐。
      • 第三阶段:偏好纠正,通过强化学习等技术进一步优化生成结果,确保生成的音乐更符合人类的审美标准。

    YuE的项目地址

    YuE的应用场景

    • 音乐创作:音乐创作者可以用 YuE 快速生成旋律和伴奏,激发创作灵感。根据用户提供的歌词,生成符合其情感和风格需求的个性化歌曲。
    • 影视与视频制作:为电影、电视剧和短视频生成背景音乐,匹配不同场景的情感和氛围。为广告制作朗朗上口的铃声,有效传达品牌信息。
    • 游戏音乐:为游戏生成匹配场景的背景音乐,增强游戏的沉浸感。
    • 社交媒体内容:为 TikTok 和 Instagram 等平台上的短视频生成独特的背景音乐。
  • Refly – AI原生内容创作平台,结合自由画布与多种 AI 功能

    Refly是什么

    Refly是基于“自由画布”理念的 AI 原生创作平台,帮助创作者高效地将创意转化为高质量内容。通过多线程对话、知识库集成、上下文记忆和智能搜索等技术,支持用户在自由画布上进行多主题探讨和创作。用户可以一键导入专业资料, AI智能搜索快速定位核心内容,通过知识库整合构建个性化知识体系。Refly提供个性化写作环境和专业工具,结合 AI 编辑助手,确保内容的高质量输出。

    Refly

    Refly的主要功能

    • 自由画布
      • 多线程对话:用户可以在画布上同时开展多个主题的对话,每个对话线程独立且互不干扰,适合多任务处理。
      • 自由发散思维:支持用户在画布上自由记录灵感和想法,通过 AI 辅助梳理思路,帮助用户更好地组织内容。
    • 知识管理
      • 知识库集成:用户可以一键导入论文、网页、文档等资料,构建个性化的知识库。
      • 智能检索:通过 AI 搜索功能,快速定位知识库中的关键信息,支持语义理解和精准检索。
    • 上下文记忆:Refly能精准记忆上下文,确保对话的连贯性和一致性,支持用户在不同时间点继续之前的对话。
    • 智能写作
      • AI辅助创作:提供 AI 写作助手,能根据用户输入生成高质量的文本内容,支持多种文体和风格。
      • 内容优化:自动检查语法错误、优化句子结构,提供写作建议,提升内容质量。
    • 文档编辑
      • Markdown 支持:支持 Markdown 语法编辑,方便用户快速排版和格式化文档。
      • 实时协作:支持多人实时协作,团队成员可以在同一画布上共同创作和编辑内容。

    Refly的官网地址

    Refly的应用场景

    • 学术研究:帮助研究人员整理思路、构建研究框架,快速生成文献综述和研究报告。
    • 内容创作:为作家、博主提供灵感激发和内容生成工具,提升创作效率。
    • 商业文档:支持企业撰写报告、提案等商业文档,确保内容的专业性和准确性。
  • MobileVD – 首个针对移动设备优化的视频扩散模型

    MobileVD是什么

    MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散模型,Qualcomm AI Research团队开发。模型基于Stable Video Diffusion(SVD)的时空UNet架构,通过降低帧分辨率、引入多尺度时间表示以及采用两种新颖的剪枝方案来减少通道数和时间块数量,显著降低了内存和计算成本。MobileVD基于对抗微调技术,将去噪过程简化为一步完成,进一步提高了模型的效率。

    MobileVD

    MobileVD的主要功能

    • 降低帧分辨率:将视频帧的分辨率从1024×576降低到512×256,减少了计算量。
    • 多尺度时间表示:引入多尺度时间表示,以更好地处理视频的时间动态。
    • 通道和时间块剪枝:通过两种新颖的剪枝方案,减少了UNet中的通道数和时间块数量。
    • 对抗微调:采用对抗微调技术,将去噪过程简化为一步完成,进一步提高了模型的效率。

    MobileVD的项目地址

    MobileVD的应用场景

    • 短视频生成:用户可以用MobileVD在手机上快速生成高质量的短视频,用于社交媒体分享。
    • 视频编辑:在视频编辑应用中,MobileVD可以作为背景视频生成器,为用户提供丰富的视频素材。
    • 游戏视频:在游戏开发中,MobileVD可以用于生成游戏内的视频内容,如开场动画和过场视频。
    • 娱乐应用:在娱乐应用中,MobileVD可以生成有趣的视频内容,如搞笑视频和特效视频。
    • 定制化视频:用户可以根据自己的需求,通过MobileVD生成个性化的视频内容,如添加自定义文本和配音。
    • 互动视频:在互动视频应用中,MobileVD可以实时生成与用户互动相关的视频内容,增强用户体验。