Blog

  • DeepSeek-R1-Safe – 浙大联合华为推出的安全大模型

    DeepSeek-R1-Safe是什么

    DeepSeek-R1-Safe 是浙江大学网络空间安全学院和华为合作推出的基于DeepSeek衍生的安全大模型。模型基于华为昇腾芯片和 MindSpeedLLM 框架,通过构建安全语料、安全监督训练和强化学习等步骤,显著提升模型的安全性和合规性。模型开源了满血版权重,适用安全训练、微调和测试,广泛应用在需要高安全性的场景,如网络安全、数据保护等。

    DeepSeek-R1-Safe

    DeepSeek-R1-Safe的主要功能

    • 安全防护功能:模型能有效识别和抵御多种有害内容及越狱攻击,防御成功率高,显著提升模型安全性。
    • 通用性能保持:在保持强大安全性能的同时,通用性能损耗极低,实现安全与性能的平衡优化。
    • 安全训练与优化:通过安全监督训练和强化学习等技术,引导模型主动识别风险并进行合规推导,提升安全性和鲁棒性。
    • 安全语料构建与应用:构建高质量安全语料,融入安全思维链,为模型训练提供坚实数据基础,增强模型安全能力。

    DeepSeek-R1-Safe的技术原理

    • 全栈式安全训练框架:从底层入手,构建一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架,将安全能力深度嵌入模型的“思考”与“表达”之中。
    • 安全语料构建:通过系统梳理全球13个国家24项法律法规,构建覆盖14类主流风险的合规基准,实现语料的多元维度融合。创建“风险问题-安全思维链-安全回答”三元组语料库,融入显式安全思维链,使模型具备主动风险判断与合规推导能力。引入前沿越狱方法丰富攻击样本策略,引导模型有效抵御诱导。
    • 安全训练范式:首创安全核心思维模式预对齐机制,在基础训练前提炼安全语料中的核心思维模式与模型认知架构预对齐,实现快速安全思维引导。首创动态感知高效精准补偿机制,通过代表性数据微调非安全相关参数快速补偿性能。首创多维可验证安全强化学习机制,提出多维细粒度安全奖励信号体系,创新运用性能-安全帕累托最优组合策略,使模型在对抗性环境中学会自主权衡与决策,实现安全与通用能力的协同优化。

    DeepSeek-R1-Safe的项目地址

    • GitHub仓库:https://github.com/ZJUAISafety/DeepSeek-R1-Safe

    DeepSeek-R1-Safe的应用场景

    • 网络安全防护:模型能有效识别和过滤网络中的有害信息,防止恶意内容传播,保护网络环境的安全和稳定。
    • 数据安全保护:在数据处理和存储过程中,确保数据的合规性和安全性,防止数据泄露和滥用。
    • 内容审核与管理:用在社交媒体、新闻平台等内容审核,自动检测和过滤违规内容,提升内容管理效率。
    • 智能客服与对话系统:为智能客服和对话系统提供安全可靠的内容生成能力,避免生成不当或有害的回复。
    • 金融风险防控:在金融领域,用在检测和防范欺诈行为,保护用户资金安全,维护金融秩序。
  • TrafficVLM – 高德推出的交通视觉语言模型

    TrafficVLM是什么

    TrafficVLM是高德导航推出的基于大模型技术的交通视觉语言模型,通过交通孪生还原能力,将海量实时交通数据转化为动态孪生视频流,构建出与现实世界同步的“数字交通世界”。基于通义Qwen-VL为底座,TrafficVLM能精准感知交通元素,分析车辆互动关系,实时推理交通态势,生成最优决策建议。模型赋予驾驶者“天眼”视角,让用户全面了解全局交通状况,突破局部视野限制,从容应对潜在风险,提升驾驶体验。应用商店更新最新版高德地图即可体验最新模型。

    TrafficVLM

    TrafficVLM的主要功能

    • 全局交通态势感知:通过交通孪生还原技术,将实时交通数据转化为动态孪生视频流,构建与现实世界同步的“数字交通世界”,让用户全面了解全局交通状况,突破局部视野限制。
    • 实时交通态势推理:以分钟级频率对沿途交通态势进行实时推理,快速识别前方交通状况(如拥堵、事故等),生成最优决策建议,如路线调整或拥堵成因解释。
    • 交通元素语义理解:基于通义Qwen-VL底座,对交通元素(如车辆、道路、交通标志等)具备语义理解能力,能精准识别、分析车辆间的互动关系,为用户提供更准确的导航建议。
    • 智能决策支持:结合实时交通数据和历史动态分析,预测交通拥堵趋势,生成最优决策建议,帮助用户提前规划行程,避免拥堵,提升驾驶体验。

    TrafficVLM的技术原理

    • 交通孪生还原技术:通过采集海量实时交通数据(如车辆位置、速度、道路状况等),基于先进的数据处理和建模技术,将数据转化为动态孪生视频流,构建出与现实世界完全同步的“数字交通世界”。
    • 通义Qwen-VL底座:基于通义Qwen-VL大模型,通过强化学习和数据训练,适配地图和交通孪生还原视觉模态,使模型对交通元素具备语义理解能力,能进行复杂的交通分析任务。
    • 智能闭环系统:从感知交通元素到分析交通态势,再到生成决策建议,形成完整的智能闭环。模型能实时感知交通元素,分析车辆间的互动关系,结合当下交通流及历史动态,生成最优决策建议。
    • 多模态数据融合:模型融合多种数据源(如卫星图像、传感器数据、用户反馈等),提升模型的准确性和可靠性。通过多模态数据的融合,模型能更全面地理解和预测交通状况。

    TrafficVLM的应用场景

    • 日常通勤:帮助用户实时了解路况,提前规划最优路线,避开拥堵,节省通勤时间。
    • 长途驾驶:提供全局交通态势感知,提前预警前方事故或拥堵,确保长途旅行安全顺畅。
    • 城市出行:在复杂的城市交通环境中,快速分析交通流,为用户提供精准的导航建议,提升出行效率。
    • 特殊事件应对:在遇到交通事故、道路施工等特殊情况时,提供绕行方案,减少等待时间。
    • 公共交通规划:为公交、出租车等公共交通提供实时路况支持,优化运营路线,提高服务质量。
  • LSP(Language Self-Play) – Meta推出的强化学习方法

    LSP是什么

    LSP(Language Self-Play)是Meta提出的一种强化学习方法,解决大型语言模型对大量高质量训练数据的依赖问题。LSP的核心思想是利用自我博弈的方式,让同一模型在挑战者和解题者两种角色之间切换。挑战者负责生成难题,目标是“难住”解题者;解题者则负责回答问题,目标是给出高质量的答案。这种对抗过程遵循极小极大博弈规则,通过动态对抗实现模型的自我改进。LSP通过特定的提示词来切换模型角色,避免了训练独立对抗模型的复杂性。在训练过程中,LSP使用KL散度正则化,防止挑战者生成无意义的对抗序列,并引入“自我质量奖励”引导高质量交互。实验表明,LSP在没有额外数据的情况下,能显著提升基础模型性能,尤其在对话任务上表现突出。

    LSP

    LSP的主要功能

    • 角色切换与自我博弈:LSP通过让同一模型在挑战者和解题者两种角色之间切换,形成动态对抗关系,挑战者生成难题,解题者回答问题,通过这种对抗实现模型的自我改进。
    • 提示词控制:利用特定的提示词来切换模型的角色,避免了训练独立对抗模型的复杂性和额外开销。
    • KL散度正则化:在训练过程中使用KL散度正则化,防止挑战者生成无意义的对抗序列,确保对抗过程的有效性和合理性。
    • 自我质量奖励:引入“自我质量奖励”机制,引导博弈朝高质量交互发展,提升模型在对抗过程中的表现。
    • 数据驱动的强化学习:LSP可以在没有额外数据的情况下,通过自我博弈提升模型性能,尤其在对话任务上表现突出,为模型在数据受限环境下的自主学习提供了新的途径。
    • 后续训练阶段:LSP可以作为后续训练阶段,进一步提升已经经过数据驱动强化学习训练的模型性能,增强模型的适应性和稳定性。

    LSP的技术原理

    • 自我博弈框架:LSP基于自我博弈机制,将同一模型分为挑战者和解题者两个角色,通过角色之间的动态对抗来提升模型性能。
    • 角色切换机制:利用特定的提示词来控制模型在挑战者和解题者角色之间的切换,无需训练独立的对抗模型。
    • 极小极大博弈规则:挑战者的目标是最小化解题者的任务奖励,而解题者的目标是最大化任务奖励,遵循极小极大博弈的规则。
    • KL散度正则化:在训练过程中,使用KL散度正则化来防止挑战者生成无意义的对抗序列,确保对抗的有效性。
    • 自我质量奖励:引入“自我质量奖励”机制,引导模型在对抗过程中生成高质量的交互内容。
    • 无数据依赖训练:LSP可以在不依赖额外训练数据的情况下,通过自我博弈提升模型性能,尤其适用于数据受限的场景。
    • 强化学习优化:通过强化学习的方式,动态调整模型的策略,以实现更好的对抗效果和性能提升。

    LSP的项目地址

    • arXiv技术论文:https://arxiv.org/pdf/2509.07414

    LSP的应用场景

    • 数据受限环境:在训练数据有限或难以获取的情况下,LSP可以通过自我博弈的方式提升模型性能,减少对大量标注数据的依赖。
    • 对话系统优化:在对话任务中,LSP能通过角色切换和对抗训练,提高对话系统的应变能力和回答质量,增强用户体验。
    • 模型校准与微调:作为后续训练阶段,LSP可以对已经经过数据驱动训练的模型进行进一步校准和微调,提升模型的适应性和稳定性。
    • 创造性任务:在需要创造性输出的任务中,如故事生成、创意写作等,LSP的对抗机制可以激发模型生成更多样化和高质量的内容。
    • 教育与学习:在教育领域,LSP可以用于开发智能辅导系统,通过模拟师生互动的方式,提升教学效果和学习体验。
    • 游戏与娱乐:在游戏开发中,LSP可以用于生成更具挑战性的游戏情节或对手,增强游戏的趣味性和互动性。
  • 豆包变装视频教程,只需3步免费用AI复刻

    最近在某音上看到一堆变装视频,全是万赞起步的爆款。

    我认真研究了一下,发现这个形式很适合用AI来“邪修起号”——只需基础剪辑,也不用露脸。

    我已经摸索出一条可复制的捷径。

    两个AI工具,小白也能轻松复刻,做出足够炸的视频效果。

     

    01. 豆包做分镜

     

    水龙头变装视频可以拆解成两个部分:

    第一部分是人物发现水龙头,伸手去关水,这部分我们用首尾帧精准控制人物动作;

    第二部分是变装后的展示,直接用首帧生成视频即可。

    我们需要按照这个镜头顺序分别做出三张分镜图。

    比如要做豆包变装的视频,我们第一步是找一张豆包的图片作为参考图,然后输入下面的提示词,生成豆包在室内发现水龙头的分镜图。

    提示词:图片中的女生,面对镜头,背景是暖黄色墙面,室内,天花板灯带发出光亮,见光不见灯,镜头在洗手池上方,镜头方向微微仰起,画面前景:画面中心正上方,露出水龙头出水口,正流出一柱水流,挡住画面的1/10,比例3:4

    这样第一张图片就做好了:

    再将上面这张图作为参考图,让豆包做出关水的动作。

    提示词:女孩走近,女孩的右胳膊伸出画面外

    同样将上面这张图作为参考图,生成变装后的图。

    提示词:消除水流,其他不变。

    提示词:高清细节,高级配色,给女孩化上清新女团妆,深灰色美瞳,长长的睫毛,野生眉,玫瑰粉唇釉,发丝真实质感,大波浪卷,头发柔顺光亮,衣服换成精致的白色抹胸礼服。意大利风格高定宝石项链。背景昏暗紫色调,营造出一种神秘而迷人的氛围。空间布局不变,女孩姿势不变。

     

    02. 即梦生成视频

     

    我们把上面生成的三张分镜图在即梦里生成两段视频。

    用首尾帧生图,参考图为生成的第一张和第二张。

    提示词:女孩看向水龙头,往前走2步,抬起胳膊伸出屏幕外

    这样就得到了第一段视频:

    第二段视频使用换装后的图片作为首帧生成。

    提示词:氛围感,慢镜头,女孩微微低头看向镜头,极具魅力,一缕秀发在空中微微飘动

    第二段视频:

     

    03. 剪映拼接加背景音乐

     

    将素材导入剪映并拖入视频轨道,在两段视频直接,加上缩放运镜特效。

    在音效库中搜索水龙头出水声,添加到第一段视频下方,在背景音乐库中搜索水龙头变装,添加同款背景音乐,将音乐的鼓点和变装时刻对齐,导出即可。

    最终我们就得到了这样的变装视频:

     

    04. 更改变装风格及提示词

     

    再给大家分享一个有意思的风格,这一版是把我加入到变装视频里。

    这里我们需要先用豆包做出一张烟熏风格的豆包图。参考图为上面豆包生成的第二张。

    提示词:图中的女孩化上烟熏妆,冷酷的表情,精神小妹风,彩色的小脏辫,衣服换成精神小妹风格。背景五彩暗色调,氛围感。空间布局不变,女孩姿势不变

    这样就能得到一张烟熏妆豆包:

    然后在豆包中上传生成的图和我自己的头像,生成一张合照分镜图。

    提示词:图2中的女孩画风变为图1,在图1中加入图2中的女孩,图1女孩微微侧身,图2中带着VR眼镜的女孩斜靠在图1女孩身上,贴贴,两人面相镜头方向合影,场景为图1不变

    这样就得到了我和豆包的合照:

    最后用即梦首尾帧功能,上传豆包生成的两张图来生成视频。

    提示词:图1中的女孩摆好pose,画面外的白衣服女孩一个跨步进入镜头,挥手对镜头打招呼,两人合影,场景不变

    最后生成这样一段视频:

    最后一样用剪映把他们剪辑到一起,配上音就OK了!

     

    05. 写在最后

     

    这次分享的这个很简单,但是我的本意不只是为了教会大家这个视频如何做,更多是想给大家分享一下我对于AI落地的一些想法。

    我认为现在太多人的AI落地思路都错了,都在想着做点什么新东西,做点什么以前没有的。

    但是哪有那么多好思路呢,普通人最好的方式就是把现有的爆款转换成AI出品。

    做已经经过验证的爆款,虽然不一定是最好的方式,但一定是最稳的方式。

    原文链接:豆包变装视频火了,手把手教你用AI复刻

  • OneSearch – 快手推出的电商搜索端到端生成式框架

    OneSearch是什么

    OneSearch 是快手推出的电商搜索端到端生成式框架,优化传统电商搜索的级联式架构,提升搜索精准度和用户体验。三大创新点包括:关键词增强层次量化编码(KHQE)模块,通过提取商品核心属性并生成层次化编码(SID),强化 Query-商品相关性约束;多视角用户行为序列注入策略,构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,精准建模用户偏好;偏好感知奖励系统(PARS),结合多阶段监督微调与自适应奖励强化学习,捕捉细粒度用户偏好信号。OneSearch 在离线实验中显著优于传统系统,在线实验中订单量提升3.22%,买家数提升2.4%,在长尾查询和新商品冷启动场景下表现突出。

    OneSearch

    OneSearch的主要功能

    • 精准匹配:通过关键词增强层次量化编码(KHQE)模块,精准提取商品核心属性并生成层次化编码,显著提升生成式检索的区分能力和准确性,能理解口语化、模糊甚至不完整的表达,将其转化为高效的购物指令。
    • 高效排序:采用多视角用户行为序列注入策略,构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,全面而精准地建模用户偏好,实现更智能的结果排序。
    • 成本优化:在上线后,线上推理成本降低了75.4%,机器计算效率提升了8倍,显著降低了运营成本。
    • 提升用户体验:在人工评测中,OneSearch在页面整体满意度、商品质量及query-item相关性方面均显著优于传统系统,能更全面地理解用户意图,显著提升个性化搜索的准确性与用户体验。
    • 助力商家:在冷启动(cold-start)场景下表现尤为突出,效果显著优于常规场景,说明生成式检索模型能够更有效地应对长尾用户和新上架商品的排序挑战。

    OneSearch的技术原理

    • 关键词增强层次量化编码(KHQE):通过提取商品的核心属性,如品牌、品类、颜色、材质等,为每个商品生成一个层次化的“智能身份证”(SID),从而显著提升生成式检索的区分能力和准确性。
    • 多视角用户行为序列注入:构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,全面而精准地建模用户偏好,以实现更智能的结果排序。
    • 偏好感知奖励系统(PARS):结合多阶段监督微调(SFT)与自适应奖励强化学习机制,捕捉细粒度用户偏好信号,增强模型的个性化排序能力。

    OneSearch的项目地址

    • arXiv技术论文:https://arxiv.org/pdf/2509.03236

    OneSearch的应用场景

    • 电商搜索:OneSearch 通过精准匹配和高效排序,显著提升用户在电商平台上的搜索体验,帮助用户更快找到所需商品。
    • 长尾商品推荐:在冷启动场景下,OneSearch 能更有效地处理长尾用户和新上架商品的排序问题,提升长尾商品的曝光率和销售机会。
    • 个性化搜索:通过多视角用户行为序列注入策略,OneSearch 能精准建模用户偏好,提供个性化的搜索结果,满足不同用户的需求。
    • 提升商家运营效率:OneSearch 通过优化搜索结果,帮助商家提高商品的曝光率和转化率,提升整体运营效率。
  • Kronos – 微软联合清华开源的金融K线图基础模型

    Kronos是什么

    Kronos 是首个面向金融市场的 K 线图基础模型,由清华大学与微软亚洲研究院联合开源。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,来预测未来价格走势。Kronos 采用两阶段处理框架:智能分词器将连续的 K 线数据转化为离散的「金融词汇」,预测大模型基于 Transformer 架构,从历史数据中学习规律,预测未来走势。模型训练数据覆盖全球 45+ 交易所,能适应金融数据的高波动性和噪声。

    Kronos 提供多种参数模型,从 4.1M 到 499.2M 参数,满足不同需求。它仅需 4 行代码即可加载,输入历史数据后自动输出预测结果。Kronos 提供实时 BTC/USDT 预测仪表盘,集成 Qlib 进行回测验证,支持 A 股市场数据。在基准数据集上,Kronos 在价格序列预测的 RankIC 上比领先的 TSFM 提高了 93%,比最佳非预训练基线提高了 87%。在波动率预测中实现了 9% 的更低 MAE,在合成 K 线序列的生成保真度上实现了 22% 的提升。

    Kronos

    Kronos的主要功能

    • K 线图解读:Kronos 能分析股票、加密货币等金融资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,预测未来价格走势。
    • 两阶段处理框架:采用智能分词器将连续的 K 线数据转化为离散的「金融词汇」,再通过基于 Transformer 架构的预测大模型从历史数据中学习规律进行预测。
    • 多种模型选择:提供从 4.1M 到 499.2M 参数的多种预训练模型,满足不同的计算和应用需求。
    • 简单易用:仅需 4 行代码即可加载模型,输入历史 K 线数据后自动输出预测结果。
    • 实时预测演示:提供实时的 BTC/USDT 预测仪表盘,根据模型的计算结果展示未来走势。
    • 支持 A 股市场:集成 Qlib 进行回测验证,还提供了完整的微调 pipeline,可适配自己的交易策略。
    • 高性能预测:在基准数据集上,Kronos 在价格序列预测的 RankIC 上比领先的 TSFM 提高了 93%,比最佳非预训练基线提高了 87%。

    Kronos的技术原理

    • 两阶段处理框架:Kronos 采用两阶段处理框架,首先通过智能分词器将连续的 K 线数据转化为离散的「金融词汇」,然后利用基于 Transformer 架构的预测大模型从历史数据中学习规律,预测未来走势。
    • 智能分词器:分词器将 K 线数据中的关键信息提取出来,转化为模型能理解和处理的离散符号,为后续的预测提供基础。
    • Transformer 架构:预测大模型基于 Transformer 架构,能处理长序列数据,捕捉时间序列中的长期依赖关系,从而更准确地预测未来价格走势。
    • 预训练与微调:Kronos 提供多种预训练模型,用户可以根据具体任务进行微调,使其更好地适应特定的金融市场数据和预测需求。
    • 多数据源训练:模型训练数据覆盖全球 45+ 交易所,能够适应不同市场环境下的金融数据特点,具备较强的泛化能力。
    • 时间序列建模:Kronos 专注于时间序列建模,能够处理金融数据的高波动性和噪声,提取出有价值的信息用于预测。

    Kronos的项目地址

    • Github仓库:https://github.com/shiyu-coder/Kronos
    • arXiv技术论文:https://arxiv.org/pdf/2508.02739

    Kronos的应用场景

    • 股票市场预测:Kronos 可以分析股票市场的 K 线数据,预测股票价格的未来走势,帮助投资者做出更明智的投资决策。
    • 加密货币交易:适用于加密货币市场,通过对加密货币价格波动的分析,为交易者提供价格预测,辅助制定交易策略。
    • 量化交易策略开发:Kronos 能作为量化交易策略开发中的一个重要工具,为策略提供市场趋势预测,优化交易信号的生成。
    • 市场情绪分析:通过对 K 线图的解读,Kronos 可以反映市场情绪的变化,帮助投资者理解市场参与者的情绪倾向,把握市场脉搏。
    • 风险管理:利用其预测能力,投资者可以更好地评估投资风险,提前做好风险控制措施,降低潜在损失。
    • 金融数据研究:为金融研究人员提供一个强大的工具,用于研究金融市场的规律、价格形成机制以及市场效率等问题。
  • Codexia – 开源的AI编码桌面应用程序,多会话支持

    Codexia是什么

    Codexia是强大的跨平台AI编码桌面应用程序,支持为OpenAI Codex CLI提供图形界面和工具集,增强开发体验。Codexia支持多会话管理、实时流式响应、多种文件格式(如PDF、CSV、XLSX)的内置预览,及灵活的配置选项。用户能自定义AI提供商、模型、沙盒策略等。专业用户体验包括记事本与聊天集成、增强的Markdown渲染、主题选择等。Codexia注重安全性和控制,提供沙盒执行模式和审批工作流。

    Codexia

    Codexia的主要功能

    • 多会话支持:支持同时开启多个独立会话,每个会话能独立运行不同任务或与不同AI模型交互,切换会话不会中断对话,且会话存储持久化,应用重启后能自动恢复。
    • 实时流式响应:AI生成响应时可实时流式显示,字符逐个更新,无需等待完整响应,能通过视觉指示显示生成和思考状态。
    • 多文件格式支持:支持pdf、csv、xlsx等文件格式的内置预览,可在pdf中选择文本,对csv和xlsx文件进行预览和文本选择。
    • 灵活配置:支持多种AI提供商(OpenAI、Ollama等),按会话配置模型(如GPT、Llama),能调整沙盒策略和命令执行审批策略,及选择每个会话的工作目录。
    • 专业用户体验:提供干净、响应式的界面,具备记事本与聊天集成、增强的Markdown渲染、待办事项计划显示、截图作为图像输入、分叉聊天、持久化UI状态和偏好设置、Web预览以及主题和强调色选择等功能。

    如何使用Codexia

    • 下载与安装:访问官网 Codexia GitHub 仓库。
    • 下载应用:在官网页面上找到下载链接,根据操作系统(Windows、Mac、Linux)选择相应的安装包。
    • 安装应用:下载完成后,双击安装包按照提示完成安装。
    • 启动应用:安装完成后,找到 Codexia 应用图标双击启动。
    • 创建会话:启动应用后,点击“新建会话”按钮,创建一个新的会话。在新建的会话中,配置 AI 提供商、模型、工作目录等参数。点击会话设置按钮,选择偏好的配置。
    • 与 AI 交互
      • 输入问题:在会话窗口中,输入问题或指令。例如,输入“生成一个Python脚本,用于计算两个数字的和”。
      • 查看响应:点击发送按钮后,AI 开始处理请求,并实时显示响应结果。
      • 上传文件:如果需要处理文件,点击“上传文件”按钮,选择需要处理的文件(如 PDF、CSV、XLSX 等)。
      • 文件预览:上传文件后,Codexia 自动解析、预览文件内容。
      • 文件操作指令:通过输入指令操作文件,例如“提取PDF第2页的内容”或“分析CSV文件中的数据”。

    Codexia的项目地址

    • 项目官网:https://milisp.vercel.app/
    • GitHub仓库:https://github.com/milisp/codexia

    Codexia的应用场景

    • 编程辅助:程序员用 Codexia 生成代码片段、调试代码问题,提高开发效率。
    • 文档处理:用户上传 PDF、CSV、XLSX 等文件,用 AI 功能进行内容提取、分析和编辑。
    • 数据分析:数据分析师用 Codexia 的文件操作功能,快速处理和分析数据文件,生成报告。
    • 教育与学习:学生和教师Codexia 的交互式聊天功能,进行学习资料的整理和知识点的答疑。
    • 企业办公:企业员工高效处理日常工作中的文档和数据。
  • 什么是Agentic Workflow?一文看懂

    在当今快速发展的技术环境中,Agentic Workflow(智能体工作流)作为一种新兴的自动化流程系统,正在重塑我们处理复杂任务的方式。本文为不具备技术背景的用户提供一个全面而易懂的技术解读,帮助大家理解这一创新技术的本质、价值和应用前景。

    Agentic Workflow是什么

    Agentic Workflow(智能体工作流)是一种由多个AI智能体(AI Agent)协同工作的新型自动化流程系统。通过将复杂任务分解为子任务,由具备自主决策能力的AI智能体动态执行,最终完成整体目标。与传统工作流依赖固定规则不同,Agentic Workflow强调自主性适应性多智能体协作,能应对实时变化的环境和需求。

    “Agentic Workflow = 一群AI小助理自己写剧本、自己选演员、自己剪片子,人类只当制片人。”

    核心特征

    • 任务分解与规划:将复杂任务拆解为可执行的子任务,每个智能体负责特定环节,形成完整的任务链。
    • 多智能体协作:不同智能体承担专业化角色(如数据分析、用户交互),实现专业分工与高效协作。
    • 工具使用能力:调用外部API、数据库或软件(如Python代码执行、网络搜索),扩展智能体的能力边界。
    • 动态调整与反思:根据执行结果实时优化策略,具备自我学习和适应能力,应对变化环境。

    技术起源与发展历程

    概念萌芽(1980年代–2000年代初)

    • 源于计算机科学的代理理论分布式系统研究,早期关注流程自动化和智能化设计。这一时期提出了软件代理(Software Agent)概念,但在当时的技术条件下尚未广泛应用。

    技术催化(2010年代–2023年)

    • 云计算与大语言模型(LLM)的发展为智能体提供了强大的算力和认知基础。AI Agent开始兴起,单个智能体已能完成简单任务(如ChatGPT等早期应用)。这一阶段为后续的多智能体协作奠定了基础。

    范式确立(2024年至今)

    吴恩达在红杉峰会上正式提出Agentic Workflow概念,并定义了四种核心设计模式:

    • 反思(Reflection):自我评估结果并迭代优化
    • 工具使用(Tool Use):调用外部资源解决问题
    • 规划(Planning):动态制定执行路径
    • 多智能体协作(Multi-agent Collaboration):多个智能体协同工作

    开源框架(如LangChain、AutoGen)和平台(如CozeModelScope)的出现推动了这一技术的普及应用。

    典型应用场景

    企业级应用

    • 智能客服系统: 案例:Klarna的AI客服处理2/3咨询,精度相当人类且成本降90%。
      • 工作流:用户提问 → 路由智能体 → 知识库检索 → 生成回复 → 人工审核(可选)。
    • 市场营销自动化:智能体系统能自动生成社交媒体内容,实时调整广告投放策略,根据用户行为数据优化营销效果。
      • 主要功能:内容创作与优化;受众分析与定位;广告投放管理;效果跟踪与优化。

    研究与开发

    • 学术研究:智能体系统能自动化执行文献综述、数据清洗和模型训练等研究任务,大幅提高科研效率。
      • 研究流程:文献检索与筛选→数据收集与清洗→模型选择与训练→结果分析与报告
    • 代码开发:智能体协作系统能完成代码生成、测试、调试等软件开发全流程,辅助开发者提高编码质量。
      • 开发流程:需求分析与规划→代码生成与实现→单元测试与集成→性能优化与部署

    个人生产力

    • 办公自动化:智能体系统能自动生成PPT、处理邮件、查询信息等日常办公任务,提升个人工作效率。
      • 常用功能:文档起草与格式化;日程安排与提醒;信息检索与整理;会议记录与摘要。
    • 跨平台工具集成:通过Coze等平台连接日历、邮件、云文档等各类工具,实现无缝工作流整合。
      • 集成示例:日历与邮件同步;文档与表格联动;通讯录与会议系统;项目管理与任务跟踪。

    与传统工作流的对比

    维度 传统工作流 Agentic Workflow
    架构 中心化控制,固定流程 分布式智能体,动态编排
    自治程度 低(需预设规则) 高(自主决策+实时调整)
    扩展性 有限(需重新设计流程) 高(通过添加智能体快速扩展)
    复杂度处理 适合简单重复任务 擅长复杂多步骤任务
    维护成本 低(规则明确) 较高(需监控智能体行为)

    技术栈与开源工具

    核心组件

    组件 功能 代表工具/技术
    智能体(Agent) 任务执行单元 AutoGen, CrewAI
    大语言模型 提供推理与生成能力 GPT-4, Llama, 文心模型
    工具库 扩展外部能力(API、代码、数据库) LangChain Tools
    工作流编排器 可视化设计任务流程 Coze, LangFlow

    开发框架

    LangChain:适合Python开发者,提供丰富API,支持多种大语言模型和工具集成。主要特点:

    • 模块化设计
    • 灵活的LLM集成
    • 强大的工具链支持
    • 社区活跃

    AutoGen:微软推出,支持多智能体对话,支持复杂的智能体间通信。主要特点:

    • 多智能体对话
    • 角色定义机制
    • 消息传递协议
    • 企业级支持

    低代码平台:科大讯飞星辰平台、Coze适合非技术人员,通过可视化界面构建工作流。主要特点:

    • 拖拽式操作
    • 预置模板库
    • 无需编程
    • 快速部署

    小白用户搭建指南(以LangChain为例)

    环境配置

    # 安装Python 3.10+
    pip install langchain langchain-openai python-dotenv
    # 配置OpenAI API密钥(需注册OpenAI账户)
    echo “OPENAI_API_KEY=sk-…” > .env

    配置说明:

    • 确保已安装Python 3.10+版本
    • 使用pip安装必要的LangChain库和OpenAI集成包
    • 创建.env文件存储API密钥(安全起见不要提交到版本控制)
    • 获取OpenAI账户API密钥并替换示例中的占位符

    构建简单工作流(天气查询助手)

    from langchain.agents import AgentType, initialize_agent
    from langchain.tools import Tool
    from langchain_openai import OpenAI

    # 1. 定义工具:天气API调用
    def get_weather(city):
    return f”{city}天气:25°C,晴”

    weather_tool = Tool(
    name=”WeatherQuery”,
    func=get_weather,
    description=”查询城市天气”
    )

    # 2. 初始化智能体
    agent = initialize_agent(
    tools=[weather_tool],
    llm=OpenAI(temperature=0),
    agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION
    )

    # 3. 执行任务
    agent.run(“北京天气如何?”)

    代码说明:

    • 导入必要的LangChain模块和OpenAI集成
    • 定义天气查询工具函数并包装为LangChain Tool
    • 初始化智能体,指定工具集和大语言模型
    • 调用智能体执行”北京天气如何?”任务

    运行与测试

    python weather_agent.py
    # 输出:北京天气:25°C,晴

    测试流程:

    • 保存代码到weather_agent.py文件
    • 在终端执行python weather_agent.py命令
    • 观察输出结果是否符合预期
    • 尝试修改输入问题(如”上海天气”)验证系统响应

    安全与隐私挑战

    主要风险

    • 数据泄露:智能体可能意外暴露敏感信息,如个人身份数据、商业机密等。
    • 合规风险:违反GDPR等法规(如未经授权处理用户数据或未获得适当同意)。
    • 恶意操纵:攻击者通过误导智能体执行错误操作,可能导致系统故障或数据损坏。

    防护措施

    技术 功能
    数据加密 传输与静态数据加密
    访问控制(RBAC) 基于角色的权限管理
    沙盒环境 隔离代码执行
    审计日志 记录所有智能体操作

    实施建议

    • 对敏感数据实施端到端加密
    • 建立严格的访问控制策略
    • 在生产环境中使用沙盒隔离关键操作
    • 定期审查审计日志,检测异常行为
    • 实施数据最小化原则,仅收集必要数据

    未来发展趋势

    • 技术融合:与区块链结合确保数据可信,融合物联网(IoT)实现物理世界控制,与边缘计算结合实现本地化处理。
    • 自动化增强:从”辅助人类”转向”完全自主”任务执行,增强决策能力,减少人工干预实现跨领域知识迁移与应用。
    • 普及与下沉:低代码平台降低使用门槛。行业专用解决方案普及,嵌入式智能体设备普及。、

    对于希望采用Agentic Workflow的组织和个人,建议:

    • 从简单场景开始试点,逐步扩展
    • 重视安全与隐私保护措施
    • 持续监控和优化智能体性能
    • 关注技术发展动态,保持更新
    • 培养跨领域人才,适应新技术环境

    Agentic Workflow代表了自动化技术的范式变革:从规则驱动转向智能体驱动。通过分解任务、多智能体协作和动态调整,高效处理复杂场景(如客户服务、科研、办公自动化)。对普通用户而言,开源框架(LangChain/AutoGen)和低代码平台(Coze/讯飞星辰)已大幅降低使用门槛。需重视数据安全与合规风险,采用加密、访问控制和审计等措施防护。未来,随着LLM和物联网发展,Agentic Workflow将成为人机协作的核心基础设施。

  • Lego-Edit – 小米开源的图像编辑框架

    Lego-Edit是什么

    Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在于强大的泛化能力,能在多个基准测试中达到 SOTA 性能,支持局部、全局及多步骤编辑,接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具,方便扩展功能。

    Lego-Edit

    Lego-Edit的主要功能

    • 强大的图像编辑能力:Lego-Edit 能根据用户指令完成多种复杂的图像编辑任务,包括但不限于局部编辑、全局编辑和多步骤编辑,满足不同场景下的图像处理需求。
    • 灵活的指令理解与执行:借助多模态大语言模型(MLLM)的泛化能力,Lego-Edit 可以理解并执行开放域的指令,即使面对未见过的指令,能通过其强大的推理能力进行处理。
    • 模型级工具包的高效利用:框架包含多种在有限数据上高效训练的模型级工具,这些工具具备多种图像操作功能,MLLM 可以通过调用这些工具来完成细粒度的编辑操作,实现高效且精准的图像修改。
    • 无需重新训练即可整合新工具:Lego-Edit 支持在无需额外微调的情况下,整合新引入的编辑工具,使得其功能可以轻松扩展,适应不断变化的图像编辑需求。
    • 掩码输入支持精确编辑:接受掩码输入是 Lego-Edit 的一大亮点,用户可以通过掩码精确指定需要编辑的图像区域,实现更加精准的局部编辑效果。
    • 开源与易用性:Lego-Edit 的代码在 Apache 2.0 许可下开源,模型在 CC BY-NC 4.0 许可下开源,用户可以方便地获取和使用。通过简单的环境搭建和预训练模型下载,可使用 Gradio WebUI 开始图像编辑,降低了使用门槛。

    Lego-Edit的技术原理

    • 模型级工具包:Lego-Edit 集成多种高效训练的模型,每个模型负责特定的图像操作功能,如颜色调整、对象替换等,形成一个功能丰富的工具包,为复杂的图像编辑任务提供基础支持。
    • 多模态大语言模型(MLLM)驱动:利用 MLLM 的强大泛化能力和推理能力,理解用户指令并协调模型级工具包中的不同模型,完成从指令解析到具体操作的转换,实现灵活的图像编辑。
    • 三阶段渐进式强化学习训练策略:首先进行监督微调(SFT),让模型学习基本的图像编辑知识;接着通过强化学习(RL)在特定编辑任务上训练,建立推理能力和工具使用知识;最后利用大量未标注指令进行额外的 RL 训练,由大规模批评模型提供反馈,进一步增强对灵活指令的处理能力。
    • 掩码输入机制:支持用户通过掩码指定需要编辑的图像区域,使编辑操作更加精确,能针对图像的特定部分进行修改,不影响其他区域,提高编辑的灵活性和准确性。
    • 无需重新训练的工具整合:Lego-Edit 能在不进行额外微调的情况下,直接整合新引入的编辑工具,快速适应新的编辑需求,扩展功能范围,保持系统的高效性和可扩展性。

    Lego-Edit的项目地址

    • 项目官网:https://xiaomi-research.github.io/lego-edit/
    • Github仓库:https://github.com/xiaomi-research/lego-edit
    • arXiv技术论文:https://arxiv.org/pdf/2509.12883

    Lego-Edit的应用场景

    • 创意设计领域:设计师可以用 Lego-Edit 快速实现创意构思,通过简单指令完成复杂的图像合成、风格转换等操作,提高设计效率,激发更多创意灵感。
    • 内容创作与编辑:在视频制作、广告设计、社交媒体内容创作等场景中,Lego-Edit 能帮助创作者快速修改图像素材,如调整颜色、替换背景、添加特效等,满足多样化的内容创作需求。
    • 电商与产品展示:电商商家可以使用 Lego-Edit 对产品图片进行优化,如去除瑕疵、调整光线、添加虚拟场景等,提升产品展示效果,增强用户购买意愿。
    • 教育与培训:在教育领域,Lego-Edit 可以作为教学工具,帮助学生学习图像编辑技巧,培养创造力和审美能力。同时,教师也可以利用它快速制作教学课件中的图像素材。
    • 个人照片美化:普通用户可以使用 Lego-Edit 对个人照片进行美化,如去除背景、调整肤色、添加装饰元素等,轻松制作出满意的照片,用于社交媒体分享或个人收藏。
    • 虚拟现实与游戏开发:在虚拟现实和游戏开发中,Lego-Edit 可用于快速生成和修改游戏中的图像资源,如角色外观、场景元素等,提高开发效率,丰富游戏视觉效果。
  • Sidekick – AI流程自动化平台,自然语言生成工作流

    Sidekick是什么

    Sidekick 是AI流程自动化平台,能帮助用户简化日常重复性工作。平台通过预设的自动化模板,快速实现如将 Gmail 邮件同步到 Google Sheets、从日历生成会议总结发送到 Slack、在 Notion 中存储潜在客户信息等操作。Sidekick 集成 AI 技术,能自动起草邮件、分析销售线索、生成会议文档等,支持 Gmail、Google Calendar、Slack、Notion、HubSpot 等多种常用工具,让用户只需简单聊天定制专属工作流,大幅提升工作效率。

    Sidekick

    Sidekick的主要功能

    • 自动化工作流:提供多种预设模板,如将 Gmail 邮件同步到 Google Sheets、从日历生成会议总结、发送到 Slack、在 Notion 中存储潜在客户信息等,帮助用户快速实现常见任务的自动化。
    • AI 驱动的智能操作:基于 AI 技术自动起草邮件、分析销售线索、生成会议文档等,提高工作效率和质量。
    • 多平台集成:支持与 Gmail、Google Calendar、Slack、Notion、HubSpot 等多种常用工具的无缝集成,方便用户在现有工作环境中使用。
    • 定制化工作流:用户通过简单的聊天界面轻松定制自动化模板,适应特定的工作需求和流程。
    • 数据同步与管理:自动同步和管理数据,如将邮件信息、会议记录、销售线索等整理到相应的工具中,减少手动操作。
    • 智能报告与分析:支持生成智能报告,如每周销售管道审查、重要邮件摘要等,帮助用户更好地了解业务状况并做出决策。
    • 实时通知与提醒:通过 Slack 等工具发送实时通知和提醒,确保用户不会错过重要信息。

    Sidekick的官网地址

    • 官网地址:https://joinsidekick.com/

    Sidekick的产品定价

    • Free:适合个人用户,每月免费200次运行,提供无限工作流创建功能。
    • Pro:适合高级用户,每月19美元,包含1000次运行,之后每次运行0.02美元,提供无限工作流创建功能。
    • Growth:适合小团队,每月49美元,包含5000次运行,之后每次运行0.01美元,提供无限工作流创建、5名团队成员和专用Slack频道。
    • Enterprise:适合组织,提供定制运行次数,包括无限工作流创建、无限团队成员、专属支持等。

    Sidekick的应用场景

    • 销售团队:自动将潜在客户信息从Gmail同步到Notion或HubSpot,简化销售线索管理,提升跟进效率。
    • 客服工作:自动分类客户邮件并生成回复草稿,通过Slack发送给团队审核,加快响应速度。
    • 项目管理:从Google Sheets提取任务信息生成Linear任务,简化项目管理流程,确保任务按时完成。
    • 个人办公:每天自动生成重要邮件摘要并发送到Slack,帮助快速了解关键信息,提高时间管理效率。
    • 团队协作:自动将会议记录和项目更新同步到Slack,确保团队成员及时获取最新信息,增强协作效率。