Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • LongCat-Flash-Thinking – 美团推出的大型推理模型

    LongCat-Flash-Thinking是什么

    LongCat-Flash-Thinking 是美团 LongCat 团队推出的拥有 5600 亿参数的大型推理模型,基于专家混合(MoE)架构,支持根据需求动态激活 186 亿到 313 亿参数,兼顾计算效率与性能。模型通过长思维链冷启动训练和大规模强化学习两阶段训练,具备强大的形式化推理、智能体推理等能力,在数学、逻辑、编程等复杂推理任务中表现出色,能为科研、软件开发、企业决策等领域提供高效智能支持,推动 AI 技术普惠化发展。

    LongCat-Flash-Thinking

    LongCat-Flash-Thinking的主要功能

    • 复杂推理:模型擅长处理数学、逻辑、编程等复杂推理任务,如自动定理证明、解决奥林匹克数学竞赛难题等。
    • 智能体工具使用:模型能灵活利用外部工具辅助解决问题,提高任务执行效率,例如在需要多步骤操作或调用特定功能时,自动选择、使用相应工具。
    • 通用问答与对话:具备良好的通用语言理解和生成能力,能进行流畅的自然语言对话,回答各种领域的问题,提供信息咨询等服务。
    • 形式化推理:在严谨的逻辑证明和形式化语言处理方面表现出色,支持应用在数学、物理等需要精确逻辑验证的领域。

    LongCat-Flash-Thinking的技术原理

    • 专家混合(MoE)架构:拥有5600亿参数,根据上下文动态激活186亿到313亿参数,实现计算效率与性能的平衡。
    • 两阶段训练流程
      • 长思维链冷启动训练:通过课程学习策略和推理密集型数据的SFT阶段,培养模型的基础推理能力。
      • 大规模强化学习:基于DORA系统进行异步强化学习,采用领域并行训练方案,将不同领域的优化过程解耦后再融合,提升模型的推理能力和泛化性能。
    • DORA系统:作为强化学习基础设施,采用流式架构、多版本设计和弹性共置策略,支持在数万个加速器上进行高效、稳定的异步训练,提高训练效率和模型性能。

    LongCat-Flash-Thinking的项目地址

    • GitHub仓库:https://github.com/meituan-longcat/LongCat-Flash-Thinking
    • HuggingFace模型库:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
    • 技术论文:https://github.com/meituan-longcat/LongCat-Flash-Thinking/blob/main/tech_report.pdf

    LongCat-Flash-Thinking的应用场景

    • 软件开发:在软件开发中,自动生成代码片段、快速定位、修复代码中的错误,显著提升开发效率和代码质量。
    • 科学研究:科研人员进行数学定理的证明、物理模型的推导及复杂数据的分析,帮助加速科研进程,提高研究效率。
    • 企业决策:在企业环境中分析市场数据,提供战略规划和投资建议,助力企业做出更明智的决策,提升竞争力。
    • 教育领域:在教育方面根据学生的学习进度提供个性化学习计划,实时解答学生的问题,辅助教师生成教学资源,提高教学效果。
    • 医疗健康:在医疗健康领域助医生进行医疗诊断,管理医疗知识库,为患者提供个性化的健康管理建议,提升医疗服务的质量和效率。
  • 张大妈 – 值得买科技推出的AI购物管家

    张大妈是什么

    张大妈是值得买科技推出的AI购物管家,帮助用户更高效地做出消费决策。具备强大的智能推荐功能,能根据用户的购物需求和偏好,精准推荐合适的商品。张大妈能进行全网比价,确保用户能以最优惠的价格购买到心仪的商品。张大妈通过云手机技术,实现了自动执行任务的功能,如自动价保、物流查询、低价监控等,极大地节省了用户的时间和精力。用户可以通过文字、语音、图片等多种方式与“张大妈”进行交互,享受更加个性化和便捷的购物体验。

    张大妈

    张大妈的主要功能

    • 智能推荐:根据用户的购物需求和偏好,精准推荐合适的商品。
    • 全网比价:自动搜索全网最低价,帮助用户找到最优惠的购买选项。
    • 自动执行任务:通过云手机技术,自动完成价保、物流查询、低价监控等操作。
    • 多模态交互:支持文字、语音、图片等多种交互方式,满足不同用户需求。
    • 商品评价与口碑:提供商品的用户评价和口碑信息,帮助用户做出更明智的决策。

    如何使用张大妈

    • 下载安装:访问“张大妈”的官网 https://zhangdama.smzdm.com/,点击下载链接,根据提示完成安装。
    • 注册登录:打开App后,使用手机号码或社交账号注册并登录,以便个性化服务。
    • 输入需求:在首页输入框中输入你的购物需求,如商品名称或服务类型。
    • 选择服务:根据需求选择“帮我挑”“帮我买”或“帮我问”等服务。
    • 查看结果:系统会根据你的需求提供推荐商品、比价信息或执行任务的结果。
    • 交互沟通:通过文字、语音或图片与“张大妈”进行交互,进一步细化需求或获取更多信息。
    • 任务执行:对于自动执行的任务,如价保、监控等,系统会自动完成并通知你结果。
    • 评价反馈:使用后可以对“张大妈”的服务进行评价和反馈,帮助改进体验。

    张大妈的应用场景

    • 电商购物:帮助用户在多个电商平台之间进行商品比价和推荐,自动监控商品价格变化,提醒用户在最佳时机购买。
    • 物流查询:自动查询商品物流信息,实时跟踪包裹状态,无需用户手动输入单号。
    • 价保服务:自动检测商品价格变动,为用户申请价保,确保用户享受最低价。
    • 机票预订:根据用户需求,自动搜索并推荐合适的机票,甚至可以完成预订和支付流程。
    • 餐饮预订:帮助用户查找附近的餐厅,查看评价,并协助预订座位。
    • 购物领券:自动为用户领取各类优惠券,增加购物优惠。
  • Granite-Docling-258M – IBM推出的轻量级视觉语言模型

    Granite-Docling-258M是什么

    Granite-Docling-258M 是 IBM 推出的轻量级视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。模型仅含 258M 参数,性能卓越,成本效益高,支持多语言(包括阿拉伯语、中文和日语)处理。模型使用 DocTags 格式精准描述文档结构,避免信息丢失。Granite-Docling-258M能与 Docling 库无缝集成,提供强大的定制化和错误处理能力,适用企业级文档处理,是文档处理领域的强大工具。

    Granite-Docling-258M

    Granite-Docling-258M的主要功能

    • 精准文档解析:模型能准确识别、解析文档中的文字、表格、公式、图表等各类元素,为后续处理提供清晰、准确的数据基础。
    • 结构保留转换:在将文档转换为电子格式时,完整保留原始文档的布局和结构,确保转换后的文档与原文高度一致,便于阅读和进一步编辑。
    • 多模态输入支持:同时支持图像和文本输入,能处理扫描文档、手写笔记及电子文档等多种形式的文档,拓宽应用范围。
    • 多语言文档处理:具备多语言处理能力,能处理不同语言的文档,为跨国企业和多语言环境下的文档处理提供便利。
    • 高效数据提取:支持快速从文档中提取关键信息和结构化数据,提高工作效率,减少人工处理时间。
    • 灵活的输出格式:支持将文档转换为多种常见格式,如Markdown、HTML、JSON等,方便用户根据需求进行后续处理和应用。
    • 强大的定制化能力:与Docling库集成,用户能根据具体需求定制文档处理流程,实现个性化的文档转换和分析功能。
    • 企业级稳定性:经过优化,模型在处理文档时更加稳定,减少错误和异常情况的发生,适合在企业级环境中大规模应用。

    Granite-Docling-258M的技术原理

    • 模型架构
      • 视觉编码器:用 siglip2-base-patch16-512 作为视觉编码器,能高效处理图像输入,提取文档中的视觉特征。
      • 视觉语言连接器:基于像素洗牌投影器(pixel shuffle projector),将视觉特征与语言模型连接起来,实现视觉和语言信息的融合。
      • 语言模型:基于 Granite 165M 的语言模型,能处理和生成自然语言文本,确保文档内容的准确转换。
    • DocTags 格式:DocTags 通用标记语言,能精准描述文档中的各种元素(如图表、表格、公式等)及上下文关系和位置。:DocTags 格式优化 LLM 的可读性,使模型输出的文档能直接转换为 Markdown、HTML 或 JSON 等格式,便于后续处理和应用。
    • 训练数据:训练数据包括公开数据集和内部合成数据集,如 SynthCodeNet(代码片段)、SynthFormulaNet(数学公式)、SynthChartNet(图表)和 DoclingMatix(真实文档页面)。通过高质量的标注数据,模型能更好地学习文档的结构和内容,提高转换的准确性和稳定性。

    Granite-Docling-258M的项目地址

    • 项目官网:https://www.ibm.com/new/announcements/granite-docling-end-to-end-document-conversion
    • HuggingFace模型库:https://huggingface.co/ibm-granite/granite-docling-258M
    • 在线体验Demo:https://huggingface.co/spaces/ibm-granite/granite-docling-258m-demo

    Granite-Docling-258M的应用场景

    • 企业文档管理:模型能快速将纸质文档数字化,便于存储和检索,提升工作效率。
    • 学术研究:模型能高效处理大量文献,助力研究人员快速获取和分析资料。
    • 政府档案数字化:用在精准转换历史档案,确保信息完整,便于长期保存和查询。
    • 教育领域:教师能快速整理教学资料,学生能便捷获取电子版学习材料。
    • 多语言文档处理:跨国企业能处理多语言文档,打破语言障碍,促进国际交流。
  • DeepSeek-R1-Safe – 浙大联合华为推出的安全大模型

    DeepSeek-R1-Safe是什么

    DeepSeek-R1-Safe 是浙江大学网络空间安全学院和华为合作推出的基于DeepSeek衍生的安全大模型。模型基于华为昇腾芯片和 MindSpeedLLM 框架,通过构建安全语料、安全监督训练和强化学习等步骤,显著提升模型的安全性和合规性。模型开源了满血版权重,适用安全训练、微调和测试,广泛应用在需要高安全性的场景,如网络安全、数据保护等。

    DeepSeek-R1-Safe

    DeepSeek-R1-Safe的主要功能

    • 安全防护功能:模型能有效识别和抵御多种有害内容及越狱攻击,防御成功率高,显著提升模型安全性。
    • 通用性能保持:在保持强大安全性能的同时,通用性能损耗极低,实现安全与性能的平衡优化。
    • 安全训练与优化:通过安全监督训练和强化学习等技术,引导模型主动识别风险并进行合规推导,提升安全性和鲁棒性。
    • 安全语料构建与应用:构建高质量安全语料,融入安全思维链,为模型训练提供坚实数据基础,增强模型安全能力。

    DeepSeek-R1-Safe的技术原理

    • 全栈式安全训练框架:从底层入手,构建一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架,将安全能力深度嵌入模型的“思考”与“表达”之中。
    • 安全语料构建:通过系统梳理全球13个国家24项法律法规,构建覆盖14类主流风险的合规基准,实现语料的多元维度融合。创建“风险问题-安全思维链-安全回答”三元组语料库,融入显式安全思维链,使模型具备主动风险判断与合规推导能力。引入前沿越狱方法丰富攻击样本策略,引导模型有效抵御诱导。
    • 安全训练范式:首创安全核心思维模式预对齐机制,在基础训练前提炼安全语料中的核心思维模式与模型认知架构预对齐,实现快速安全思维引导。首创动态感知高效精准补偿机制,通过代表性数据微调非安全相关参数快速补偿性能。首创多维可验证安全强化学习机制,提出多维细粒度安全奖励信号体系,创新运用性能-安全帕累托最优组合策略,使模型在对抗性环境中学会自主权衡与决策,实现安全与通用能力的协同优化。

    DeepSeek-R1-Safe的项目地址

    • GitHub仓库:https://github.com/ZJUAISafety/DeepSeek-R1-Safe

    DeepSeek-R1-Safe的应用场景

    • 网络安全防护:模型能有效识别和过滤网络中的有害信息,防止恶意内容传播,保护网络环境的安全和稳定。
    • 数据安全保护:在数据处理和存储过程中,确保数据的合规性和安全性,防止数据泄露和滥用。
    • 内容审核与管理:用在社交媒体、新闻平台等内容审核,自动检测和过滤违规内容,提升内容管理效率。
    • 智能客服与对话系统:为智能客服和对话系统提供安全可靠的内容生成能力,避免生成不当或有害的回复。
    • 金融风险防控:在金融领域,用在检测和防范欺诈行为,保护用户资金安全,维护金融秩序。
  • TrafficVLM – 高德推出的交通视觉语言模型

    TrafficVLM是什么

    TrafficVLM是高德导航推出的基于大模型技术的交通视觉语言模型,通过交通孪生还原能力,将海量实时交通数据转化为动态孪生视频流,构建出与现实世界同步的“数字交通世界”。基于通义Qwen-VL为底座,TrafficVLM能精准感知交通元素,分析车辆互动关系,实时推理交通态势,生成最优决策建议。模型赋予驾驶者“天眼”视角,让用户全面了解全局交通状况,突破局部视野限制,从容应对潜在风险,提升驾驶体验。应用商店更新最新版高德地图即可体验最新模型。

    TrafficVLM

    TrafficVLM的主要功能

    • 全局交通态势感知:通过交通孪生还原技术,将实时交通数据转化为动态孪生视频流,构建与现实世界同步的“数字交通世界”,让用户全面了解全局交通状况,突破局部视野限制。
    • 实时交通态势推理:以分钟级频率对沿途交通态势进行实时推理,快速识别前方交通状况(如拥堵、事故等),生成最优决策建议,如路线调整或拥堵成因解释。
    • 交通元素语义理解:基于通义Qwen-VL底座,对交通元素(如车辆、道路、交通标志等)具备语义理解能力,能精准识别、分析车辆间的互动关系,为用户提供更准确的导航建议。
    • 智能决策支持:结合实时交通数据和历史动态分析,预测交通拥堵趋势,生成最优决策建议,帮助用户提前规划行程,避免拥堵,提升驾驶体验。

    TrafficVLM的技术原理

    • 交通孪生还原技术:通过采集海量实时交通数据(如车辆位置、速度、道路状况等),基于先进的数据处理和建模技术,将数据转化为动态孪生视频流,构建出与现实世界完全同步的“数字交通世界”。
    • 通义Qwen-VL底座:基于通义Qwen-VL大模型,通过强化学习和数据训练,适配地图和交通孪生还原视觉模态,使模型对交通元素具备语义理解能力,能进行复杂的交通分析任务。
    • 智能闭环系统:从感知交通元素到分析交通态势,再到生成决策建议,形成完整的智能闭环。模型能实时感知交通元素,分析车辆间的互动关系,结合当下交通流及历史动态,生成最优决策建议。
    • 多模态数据融合:模型融合多种数据源(如卫星图像、传感器数据、用户反馈等),提升模型的准确性和可靠性。通过多模态数据的融合,模型能更全面地理解和预测交通状况。

    TrafficVLM的应用场景

    • 日常通勤:帮助用户实时了解路况,提前规划最优路线,避开拥堵,节省通勤时间。
    • 长途驾驶:提供全局交通态势感知,提前预警前方事故或拥堵,确保长途旅行安全顺畅。
    • 城市出行:在复杂的城市交通环境中,快速分析交通流,为用户提供精准的导航建议,提升出行效率。
    • 特殊事件应对:在遇到交通事故、道路施工等特殊情况时,提供绕行方案,减少等待时间。
    • 公共交通规划:为公交、出租车等公共交通提供实时路况支持,优化运营路线,提高服务质量。
  • LSP(Language Self-Play) – Meta推出的强化学习方法

    LSP是什么

    LSP(Language Self-Play)是Meta提出的一种强化学习方法,解决大型语言模型对大量高质量训练数据的依赖问题。LSP的核心思想是利用自我博弈的方式,让同一模型在挑战者和解题者两种角色之间切换。挑战者负责生成难题,目标是“难住”解题者;解题者则负责回答问题,目标是给出高质量的答案。这种对抗过程遵循极小极大博弈规则,通过动态对抗实现模型的自我改进。LSP通过特定的提示词来切换模型角色,避免了训练独立对抗模型的复杂性。在训练过程中,LSP使用KL散度正则化,防止挑战者生成无意义的对抗序列,并引入“自我质量奖励”引导高质量交互。实验表明,LSP在没有额外数据的情况下,能显著提升基础模型性能,尤其在对话任务上表现突出。

    LSP

    LSP的主要功能

    • 角色切换与自我博弈:LSP通过让同一模型在挑战者和解题者两种角色之间切换,形成动态对抗关系,挑战者生成难题,解题者回答问题,通过这种对抗实现模型的自我改进。
    • 提示词控制:利用特定的提示词来切换模型的角色,避免了训练独立对抗模型的复杂性和额外开销。
    • KL散度正则化:在训练过程中使用KL散度正则化,防止挑战者生成无意义的对抗序列,确保对抗过程的有效性和合理性。
    • 自我质量奖励:引入“自我质量奖励”机制,引导博弈朝高质量交互发展,提升模型在对抗过程中的表现。
    • 数据驱动的强化学习:LSP可以在没有额外数据的情况下,通过自我博弈提升模型性能,尤其在对话任务上表现突出,为模型在数据受限环境下的自主学习提供了新的途径。
    • 后续训练阶段:LSP可以作为后续训练阶段,进一步提升已经经过数据驱动强化学习训练的模型性能,增强模型的适应性和稳定性。

    LSP的技术原理

    • 自我博弈框架:LSP基于自我博弈机制,将同一模型分为挑战者和解题者两个角色,通过角色之间的动态对抗来提升模型性能。
    • 角色切换机制:利用特定的提示词来控制模型在挑战者和解题者角色之间的切换,无需训练独立的对抗模型。
    • 极小极大博弈规则:挑战者的目标是最小化解题者的任务奖励,而解题者的目标是最大化任务奖励,遵循极小极大博弈的规则。
    • KL散度正则化:在训练过程中,使用KL散度正则化来防止挑战者生成无意义的对抗序列,确保对抗的有效性。
    • 自我质量奖励:引入“自我质量奖励”机制,引导模型在对抗过程中生成高质量的交互内容。
    • 无数据依赖训练:LSP可以在不依赖额外训练数据的情况下,通过自我博弈提升模型性能,尤其适用于数据受限的场景。
    • 强化学习优化:通过强化学习的方式,动态调整模型的策略,以实现更好的对抗效果和性能提升。

    LSP的项目地址

    • arXiv技术论文:https://arxiv.org/pdf/2509.07414

    LSP的应用场景

    • 数据受限环境:在训练数据有限或难以获取的情况下,LSP可以通过自我博弈的方式提升模型性能,减少对大量标注数据的依赖。
    • 对话系统优化:在对话任务中,LSP能通过角色切换和对抗训练,提高对话系统的应变能力和回答质量,增强用户体验。
    • 模型校准与微调:作为后续训练阶段,LSP可以对已经经过数据驱动训练的模型进行进一步校准和微调,提升模型的适应性和稳定性。
    • 创造性任务:在需要创造性输出的任务中,如故事生成、创意写作等,LSP的对抗机制可以激发模型生成更多样化和高质量的内容。
    • 教育与学习:在教育领域,LSP可以用于开发智能辅导系统,通过模拟师生互动的方式,提升教学效果和学习体验。
    • 游戏与娱乐:在游戏开发中,LSP可以用于生成更具挑战性的游戏情节或对手,增强游戏的趣味性和互动性。
  • OneSearch – 快手推出的电商搜索端到端生成式框架

    OneSearch是什么

    OneSearch 是快手推出的电商搜索端到端生成式框架,优化传统电商搜索的级联式架构,提升搜索精准度和用户体验。三大创新点包括:关键词增强层次量化编码(KHQE)模块,通过提取商品核心属性并生成层次化编码(SID),强化 Query-商品相关性约束;多视角用户行为序列注入策略,构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,精准建模用户偏好;偏好感知奖励系统(PARS),结合多阶段监督微调与自适应奖励强化学习,捕捉细粒度用户偏好信号。OneSearch 在离线实验中显著优于传统系统,在线实验中订单量提升3.22%,买家数提升2.4%,在长尾查询和新商品冷启动场景下表现突出。

    OneSearch

    OneSearch的主要功能

    • 精准匹配:通过关键词增强层次量化编码(KHQE)模块,精准提取商品核心属性并生成层次化编码,显著提升生成式检索的区分能力和准确性,能理解口语化、模糊甚至不完整的表达,将其转化为高效的购物指令。
    • 高效排序:采用多视角用户行为序列注入策略,构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,全面而精准地建模用户偏好,实现更智能的结果排序。
    • 成本优化:在上线后,线上推理成本降低了75.4%,机器计算效率提升了8倍,显著降低了运营成本。
    • 提升用户体验:在人工评测中,OneSearch在页面整体满意度、商品质量及query-item相关性方面均显著优于传统系统,能更全面地理解用户意图,显著提升个性化搜索的准确性与用户体验。
    • 助力商家:在冷启动(cold-start)场景下表现尤为突出,效果显著优于常规场景,说明生成式检索模型能够更有效地应对长尾用户和新上架商品的排序挑战。

    OneSearch的技术原理

    • 关键词增强层次量化编码(KHQE):通过提取商品的核心属性,如品牌、品类、颜色、材质等,为每个商品生成一个层次化的“智能身份证”(SID),从而显著提升生成式检索的区分能力和准确性。
    • 多视角用户行为序列注入:构建行为驱动的用户标识(UID),融合显式短期行为与隐式长期序列,全面而精准地建模用户偏好,以实现更智能的结果排序。
    • 偏好感知奖励系统(PARS):结合多阶段监督微调(SFT)与自适应奖励强化学习机制,捕捉细粒度用户偏好信号,增强模型的个性化排序能力。

    OneSearch的项目地址

    • arXiv技术论文:https://arxiv.org/pdf/2509.03236

    OneSearch的应用场景

    • 电商搜索:OneSearch 通过精准匹配和高效排序,显著提升用户在电商平台上的搜索体验,帮助用户更快找到所需商品。
    • 长尾商品推荐:在冷启动场景下,OneSearch 能更有效地处理长尾用户和新上架商品的排序问题,提升长尾商品的曝光率和销售机会。
    • 个性化搜索:通过多视角用户行为序列注入策略,OneSearch 能精准建模用户偏好,提供个性化的搜索结果,满足不同用户的需求。
    • 提升商家运营效率:OneSearch 通过优化搜索结果,帮助商家提高商品的曝光率和转化率,提升整体运营效率。
  • Kronos – 微软联合清华开源的金融K线图基础模型

    Kronos是什么

    Kronos 是首个面向金融市场的 K 线图基础模型,由清华大学与微软亚洲研究院联合开源。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,来预测未来价格走势。Kronos 采用两阶段处理框架:智能分词器将连续的 K 线数据转化为离散的「金融词汇」,预测大模型基于 Transformer 架构,从历史数据中学习规律,预测未来走势。模型训练数据覆盖全球 45+ 交易所,能适应金融数据的高波动性和噪声。

    Kronos 提供多种参数模型,从 4.1M 到 499.2M 参数,满足不同需求。它仅需 4 行代码即可加载,输入历史数据后自动输出预测结果。Kronos 提供实时 BTC/USDT 预测仪表盘,集成 Qlib 进行回测验证,支持 A 股市场数据。在基准数据集上,Kronos 在价格序列预测的 RankIC 上比领先的 TSFM 提高了 93%,比最佳非预训练基线提高了 87%。在波动率预测中实现了 9% 的更低 MAE,在合成 K 线序列的生成保真度上实现了 22% 的提升。

    Kronos

    Kronos的主要功能

    • K 线图解读:Kronos 能分析股票、加密货币等金融资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,预测未来价格走势。
    • 两阶段处理框架:采用智能分词器将连续的 K 线数据转化为离散的「金融词汇」,再通过基于 Transformer 架构的预测大模型从历史数据中学习规律进行预测。
    • 多种模型选择:提供从 4.1M 到 499.2M 参数的多种预训练模型,满足不同的计算和应用需求。
    • 简单易用:仅需 4 行代码即可加载模型,输入历史 K 线数据后自动输出预测结果。
    • 实时预测演示:提供实时的 BTC/USDT 预测仪表盘,根据模型的计算结果展示未来走势。
    • 支持 A 股市场:集成 Qlib 进行回测验证,还提供了完整的微调 pipeline,可适配自己的交易策略。
    • 高性能预测:在基准数据集上,Kronos 在价格序列预测的 RankIC 上比领先的 TSFM 提高了 93%,比最佳非预训练基线提高了 87%。

    Kronos的技术原理

    • 两阶段处理框架:Kronos 采用两阶段处理框架,首先通过智能分词器将连续的 K 线数据转化为离散的「金融词汇」,然后利用基于 Transformer 架构的预测大模型从历史数据中学习规律,预测未来走势。
    • 智能分词器:分词器将 K 线数据中的关键信息提取出来,转化为模型能理解和处理的离散符号,为后续的预测提供基础。
    • Transformer 架构:预测大模型基于 Transformer 架构,能处理长序列数据,捕捉时间序列中的长期依赖关系,从而更准确地预测未来价格走势。
    • 预训练与微调:Kronos 提供多种预训练模型,用户可以根据具体任务进行微调,使其更好地适应特定的金融市场数据和预测需求。
    • 多数据源训练:模型训练数据覆盖全球 45+ 交易所,能够适应不同市场环境下的金融数据特点,具备较强的泛化能力。
    • 时间序列建模:Kronos 专注于时间序列建模,能够处理金融数据的高波动性和噪声,提取出有价值的信息用于预测。

    Kronos的项目地址

    • Github仓库:https://github.com/shiyu-coder/Kronos
    • arXiv技术论文:https://arxiv.org/pdf/2508.02739

    Kronos的应用场景

    • 股票市场预测:Kronos 可以分析股票市场的 K 线数据,预测股票价格的未来走势,帮助投资者做出更明智的投资决策。
    • 加密货币交易:适用于加密货币市场,通过对加密货币价格波动的分析,为交易者提供价格预测,辅助制定交易策略。
    • 量化交易策略开发:Kronos 能作为量化交易策略开发中的一个重要工具,为策略提供市场趋势预测,优化交易信号的生成。
    • 市场情绪分析:通过对 K 线图的解读,Kronos 可以反映市场情绪的变化,帮助投资者理解市场参与者的情绪倾向,把握市场脉搏。
    • 风险管理:利用其预测能力,投资者可以更好地评估投资风险,提前做好风险控制措施,降低潜在损失。
    • 金融数据研究:为金融研究人员提供一个强大的工具,用于研究金融市场的规律、价格形成机制以及市场效率等问题。
  • Codexia – 开源的AI编码桌面应用程序,多会话支持

    Codexia是什么

    Codexia是强大的跨平台AI编码桌面应用程序,支持为OpenAI Codex CLI提供图形界面和工具集,增强开发体验。Codexia支持多会话管理、实时流式响应、多种文件格式(如PDF、CSV、XLSX)的内置预览,及灵活的配置选项。用户能自定义AI提供商、模型、沙盒策略等。专业用户体验包括记事本与聊天集成、增强的Markdown渲染、主题选择等。Codexia注重安全性和控制,提供沙盒执行模式和审批工作流。

    Codexia

    Codexia的主要功能

    • 多会话支持:支持同时开启多个独立会话,每个会话能独立运行不同任务或与不同AI模型交互,切换会话不会中断对话,且会话存储持久化,应用重启后能自动恢复。
    • 实时流式响应:AI生成响应时可实时流式显示,字符逐个更新,无需等待完整响应,能通过视觉指示显示生成和思考状态。
    • 多文件格式支持:支持pdf、csv、xlsx等文件格式的内置预览,可在pdf中选择文本,对csv和xlsx文件进行预览和文本选择。
    • 灵活配置:支持多种AI提供商(OpenAI、Ollama等),按会话配置模型(如GPT、Llama),能调整沙盒策略和命令执行审批策略,及选择每个会话的工作目录。
    • 专业用户体验:提供干净、响应式的界面,具备记事本与聊天集成、增强的Markdown渲染、待办事项计划显示、截图作为图像输入、分叉聊天、持久化UI状态和偏好设置、Web预览以及主题和强调色选择等功能。

    如何使用Codexia

    • 下载与安装:访问官网 Codexia GitHub 仓库。
    • 下载应用:在官网页面上找到下载链接,根据操作系统(Windows、Mac、Linux)选择相应的安装包。
    • 安装应用:下载完成后,双击安装包按照提示完成安装。
    • 启动应用:安装完成后,找到 Codexia 应用图标双击启动。
    • 创建会话:启动应用后,点击“新建会话”按钮,创建一个新的会话。在新建的会话中,配置 AI 提供商、模型、工作目录等参数。点击会话设置按钮,选择偏好的配置。
    • 与 AI 交互
      • 输入问题:在会话窗口中,输入问题或指令。例如,输入“生成一个Python脚本,用于计算两个数字的和”。
      • 查看响应:点击发送按钮后,AI 开始处理请求,并实时显示响应结果。
      • 上传文件:如果需要处理文件,点击“上传文件”按钮,选择需要处理的文件(如 PDF、CSV、XLSX 等)。
      • 文件预览:上传文件后,Codexia 自动解析、预览文件内容。
      • 文件操作指令:通过输入指令操作文件,例如“提取PDF第2页的内容”或“分析CSV文件中的数据”。

    Codexia的项目地址

    • 项目官网:https://milisp.vercel.app/
    • GitHub仓库:https://github.com/milisp/codexia

    Codexia的应用场景

    • 编程辅助:程序员用 Codexia 生成代码片段、调试代码问题,提高开发效率。
    • 文档处理:用户上传 PDF、CSV、XLSX 等文件,用 AI 功能进行内容提取、分析和编辑。
    • 数据分析:数据分析师用 Codexia 的文件操作功能,快速处理和分析数据文件,生成报告。
    • 教育与学习:学生和教师Codexia 的交互式聊天功能,进行学习资料的整理和知识点的答疑。
    • 企业办公:企业员工高效处理日常工作中的文档和数据。
  • Lego-Edit – 小米开源的图像编辑框架

    Lego-Edit是什么

    Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在于强大的泛化能力,能在多个基准测试中达到 SOTA 性能,支持局部、全局及多步骤编辑,接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具,方便扩展功能。

    Lego-Edit

    Lego-Edit的主要功能

    • 强大的图像编辑能力:Lego-Edit 能根据用户指令完成多种复杂的图像编辑任务,包括但不限于局部编辑、全局编辑和多步骤编辑,满足不同场景下的图像处理需求。
    • 灵活的指令理解与执行:借助多模态大语言模型(MLLM)的泛化能力,Lego-Edit 可以理解并执行开放域的指令,即使面对未见过的指令,能通过其强大的推理能力进行处理。
    • 模型级工具包的高效利用:框架包含多种在有限数据上高效训练的模型级工具,这些工具具备多种图像操作功能,MLLM 可以通过调用这些工具来完成细粒度的编辑操作,实现高效且精准的图像修改。
    • 无需重新训练即可整合新工具:Lego-Edit 支持在无需额外微调的情况下,整合新引入的编辑工具,使得其功能可以轻松扩展,适应不断变化的图像编辑需求。
    • 掩码输入支持精确编辑:接受掩码输入是 Lego-Edit 的一大亮点,用户可以通过掩码精确指定需要编辑的图像区域,实现更加精准的局部编辑效果。
    • 开源与易用性:Lego-Edit 的代码在 Apache 2.0 许可下开源,模型在 CC BY-NC 4.0 许可下开源,用户可以方便地获取和使用。通过简单的环境搭建和预训练模型下载,可使用 Gradio WebUI 开始图像编辑,降低了使用门槛。

    Lego-Edit的技术原理

    • 模型级工具包:Lego-Edit 集成多种高效训练的模型,每个模型负责特定的图像操作功能,如颜色调整、对象替换等,形成一个功能丰富的工具包,为复杂的图像编辑任务提供基础支持。
    • 多模态大语言模型(MLLM)驱动:利用 MLLM 的强大泛化能力和推理能力,理解用户指令并协调模型级工具包中的不同模型,完成从指令解析到具体操作的转换,实现灵活的图像编辑。
    • 三阶段渐进式强化学习训练策略:首先进行监督微调(SFT),让模型学习基本的图像编辑知识;接着通过强化学习(RL)在特定编辑任务上训练,建立推理能力和工具使用知识;最后利用大量未标注指令进行额外的 RL 训练,由大规模批评模型提供反馈,进一步增强对灵活指令的处理能力。
    • 掩码输入机制:支持用户通过掩码指定需要编辑的图像区域,使编辑操作更加精确,能针对图像的特定部分进行修改,不影响其他区域,提高编辑的灵活性和准确性。
    • 无需重新训练的工具整合:Lego-Edit 能在不进行额外微调的情况下,直接整合新引入的编辑工具,快速适应新的编辑需求,扩展功能范围,保持系统的高效性和可扩展性。

    Lego-Edit的项目地址

    • 项目官网:https://xiaomi-research.github.io/lego-edit/
    • Github仓库:https://github.com/xiaomi-research/lego-edit
    • arXiv技术论文:https://arxiv.org/pdf/2509.12883

    Lego-Edit的应用场景

    • 创意设计领域:设计师可以用 Lego-Edit 快速实现创意构思,通过简单指令完成复杂的图像合成、风格转换等操作,提高设计效率,激发更多创意灵感。
    • 内容创作与编辑:在视频制作、广告设计、社交媒体内容创作等场景中,Lego-Edit 能帮助创作者快速修改图像素材,如调整颜色、替换背景、添加特效等,满足多样化的内容创作需求。
    • 电商与产品展示:电商商家可以使用 Lego-Edit 对产品图片进行优化,如去除瑕疵、调整光线、添加虚拟场景等,提升产品展示效果,增强用户购买意愿。
    • 教育与培训:在教育领域,Lego-Edit 可以作为教学工具,帮助学生学习图像编辑技巧,培养创造力和审美能力。同时,教师也可以利用它快速制作教学课件中的图像素材。
    • 个人照片美化:普通用户可以使用 Lego-Edit 对个人照片进行美化,如去除背景、调整肤色、添加装饰元素等,轻松制作出满意的照片,用于社交媒体分享或个人收藏。
    • 虚拟现实与游戏开发:在虚拟现实和游戏开发中,Lego-Edit 可用于快速生成和修改游戏中的图像资源,如角色外观、场景元素等,提高开发效率,丰富游戏视觉效果。