Author: Chimy

  • Resume Matcher – 开源AI简历优化工具,解析简历和职位描述提供改进建议

    Resume Matcher是什么

    Resume Matcher 是开源的 AI 简历优化工具,帮助求职者提升简历通过自动化筛选系统(ATS)的概率。Resume Matcher基于解析简历和职位描述,提取关键技能、经验和资格相关的关键词,用 FastEmbed 等技术计算文本相似性,提供针对性的改进建议。基于优化简历的可读性,确保内容清晰易懂。Resume Matcher 能有效提升简历与职位的契合度,是求职者优化简历、增加面试机会的得力助手。

    Resume Matcher

    Resume Matcher的主要功能

    • 关键词匹配:从职位描述中提取关键技能、资格和经验相关的关键词,帮助用户优化简历内容。
    • 文本相似性分析:计算简历和职位描述之间的文本相似度,提供量化匹配度评分,帮助用户了解简历与职位的契合程度。
    • 可读性优化:分析简历的可读性,提供改进建议,确保简历内容清晰易懂。
    • ATS 友好性提升:模拟招聘系统(ATS)的工作方式,帮助用户优化简历格式和内容。
    • 深度洞察:提供关于简历的详细分析报告,包括关键词匹配情况、缺失内容提示等。

    Resume Matcher的技术原理

    • 简历解析:用 Python 和相关库(如 textacy)解析简历和职位描述,提取关键信息。
    • 关键词提取:基于机器学习算法从职位描述中提取关键词,确定雇主关注的重点内容。
    • 核心术语提取:用 textacy 等工具识别职位描述中的核心术语和主题,帮助用户理解职位要求的整体背景。
    • 文本相似性计算:基于 FastEmbed 将简历和职位描述转换为向量形式,计算向量相似度,评估匹配程度。

    Resume Matcher的项目地址

    Resume Matcher的应用场景

    • 个人求职:帮助求职者优化简历,提升通过 ATS 筛选的概率,增加面试机会。
    • 招聘筛选:辅助招聘人员快速筛选简历,提高招聘效率,找到更匹配的候选人。
    • 职业指导:为职业规划师提供工具,帮助学员优化简历,提升职业竞争力。
    • 企业人力资源:集成到企业招聘系统,辅助 HR 筛选简历,减少人工工作量。
    • 教育行业:用在高校就业指导,帮助学生优化简历。
  • Granite 3.2 – IBM 开源的多模态系列 AI 模型

    Granite 3.2是什么

    Granite 3.2 是IBM开源的多模态AI模型系列,具备强大的推理、视觉理解和预测能力。Granite 3.2包含多个版本, Granite 3.2 Instruct 提供实验性链式推理能力,显著提升复杂指令执行性能;Granite Vision 3.2 2B 是首个视觉语言模型,专注于文档理解,性能媲美更大规模模型。Granite 3.2 引入稀疏嵌入模型和更高效的守护模型(Guardian),优化资源利用和安全性。

    Granite 3.2

    Granite 3.2的主要功能

    • 推理能力:Granite 3.2 Instruct提供增强的推理能力,支持复杂指令的执行。
    • 多模态理解:Granite Vision 3.2 2B是多模态视觉语言模型,专注于文档理解,性能与比其大五倍的模型相当。
    • 安全监控:Granite Guardian 3.2是安全监控模型,用在检测输入和输出中的风险。

    Granite 3.2的技术原理

    • 链式推理:引入“逐步思考”的提示工程(如“think step by step”),显著提升模型在逻辑推理任务中的表现。推理过程基于 API 参数开关,避免不必要的计算资源浪费。
    • 多模态融合:Granite Vision 3.2 2B 是基于 Transformer 架构的多模态模型,结合视觉和文本输入。用专门的文档理解数据集(如 DocFM)进行指令调优,优化模型对文档和图表的理解能力。
    • 推理扩展技术:增加推理时的计算资源(而非模型大小),提升推理性能。用强化学习(RL)框架优化模型的“思考过程”,在数学推理等任务中表现优异。
    • 稀疏嵌入:与传统的密集嵌入不同,稀疏嵌入的每个维度直接对应模型词汇表中的一个词,可解释性强。适用于短文本检索和匹配任务,性能优于或等于传统的密集嵌入模型。
    • 时间序列预测技术:用轻量级的频率前缀调整(Frequency Prefix Tuning)技术,让模型快速适应不同频率的输入数据。提供多种上下文长度和预测范围的模型变体,优化不同时间序列任务的性能。
    • 安全监控与置信度评估:Granite Guardian 3.2 用强化学习优化风险检测能力,引入“表达置信度”功能,提供更细致的风险评估。基于模型剪枝和优化,降低推理成本和内存占用。

    Granite 3.2的项目地址

    Granite 3.2的应用场景

    • 复杂任务自动化:用在执行复杂指令,如代码生成、数学计算和逻辑推理。
    • 文档理解:处理文档问答、图表分析和关键信息提取。
    • 时间序列预测:支持金融、气象和能源领域的短期到长期预测。
    • 安全监控:检测输入输出中的风险,保障内容安全。
    • 文本检索:优化短文本检索和匹配,提升信息查找效率。
  • hyper-ugc – AI 驱动的 UGC 视频创作平台

    hyper-ugc是什么

    hyper-ugc 是基于人工智能技术的UGC(用户生成内容)视频创作平台,帮助用户快速生成高质量的短视频内容。通过AI虚拟形象技术,替代真人出镜,支持多种社交媒体平台(如TikTok、Instagram等)的视频制作。用户无需专业技能,只需通过简单的操作,可在几分钟内生成具有吸引力的视频。

    hyper-ugc

    hyper-ugc的主要功能

    • AI 虚拟形象生成:hyper-ugc能通过 AI 技术创建逼真的虚拟形象,替代真人出镜,用户可以根据需求选择或定制虚拟形象的外观、性别、风格等,满足不同场景和主题的视频制作需求。
    • 多平台适配:平台支持 TikTok、Instagram、YouTube 等主流社交媒体平台的视频格式和风格,用户可以根据目标平台的特性选择合适的模板和风格,生成适配的视频内容。
    • 快速内容生成:hyper-ugc能在短时间内生成高质量的视频内容。用户只需输入脚本或主题,平台可自动生成完整的视频,提升了内容生产效率。
    • 视频编辑与定制:提供丰富的视频编辑功能,包括添加文本、背景音乐、特效、字幕等。用户可以根据自己的创意对生成的视频进行进一步的定制和优化,更具个性化和吸引力。
    • 多语言支持:hyper-ugc支持多种语言的视频生成,能满足不同地区和用户群体的需求,帮助品牌和创作者突破语言限制,拓展全球市场。
    • 一键发布:平台支持将生成的视频一键导出并发布到各大社交媒体平台,简化了发布流程,提高了内容分发的效率。
    • 数据分析与优化:提供视频表现的数据分析功能,帮助用户了解视频的互动率、观看时长等关键指标,优化后续内容创作的方向和策略。
    • 高互动性设计:平台内置多种病毒性元素和互动设计,能提升视频的吸引力和用户互动率,帮助内容在社交媒体上获得更好的传播效果。

    hyper-ugc的官网地址

    hyper-ugc的应用场景

    • 品牌推广:品牌商可以用 hyper-ugc快速生成与品牌形象匹配的 UGC 视频,用于产品推广。
    • 内容创作者:创作者可以借助 hyper-ugc的高效视频生成能力,快速制作个性化短视频,用于个人社交媒体账号。
    • 电商平台:电商平台可用 hyper-ugc为商品制作推广视频。AI 虚拟形象能模拟真实用户展示商品,生成具有吸引力的视频内容,提升商品的曝光率和销售转化率。
    • 多语言内容制作:hyper-ugc支持多种语言的视频生成,帮助品牌和创作者突破语言限制,拓展全球市场。
  • 混元图生视频 – 腾讯混元开源的图生视频模型

    混元图生视频是什么

    混元图生视频是腾讯混元推出的开源图生视频模型,用户可以通过上传一张图片进行简短描述,让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动漫和CGI等多种角色和场景,总参数量为130亿。腾讯混元图生视频模型已在腾讯云上线,用户可通过混元AI视频官网使用体验。混元图生视频模型在Github、HuggingFace等主流开发者社区开源,包含权重、推理代码和LoRA训练代码,开发者可以基于此训练专属LoRA等衍生模型。

    hunyuanvideo-i2v

    混元图生视频的主要功能

    • 图生视频生成:用户只需上传一张图片输入简短描述,模型可将静态图片转化为5秒的短视频,同时支持自动生成背景音效。
    • 音频驱动功能:用户可以上传人物图片,输入文本或音频,模型能精准匹配嘴型,让图片中的人物“说话”或“唱歌”,呈现符合语气的面部表情。
    • 动作驱动功能:用户上传图片后,选择动作模板,模型可让图片中的人物完成跳舞、挥手、做体操等动作,适用于短视频创作、游戏角色动画和影视制作。
    • 高质量视频输出:支持2K高清画质,适用于写实、动漫和CGI等多种角色和场景。

    混元图生视频的技术原理

    • 图像到视频的生成框架:HunyuanVideo-I2V通过图像潜在拼接技术,将参考图像的信息整合到视频生成过程中。输入图像首先经过预训练的多模态大型语言模型(MLLM)处理,生成语义图像token,然后与视频潜在token拼接,实现跨模态的全注意力计算。
    • 多模态大型语言模型(MLLM):模型采用具有Decoder-only结构的MLLM作为文本编码器,显著增强了对输入图像语义内容的理解能力。与传统的CLIP或T5模型相比,MLLM在图像细节描述和复杂推理方面表现更佳,能够更好地实现图像与文本描述信息的深度融合。
    • 3D变分自编码器(3D VAE):为了高效处理视频和图像数据,HunyuanVideo-I2V使用CausalConv3D技术训练了一个3D VAE,将像素空间中的视频和图像压缩到紧凑的潜在空间。这种设计显著减少了后续模型中的token数量,能在原始分辨率和帧率下进行训练。
    • 双流转单流的混合模型设计:在双流阶段,视频和文本token通过多个Transformer块独立处理,避免相互干扰;在单流阶段,将视频和文本token连接起来,进行多模态信息融合。这种设计捕捉了视觉和语义信息之间的复杂交互,提升了生成视频的连贯性和语义一致性。
    • 渐进式训练策略:模型采用渐进式训练策略,从低分辨率、短视频逐步过渡到高分辨率、长视频。提高了模型的收敛速度,确保了生成视频在不同分辨率下的高质量。
    • 提示词重写模型:为解决用户提示词的语言风格和长度多变性问题,HunyuanVideo-I2V引入了提示词重写模块,能将用户输入的提示词转换为模型更易理解的格式,提高生成效果。
    • 可定制化LoRA训练:模型支持LoRA(Low-Rank Adaptation)训练,支持开发者通过少量数据训练出具有特定效果的视频生成模型,例如“头发生长”或“人物动作”等特效。

    混元图生视频的项目地址

    如何使用混元图生视频

    • 通过混元AI视频官网体验:用户可以直接访问腾讯混元AI视频官网,选择图生视频,上传一张图片输入简短描述,可生成5秒的短视频。
    • 使用腾讯云API接口:企业和开发者可以通过腾讯云申请API接口,实现更高效的视频生成和定制化开发。
    • 本地部署开源模型:对于需要更高定制化的用户,腾讯混元图生视频模型已在GitHub开源,支持本地部署和定制化开发。
    • 硬件要求
      • GPU:NVIDIA显卡,支持CUDA,最低60GB显存(生成720p视频),推荐80GB显存。
      • 操作系统:Linux(官方测试环境)。
      • CUDA版本:推荐CUDA 11.8或12.0。

    混元图生视频

    混元图生视频的应用场景

    • 创意视频生成:通过上传图片和描述生成短视频。
    • 特效制作:通过LoRA训练实现定制化特效,如头发生长、人物动作等。
    • 动画与游戏开发:快速生成角色动画,降低制作成本。
  • BGE-VL – 智源研究院联合多所高校开源的多模态向量模型

    BGE-VL是什么

    BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检索,基于高效的多模态数据合成方法提升模型的泛化能力和检索性能。BGE-VL 系列包括基于 CLIP 架构的 BGE-VL-Base 和 BGE-VL-Large,基于多模态大模型架构的 BGE-VL-MLLM。模型在多个基准测试中表现出色,在组合图像检索任务中刷新了现有基准,显著提升检索精度。BGE-VL 的核心优势在于数据合成方法的可扩展性和高质量,模型在多模态任务上的卓越泛化能力。

    BGE-VL

    BGE-VL的主要功能

    • 图文检索:根据输入的文本描述检索出与之最相关的图像,或根据输入的图像检索出相关的文本信息。
    • 组合图像检索:支持用户同时输入图像和文本指令,综合理解两者信息检索出更精准的目标图像
    • 多模态嵌入:将图像和文本映射到统一的向量空间中,让不同模态的数据用向量相似度进行比较和检索。
    • 指令微调:基于合成的多模态指令数据对模型进行微调,更好地理解和执行复杂的多模态任务,提升模型的泛化能力和任务适应性。

    BGE-VL的技术原理

    • 数据合成方法(MegaPairs)
      • 数据挖掘:从海量图文语料库中挖掘多样化的图像对,用多种相似度模型(如 CLIP 等)找到与查询图像相关的候选图像。
      • 指令生成:基于多模态大语言模型(MLLM)和大语言模型(LLM)生成开放域检索指令,总结图像对之间的关联关系,撰写高质量的检索指令。
      • 三元组构造:生成包含“查询图像、查询语句、目标图像”的多模态三元组数据,用在模型训练。数据无需人工标注,具有高效性和可扩展性。
    • 多模态模型架构
      • 基于 CLIP 的架构:BGE-VL-Base 和 BGE-VL-Large 用类似 CLIP 的架构,将图像编码器和文本编码器将图像和文本映射到同一向量空间中,对比学习优化模型性能。
      • 多模态大模型架构:BGE-VL-MLLM 基于更复杂的多模态大模型架构,处理复杂的多模态交互和指令理解任务。
      • 指令微调:基于合成的多模态指令数据对模型进行微调,增强模型对多模态任务的理解和执行能力。
    • 对比学习与优化:在训练过程中,模型对比学习优化多模态嵌入的向量表示,让相关图像和文本在向量空间中更接近,不相关的数据则更远离。基于大规模合成数据的训练,模型学习到更泛化的多模态特征表示,在多种多模态任务中表现出色。

    BGE-VL的项目地址

    BGE-VL的应用场景

    • 智能搜索:用户上传图片或输入文字,快速找到相关内容,提升搜索精准度。
    • 内容推荐:根据用户上传的内容或兴趣,推荐相似的图文资料,增强个性化体验。
    • 图像编辑辅助:帮助设计师快速找到风格相似的参考图像,提高创作效率。
    • 智能客服:结合图像和文字理解用户问题,提供更直观的解决方案,提升服务效率。
    • 文化遗产研究:基于图片和文字检索,快速找到相关文物或研究资料,助力考古和保护工作。
  • Aya Vision – Cohere 推出多模态、多语言的视觉模型

    Aya Vision是什么

    Aya Vision 是 Cohere 推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持 23 种语言,能执行图像描述生成、视觉问答、文本翻译和多语言摘要生成等任务。Aya Vision 有两个版本:Aya Vision 32B 和 Aya Vision 8B,分别在性能和计算效率上各有优势。模型通过合成标注和多语言数据增强技术进行训练,能在资源有限的情况下实现高效表现。

    Aya-Vision

    Aya Vision的主要功能

    • 图像描述生成:Aya Vision 能根据输入的图像生成准确且详细的描述文本,帮助用户快速理解图像内容,适用于视觉障碍人士或需要快速提取图像信息的场景。
    • 视觉问答(VQA):用户可以上传图片并提出与图片相关的问题,Aya Vision 能结合视觉信息和语言理解能力,提供准确的答案。
    • 多语言支持:Aya Vision 支持 23 种主要语言,能处理多语言的文本输入和输出。可以在不同语言环境中生成图像描述、回答问题或翻译文本,打破语言壁垒。
    • 文本翻译与摘要生成:Aya Vision 能翻译文本内容,生成简洁的摘要,帮助用户快速获取关键信息。
    • 跨模态理解与生成:Aya Vision 能将视觉信息与语言信息相结合,实现跨模态的交互。例如,可以将图像内容转化为文本描述,或将文本指令转化为视觉搜索结果。

    Aya Vision的技术原理

    • 多模态架构:Aya Vision 采用模块化架构,包含视觉编码器、视觉语言连接器和语言模型解码器。视觉编码器基于 SigLIP2-patch14-384,负责提取图像特征;视觉语言连接器将图像特征映射到语言模型的嵌入空间,解码器用于生成文本输出。
    • 合成标注与数据增强:为了提升多语言性能,Aya Vision 使用合成标注(由 AI 生成的标注)进行训练。这些标注通过翻译和重述处理,增强了多语言数据的质量。模型采用了动态图像分辨率处理和像素混洗下采样技术,提高计算效率。
    • 两阶段训练过程:Aya Vision 的训练分为两个阶段:视觉语言对齐和监督微调。第一阶段对齐视觉和语言表示,第二阶段则在多模态任务上联合训练连接器和语言模型。
    • 高效计算性能: Aya Vision 的参数规模较小(8B 和 32B),但性能在多个基准测试中超越了更大规模的模型,如 Llama-3.2 90B Vision。在于高效的训练策略和对计算资源的优化。

    Aya Vision的项目地址

    Aya Vision的应用场景

    • 教育领域:Aya Vision 可以帮助学生和教师更好地理解视觉内容。例如,通过图像描述功能,学生可以快速了解艺术品的风格和起源。
    • 内容创作:Aya Vision 能为多语言网站生成图像描述,提升用户体验。可以用于生成创意内容,如新闻报道、故事或诗歌等。
    • 辅助工具:Aya Vision 可以作为辅助工具,帮助视觉障碍人士通过图像描述理解周围环境。
    • 多语言翻译与交流:Aya Vision 支持 23 种语言的文本翻译和摘要生成,能帮助用户跨越语言障碍进行交流。
    • 研究与开发:研究人员可以基于高效性和多语言支持能力,探索新的应用场景。
  • 如何用AI制作哪吒表情包?ComfyUI工作流喂饭级教程

    用AI制作表情包真的太香了,以前一套表情包要做好几周,现在分分钟搞定。

    接下来给大家分享一下,我用ComfyUI做的最近爆火的哪吒表情包全过程。

    ComfyUI好用是好用,但是对0基础的朋友来说,本地安装、每次加载新工作流节点频频报错,真挺让人头痛的。

    最近我发现直接用ComfyUI在线工作流,直接就能一键做同款,吐司AI上千款模型和lora随便用,这也太香了!

    01

    在线生图

    进入吐司AI的首页。

    搜索【哪吒】,就会出来很多相关的模型、lora、小工具。第一排第3个封面中的哪吒就画得很不错,我们直接点击图片,查看详情。

    在页面的信息里,我们可以了解到,想要生成封面这样的效果,需要FLUX.1模型搭配这个lora。

    lora的触发词是nz,简单来说就是我们的提示词里包含nz,lora才会生效,帮助我们生成想要的哪吒形象。

    点击案例图,我们可以看到生成这张图片的全部信息,可以点击右下角一键get同款。

    点击做同款后,就到了和Stable Diffusion Web UI类似的操作页面,并且自动帮你填好了提示词,你可以一键使用和作者同样的参数~

    这样就得到了封面同款哪吒。

    我们直接调整提示词,就可以做出哪吒不同动作、表情的图片啦~

    02

    创建文生图工作流

    在线工作流和在线生图效果差不多,但是工作流是节点式的,只要跑过一次,参数不变就不需要每次都设置,非常适合批量出图。

    接下来,我们一起创建一个基础的文生图工作流。

    我们点击首页的工作流模式。

    点击新建工作流。

    这里有很多基础的工作流模板,我们刚才生成的哪吒图片用到FLUX模型和lora,所以这里直接选择FLUX&lora的模板。

    点击使用,一个基础的文生图工作流就创建好啦。

    画布上的一个个小模块,就是节点。

    我们点击空白处可以拖动画布,鼠标滚轮可以控制画布大小,在节点上按住左键不放,可以拖动节点。

    节点的左右侧的彩色小圆点,左侧的就是输入节点,右侧的是输出节点。

    它们遵循同色相连、左进右出、单进多出(单个输入节点最多只能连接1条连线;单个输出节点可以连接多条连线)的规律。

    我们试着复原一下前面画的哪吒图片。

    点击Checkpoint名称。

    云端有超级多模型可供选择,这里我们选择FLUX.1-dev-fp8模型,点击使用。

    同样的方法,我们选择哪吒-魔童闹海F1的lora,并且设置模型强度(权重)为0.8。

    输入正向提示词:

    A fantasy masterpiece: ‘Nazar’s Fury’. A 6-year-old shota, Nazaha, stands defiantly, his black hair ablaze with fiery locks. His red eyes glow like embers as he pouts his lips in disdain. He holds a polearm, its metal shaft gleaming in the vibrant colors of the scene. His upper body is bare, while his lower half is clad in red shorts and bound by a crimson ribbon. The ground beneath him crackles with fireballs, each foot stepped on one as he stands firm. In the background, a man continues to smile serenely, amidst the fiery chaos. Perfectly framed, this 8K wallpaper masterpiece is a symphony of colors, composition, and lighting, a true work of art.

    Flux.1模型不支持负向提示词,我们可以点击节点左上角的灰色圆点,把它折叠起来,让界面更简洁。

    潜空间图像,我们在这里调节生成图片的尺寸和单次生成图片的数量。

    K采样器的参数可以参考在线生图的设置。

    我想复刻哪吒的案例图,所以这里随机种填和案例一样的834084145。

    其他节点保持默认参数即可,点击页面最下方的运行。

    等待1分钟左右,就生成了2张哪吒的图片啦。

    后续只需要慢慢调整提示词中关于表情、动作相关的内容,就可以生成形象一致的各种表情包啦~

    我还尝试生成了四宫格表情包,效果也挺不错的。正向提示词:
    nz, A medium – sized Asian doll, her hair neatly pulled back in a ponytail, with the entire head and hair fully within the frame, presented in a clear 2×2 grid, each cell featuring a distinct expression of the same Nezha character. High – resolution, with vivid and sharp digital painting details.Top row:First face: Nezha with eyes gently closed, head slightly tilted back, a contented smile on the lips, showing a look of pure enjoyment, as if savoring a delicious treat or a wonderful melody.Second face: Nezha’s eyes are wide open, almost popping out, with a look of shock and curiosity, eyebrows raised high, as if suddenly seeing something extremely astonishing.Bottom row:First face: Nezha is crying, with big, fat tears rolling down the cheeks, eyes red and puffy, mouth quivering, looking extremely sad and heartbroken.Second face: Nezha wearing a warm, friendly smile, with eyes slightly curved, exuding a sense of kindness and approachability, the corners of the mouth turned up gently.Nezha is dressed in his classic, eye – catching red and yellow outfit, adorned with a vibrant red headband, his arms and legs exposed, and a prominent small red mark on his forehead.

    03

    ComfyUI高清修复工作流

    看着生成的图片效果还行,但是感觉清晰度还不太行,于是我在工作流里搭建了高清修复的节点。

    高清修复的节点中,K采样器保持和文生图中的一致就可以啦~可以通过调节降噪的数值大小,来调节最终效果,推荐设置0.5-1之间。

    非潜空间放大分组的节点中,还需要选择合适的放大模型。

    我们生成人物表情包,主要需要面部的一些修复,所以这里的放大模型选择4xFaceUpSharpDAT.pth。

    我们点击运行,此时工作流会生成3张图片,分别是文生图图像和2种方式放大后的图像。

    对比一下3张图像,用非潜空间放大的图像是最清晰的,我们可以在其他两个分组中单击右键,停用分组节点,只保留效果最好的一个运行~能节约一些算力。

    点击页面右上角的发布,可以把工作流上传到吐司,共享给小伙伴们。

    大家点击下方链接,就可以使用同款小工具啦~

    https://tusiart.com/template/run/836929649576720604

    04

    AI生成视频

    前面我们已经生成好了哪吒的各种表情图片。接下来我们把这些图片分别做成视频。

    我们打开智谱清影,选择图生视频。

    上传刚刚做好的图片,然后简单描述一下你想要的动态效果。

    提示词:小孩托着双颊,情绪沮丧,微微向左右摇头

    05

    添加文字

    将视频转为动态表情包

    打开剪映,上传做好的视频,添加字幕。

    导出时,选择GIF导出,分辨率为240P。

    说了这么多,但是这些也只是ComfyUI工作流使用的一点皮毛而已,但是你能掌握这些,就能顺畅使用平台上各类优秀的工作流。

    至于更精细化的了解ComfyUI,大家需要在自己的使用过程中,慢慢地边学边了解。希望这篇教程能让你觉得使用ComfyUI工作流不是一个遥不可及的难事,只需要稍稍地学习一点点,就能高效用起来。

    本文涉及的所有工具:

    吐司AI:https://ai-bot.cn/tusiart/

    智谱清影:https://ai-bot.cn/qingying/

    原文链接:ComfyUI喂饭教程:3分钟教会你用AI制作哪吒表情包

  • TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画

    TheoremExplainAgent是什么

    TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAgent支持生成超过5分钟的教育视频,覆盖多个STEM领域(如数学、物理、化学和计算机科学)。为评估性能,研究者推出TheoremExplainBench(TEB)基准数据集,包含240个定理,从准确性、深度、逻辑流程、视觉相关性和元素布局等多个维度进行评估。实验表明,TheoremExplainAgent在生成长篇视频的成功率上表现优异,能揭示文本解释中容易遗漏的深层次推理错误,为AI生成教育内容提供新的思路。

    TheoremExplainAgent

    TheoremExplainAgent的主要功能

    • 生成长篇视频:根据输入的定理生成超过5分钟的解释视频,涵盖数学、物理、化学和计算机科学等多个学科。
    • 多模态解释:结合文本、动画和语音,基于视觉化的方式增强对抽象概念的理解。
    • 自动错误诊断:基于视频形式暴露推理错误,帮助开发者更清晰地诊断模型的逻辑漏洞。
    • 跨学科通用性:支持不同难度级别的定理(从高中到研究生水平),适用于多种STEM领域。
    • 系统化评估:基于TheoremExplainBench基准和多维度评估指标,系统地衡量生成视频的质量和准确性。

    TheoremExplainAgent的技术原理

    • 规划代理:负责根据输入的定理生成视频的整体计划,包括场景划分、每个场景的目标、内容描述及视觉布局。
    • 用链式思维(Chain-of-Thought)和程序化思维(Program-of-Thought)等技术,确保视频内容的逻辑连贯性和深度。
    • 编码代理:根据规划代理生成的详细计划,用Manim(一个用于创建数学动画的Python库)生成动画脚本。基于检索增强生成(RAG)技术,用Manim文档作为知识库,动态检索代码片段和API文档,提高代码生成的准确性和效率。在代码生成过程中,自动检测和修复错误,确保视频正确渲染。
    • 多模态融合:视频内容结合文本叙述、动画演示和语音解说,基于视觉化的方式增强对定理的理解。用图像处理技术和自然语言处理模型(如GPT-4o和Gemini 2.0 Flash)对生成的视频进行多维度评估,确保内容的准确性和视觉质量。
    • 系统化评估:引入TheoremExplainBench基准,包含240个定理,覆盖多个学科和难度级别。推出五个自动评估指标(准确性、视觉相关性、逻辑流程、元素布局和视觉一致性),全面衡量AI生成视频的质量。

    TheoremExplainAgent的项目地址

    TheoremExplainAgent的应用场景

    • 在线教育:为学生提供生动的定理解释视频,辅助在线学习。
    • 课堂教学:作为教师的教学辅助工具,增强学生的视觉化学习体验。
    • 学术研究:帮助研究人员快速理解复杂定理,生成配套的科研视频。
    • 技术开发:为算法和模型生成解释视频,助力工程师和技术人员理解原理。
    • 科普传播:制作面向公众的科普视频,提升科学传播效果。
  • SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型

    SpatialVLA是什么

    SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3D空间理解能力。SpatialVLA基于Ego3D位置编码将3D空间信息与语义特征融合,用自适应动作网格将连续动作离散化,实现跨机器人平台的泛化控制。SpatialVLA 在大规模真实机器人数据上预训练,展现出强大的零样本泛化能力和空间理解能力,在复杂环境和多任务场景中表现突出。SpatialVLA 开源代码和灵活的微调机制为机器人领域的研究和应用提供了新的技术路径。

    SpatialVLA

    SpatialVLA的主要功能

    • 零样本泛化控制:在未见过的机器人任务和环境中直接执行操作,无需额外训练。
    • 高效适应新场景:用少量数据微调,快速适应新的机器人平台或任务。
    • 强大的空间理解能力:理解复杂的3D空间布局,执行精准的操作任务,如物体定位、抓取和放置。
    • 跨机器人平台的通用性:支持多种机器人形态和配置,实现通用的操作策略。
    • 快速推理与高效动作生成:基于离散化动作空间,提高模型推理速度,适合实时机器人控制。

    SpatialVLA的技术原理

    • Ego3D位置编码:将深度信息与2D语义特征结合,构建以机器人为中心的3D坐标系。消除对特定机器人-相机校准的需求,让模型感知3D场景结构适应不同机器人平台。
    • 自适应动作网格:将连续的机器人动作离散化为自适应网格,基于数据分布划分动作空间。不同机器人的动作用网格对齐,实现跨平台的动作泛化和迁移。
    • 空间嵌入适应:在微调阶段,根据新机器人的动作分布重新划分网格,调整空间嵌入。提供灵活且高效的机器人特定后训练方法,加速模型适应新环境。
    • 预训练与微调:在大规模真实机器人数据上进行预训练,学习通用的操作策略。在新任务或机器人平台上进行微调,进一步优化模型性能。

    SpatialVLA的项目地址

    SpatialVLA的应用场景

    • 工业制造:用于自动化装配和零件搬运,快速适应不同生产线,提高生产效率。
    • 物流仓储:精准抓取和搬运货物,适应动态环境,优化物流效率。
    • 服务行业:完成递送、清洁和整理任务,理解自然语言指令,适应复杂环境。
    • 医疗辅助:传递手术器械、搬运药品,确保操作精准和安全。
    • 教育与研究:支持快速开发和测试新机器人应用,助力学术研究。
  • Light-R1 – 360智脑开源的长思维链推理模型

    Light-R1是什么

    Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 Light-R1-32B。模型基于Qwen2.5-32B-Instruct,用7万条数学数据和两阶段课程学习(SFT+DPO)训练,实现从零超越DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中,Light-R1取得76.6分,显著高于DeepSeek-R1-Distill的72.6分。模型训练成本低,仅需12台H800机器运行6小时,成本约1000美元。模型支持全量开源,包括模型、数据集、训练框架和评测代码,推动开源社区发展,为低成本训练领域专精模型提供参考。

    Light-R1

    Light-R1的主要功能

    • 高效数学问题解决:能快速、准确地解决复杂的数学问题,包括但不限于代数、几何、概率等领域。
    • 推理能力提升:具备较强的逻辑推理能力,支持处理长思维链问题。
    • 泛化能力:在其他领域(如逻辑推理、语言理解)表现出泛化能力。
    • 低成本训练与部署:极低的成本实现高性能,适合资源有限的用户或企业快速部署和应用。

    Light-R1的技术原理

    • 基础模型与起点:模型基于 Qwen2.5-32B-Instruct 开发,实现从零到超越 DeepSeek-R1-Distill 的性能提升。
    • 课程学习
      • SFT(Supervised Fine-Tuning):筛选难度分级的数据,分两阶段进行有监督的微调。第一阶段用 7 万条数据,第二阶段筛选出难度最高的 3 千条数据进一步微调。
      • DPO(Direct Preference Optimization):在 SFT 的基础上,基于多次采样和偏好对的构建,优化模型的输出质量。
    • 数据处理与去重:训练数据来自多个开源数学数据集(如 OpenR1-Math-220k、OpenThoughts-114k 等),经过严格的数据去重处理,避免测试数据泄露对模型性能的影响。
    • 模型融合:最终的 Light-R1-32B 是融合 SFT 阶段 2、DPO 和另一个 DPO 版本的模型得到的。进一步提升模型的性能和稳定性。
    • 训练框架与优化:用 360-LLaMA-Factory 训练框架,支持序列并行和高效的分布式训练。基于优化训练流程,Light-R1 在 12 台 H800 机器上仅需 6 小时即可完成训练。

    Light-R1的项目地址

    Light-R1的应用场景

    • 教育领域:作为数学学习工具,帮助学生解决复杂问题,提供解题步骤和思路,适用于数学竞赛和日常学习。
    • 科研与学术:辅助数学研究和跨学科问题解决,例如物理建模、工程优化等。
    • 企业应用:用于数据分析、风险评估、供应链优化等复杂问题的解决。
    • 软件集成:集成到智能助手、数学软件中,增强推理和解题功能。
    • 开源与开发者:支持开发者定制和扩展模型,推动开源社区发展。