Author: Chimy

  • 凹凸工坊 – AI手写稿件生成工具,提供多种手写字体风格

    凹凸工坊是什么

    凹凸工坊是专业的在线 AI 手写稿件生成工具,支持将Word文档一键转换为真实的手写稿图片。工具提供多种手写字体、纸张背景及涂改率和凌乱度的调整功能,模拟真实的手写场景,生成的图片无水印且支持高清打印(600dpi)。工具的超级DIY功能和放宽的文件大小限制,进一步提升使用体验,适用于需要手写稿的多种场景,如作业、书信等。

    凹凸工坊

    凹凸工坊的主要功能

    • 文档转换:将Word文档一键转换为手写稿图片,支持多种格式的文档输入。
    • 字体选择:提供多种手写字体风格,用户根据需求选择不同的字体。
    • 纸张背景:支持多种纸张背景,包括实拍版和打印版,如红线信纸、普通稿纸等。
    • 涂改与凌乱度调整:支持设置随机勾画和涂改的概率(0%-100%),模拟真实手写的凌乱度。
    • 高清无水印输出:生成的图片无水印,支持高清打印(600dpi),适合多种用途。
    • 超级DIY功能:用户能自定义更多细节,满足个性化需求。
    • 快速预览与下载:实时预览转换效果,快速下载高清无水印的手写稿图片。

    如何使用凹凸工坊

    • 访问官网:访问凹凸工坊的官方网站
    • 上传文档:点击“上传文件”按钮,选择需要转换的Word文档。支持的文件大小上限为1.5MB。
    • 设置参数
      • 选择字体:从提供的手写字体中选择一种。
      • 选择纸张背景:选择喜欢的纸张类型,如红线信纸、普通稿纸等。
      • 调整涂改率和凌乱度:设置随机勾画和涂改的概率。
      • 高级设置:根据需要进行其他个性化设置。
    • 预览效果:点击“预览”按钮,查看生成的手写稿效果。
    • 下载手写稿:点击“下载文件”按钮,将生成的手写稿图片保存到本地。

    凹凸工坊的应用场景

    • 作业与学习:帮助学生快速生成手写作业,提升效率。
    • 书信与贺卡:制作手写书信、贺卡,增添情感温度。
    • 创意写作与手账:辅助创作者生成手写风格的文本,用在写作或装饰手账。
    • 教学与培训:教师将教学材料转换为手写稿,增强教学效果。
    • 商业与营销:用在商业宣传或客户沟通,传递个性化信息。
  • Stitch – 谷歌实验室推出的AI工具,能生成UI设计和前端代码

    Stitch是什么

    Stitch 是谷歌实验室(Google Labs)推出的基于生成式AI工具。能将简单的英语描述或图像迅速转化为用户界面(UI)设计以及支持运行的前端代码。Stitch 基于 Gemini 2.5 Pro 模型的多模态能力,用户可以通过自然语言描述或上传视觉素材(如草图、截图、线框图等)生成UI设计。Stitch 能识别输入,快速生成多种设计选项,方便用户调整和优化。可以将生成的设计无缝粘贴到 Figma 中,方便进一步优化、团队协作以及与现有设计系统的集成。

    Stitch

    Stitch的主要功能

    • 文本生成设计:用户可以通过简单的英语描述来生成用户界面(UI)设计。Stitch 能根据描述生成相应的设计。
    • 图像生成设计:用户可以上传草图、截图或线框图等视觉素材,Stitch 能识别这些图像生成相应的UI设计。
    • 图像识别与转换:Stitch 基于先进的图像识别技术,将图像中的元素转化为实际的UI组件,支持多种图像格式。
    • 代码生成:设计完成后,Stitch 可以生成简洁、可用的前端代码,支持HTML、CSS和JavaScript等多种编程语言。
    • 代码优化:生成的代码经过优化,确保高效运行,用户可以直接将其部署到实际项目中。
    • 与Figma集成:生成的设计可以无缝粘贴到Figma中,方便团队协作和进一步优化。
    • 文本与图像结合:用户可以同时使用文本描述和图像输入,Stitch 能综合这些信息生成更精准的设计。
    • 交互式设计:用户可以在生成的设计上进行实时编辑和调整,Stitch 会即时反馈并更新设计。

    Stitch的官网地址

    Stitch的应用场景

    • 设计师:设计师可以快速将创意转化为可视化的界面设计,通过简单的文本描述或草图即可生成初步的设计方案。有助于在早期阶段快速验证设计概念,节省时间和精力。
    • 开发者:开发者可以用 Stitch 生成的前端代码,快速搭建出可运行的原型,进行功能测试和用户反馈收集。
    • 教学工具:在设计和开发相关的课程中,Stitch 可以作为教学工具,帮助学生快速理解 UI 设计和前端开发的基本概念。通过实际操作生成设计和代码,学生可以更直观地学习和掌握相关技能。
    • 实践平台:学生和新手开发者可以用 Stitch 进行实践,快速生成项目原型,积累实际操作经验。
    • 个人开发者:个人开发者可以用 Stitch 快速生成个人项目的界面设计和代码,专注于核心功能的开发。
  • BAGEL – 字节跳动开源的多模态基础模型

    BAGEL是什么

    BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型。文本到图像生成质量与SD3相当,在图像编辑场景中也优于许多开源模型。BAGEL能进行自由形式的图像编辑、未来帧预测、三维操作和世界导航等任务。

    BAGEL

    BAGEL的主要功能

    • 图像与文本融合理解:BAGEL能深入理解图像和文本之间的关系,准确地将图像内容与文本描述相结合。
    • 视频内容理解:BAGEL能处理视频数据,理解视频中的动态信息和语义内容。能捕捉视频的关键信息并进行有效的分析。
    • 文本到图像生成:用户可以通过输入文本描述来生成相应的图像。BAGEL能根据文本内容生成高质量、与描述匹配的图像。
    • 图像编辑与修改:BAGEL支持对现有图像进行编辑和修改。BAGEL能根据指令生成修改后的图像,实现自由形式的图像编辑。
    • 视频帧预测:BAGEL能预测视频中的未来帧。基于视频的前几帧,模型可以生成后续的帧内容,恢复视频的完整性。
    • 三维场景理解与操作:BAGEL能理解和操作三维场景。可以对三维物体进行识别、定位和操作,例如在虚拟环境中移动物体、改变物体的属性等。
    • 世界导航:BAGEL具备世界导航能力,可以在虚拟或现实的三维环境中进行路径规划和导航。
    • 跨模态检索:BAGEL能实现跨模态检索功能,例如根据文本描述检索与之匹配的图像或视频,或者根据图像内容检索相关的文本信息。
    • 多模态融合任务:在多模态融合任务中,BAGEL可以将来自不同模态的数据(如图像、文本、语音等)进行有效融合,生成综合的结果。

    BAGEL的技术原理

    • 双编码器设计:BAGEL采用了混合变换器专家架构(MoT),架构包含两个独立的编码器。一个编码器负责处理图像的像素级特征,另一个编码器则专注于图像的语义级特征。双编码器设计使模型能同时捕捉图像的低层次细节和高层次语义信息。
    • 专家混合机制:在MoT架构中,每个编码器内部包含多个专家(Expert)模块。这些专家模块可以看作是小的子网络,每个专家专注于处理特定类型的特征或任务。通过在训练过程中动态选择最合适的专家组合,模型能更高效地处理复杂的多模态数据。
    • 标记化处理:BAGEL将输入的多模态数据(如图像、文本)转化为一系列标记(Token)。对于图像,模型会将其分割成多个小块(Patch),每个小块被视为一个标记;对于文本,每个单词或子词也被视为一个标记。
    • 预测任务:模型的训练目标是预测下一个标记组。在训练过程中,模型会看到一部分标记序列,尝试预测接下来的标记。
    • 压缩与学习:通过这种预测任务,模型能学习到多模态数据的内在结构和关系。预测下一个标记的过程迫使模型压缩和理解输入数据的关键信息,提高其对多模态数据的理解和生成能力。
    • 海量数据:为了训练BAGEL,字节跳动使用了来自语言、图像、视频和网络数据的数万亿个多模态标记进行预训练。数据涵盖了各种场景和领域,模型能学习到广泛的多模态特征和模式。
    • 优化策略:在训练过程中,BAGEL采用了先进的优化策略,如混合精度训练、分布式训练等,提高训练效率和模型性能。

    BAGEL的项目地址

    BAGEL的应用场景

    • 内容创作与编辑:用户可以通过输入文本描述生成高质量的图像。BAGEL能对现有图像进行编辑和修改。
    • 三维场景生成:BAGEL能生成三维场景,为VR和AR应用提供丰富的视觉内容。
    • 可视化学习:BAGEL可以将复杂的概念通过图像或视频形式展示出来,帮助学生更好地理解。
    • 创意广告生成:广告商可以用BAGEL生成吸引人的广告图像和视频。例如,根据产品特点生成创意广告海报或短视频。
    • 用户交互体验:在电商平台上,BAGEL可以生成产品的3D模型和虚拟展示,提升用户的购物体验。
  • Gemma 3n – 谷歌推出的端侧多模态AI模型

    Gemma 3n是什么

    Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。模型参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型。Gemma 3n 支持文本、图像、短视频和音频输入,可生成结构化文本输出。新增的音频处理能力,能实时转录语音、识别背景音或分析音频情感。可通过 Google AI Studio 直接在浏览器中使用。

    Gemma 3n

    Gemma 3n的主要功能

    • 多模态输入:支持文本、图像、短视频和音频输入,可生成结构化文本输出。例如,用户可上传照片并询问“图中的植物是什么?”,或通过语音指令分析短视频内容。
    • 音频理解:新增音频处理能力,能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
    • 设备端运行:无需云端连接,所有推理在本地完成,响应时间低至 50 毫秒,确保低延迟和隐私保护。
    • 高效微调:支持在 Google Colab 上进行快速微调,开发者可通过几小时的训练定制模型,适配特定任务。
    • 长上下文支持:Gemma 3n 支持最长 128K tokens 的上下文长度。

    Gemma 3n的技术原理

    • 基于 Gemini Nano 架构:Gemma 3n 继承了 Gemini Nano 的轻量化架构,专为移动设备优化。通过知识蒸馏和量化感知训练(QAT),在保持高性能的同时大幅降低资源需求。
    • 逐层嵌入技术:采用逐层嵌入(Per-Layer Embeddings,PLE)技术,显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型,只需 2GB 或 3GB 的动态内存即可运行。
    • 多模态融合:结合了 Gemini 2.0 的分词器和增强的数据混合,支持 140 多种语言的文本和视觉处理,覆盖全球用户需求。
    • 局部/全局层交错设计:采用 5:1 的局部/全局层交错机制,每 5 层局部层后接 1 层全局层,以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。

    Gemma 3n的项目地址

    Gemma 3n的应用场景

    • 语音转录与情感分析:能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
    • 内容生成:支持在手机上生成图像描述、视频摘要或语音转录,适合内容创作者快速编辑短视频或社交媒体素材。
    • 学术任务定制:开发者可用 Gemma 3n 的微调功能,在 Colab 上为学术任务定制模型,如分析实验图像或转录讲座音频。
    • 低资源设备:专为低资源设备设计,仅需 2GB RAM 即可在手机、平板和笔记本电脑上流畅运行。
  • Science Navigator – AI科研平台,覆盖“读文献-做计算-做实验-多学科协同”

    Science Navigator是什么

    Science Navigator(科学导航)是北京科学智能研究院与深势科技联合打造的新一代AI4S科研知识库与AI学术搜索平台。是全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台。通过智能技术赋能科研创新,助力科研工作者高效探索学术前沿最新动态。

    Science Navigator

    Science Navigator的主要功能

    • 全维度科研知识库:背靠覆盖中、英等多语种的全球科研知识库,收录超千万篇论文、学术数据与知识图谱,每日自动同步最新研究进展。
    • 个性化问题推荐:AI通过分析用户研究方向与领域趋势,推荐高价值科学问题,并自动补全学术提问,推送学科前沿解答链接。
    • 多模态搜索:支持图片、化学分子式、实验数据等多形式输入,拓宽科研信息获取渠道。
    • 批量文献问答:科研人员可以就某一课题提出综合性查询,平台自动从海量论文中提取整合相关内容,一次性给出汇总答案。
    • 校内资源深度整合:优先对接校内数据平台与知识库,加速本校科研成果复用,帮助师生快速建立学术联系。
    • 数据存储与管理:平台的数据基础包括2亿篇论文的元数据和300万篇arXiv论文的全文内容。通过专门开发的PDF解析工具,能够精确提取论文中的文本、图片、表格和数学公式。
    • 科研文献管理:在Science Navigator,只需将你的论文文件夹上传至平台,能帮你整理、索引,并快速定位到相关内容。

    如何使用Science Navigator

    • 访问入口:北大师生可通过校内门户或北京大学APP搜索“AI4S”来访问该平台。
    • 文献检索:用全维度科研知识库,背靠覆盖中、英等多语种的全球科研知识库,收录超千万篇论文、学术数据与知识图谱,每日自动同步最新研究进展。
    • 个性化推荐:AI通过分析用户研究方向与领域趋势,推荐高价值科学问题,自动补全学术提问,推送学科前沿解答链接。
    • 实验设计与模拟:平台可以拆解我们提出的研究目标,进行实验设计,与仪器联动进行实验模拟,通过结果进行反思推导和迭代,及时进行进一步实验设计和再验证。

    Science Navigator的应用场景

    • 跨学科问题探索:「科学导航」支持多学科协同,能帮助科研人员在不同学科领域之间建立联系,发现新的研究方向和合作机会。
    • 实验数据处理:支持对实验数据的快速处理和分析,帮助科研人员从大量的实验数据中提取有价值的信息,提高实验效率。
    • 科研项目管理:平台提供多维度实时订阅功能,支持按关键词、期刊、学者、机构等单一或组合维度定制追踪方案,动态聚合最新科研成果。
    • 高效查找文献:科研人员可以通过「科学导航」快速检索全球科研知识库中的超千万篇论文,用自然语言对话式检索功能,输入关键词或问题,平台能迅速定位到相关文献信息。
  • AutoBE – AI驱动的后端服务器代码生成工具

    AutoBE是什么

    AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调“氛围编码”(Vibe Coding),通过持续的用户反馈和编译器反馈来迭代优化代码。AutoBE 结合瀑布模型和螺旋模型的优点,确保代码的可靠性和安全性。

    AutoBE

    AutoBE的主要功能

    • 需求分析(Analyze):能分析用户的需求,生成结构化的需求规格文档,为后续的代码生成提供明确的指导。
    • 数据库模式生成(Prisma):根据需求规格生成 Prisma 格式的数据库模式和 ERD(实体关系图)文档,方便开发者理解和设计数据库。
    • API 接口设计与代码生成(Interface):基于需求规格和 ERD 文档设计 API 接口,生成 API 接口代码和 DTO(数据传输对象)模式,帮助开发者快速搭建后端接口。
    • 测试代码生成(Test):为每个 API 接口生成 E2E(端到端)测试代码,确保生成的代码质量可靠。
    • 代码实现(Realize):为每个 API 函数编写实现代码,完成整个后端功能的代码生成。

    AutoBE的技术原理

    • 自然语言理解:AutoBE 通过自然语言处理技术理解用户的需求描述,转化为具体的代码生成指令。
    • 代码生成模型:基于深度学习的代码生成模型,如 Transformer 架构,能根据输入的需求描述生成高质量的代码。
    • 技术栈集成
      • TypeScript:作为开发语言,TypeScript 提供了静态类型检查,能帮助开发者提前发现潜在的错误,提高代码的可靠性和可维护性。
      • NestJS:作为一个基于 TypeScript 的框架,NestJS 提供了模块化和可扩展的架构,方便开发者构建复杂的后端应用。
      • Prisma:作为 ORM(对象关系映射)工具,Prisma 能简化数据库操作,使开发者以更直观的方式与数据库交互。
      • Postgres:作为后端数据库,Postgres 提供了强大的数据存储和查询功能,能满足复杂的应用需求。
    • 编译器反馈:在代码生成过程中,AutoBE 会用编译器的反馈信息来优化代码。例如,如果生成的代码存在语法错误或类型不匹配等问题,编译器会提供相应的错误信息,AutoBE 根据这些信息调整代码生成策略。
    • 瀑布模型:在需求分析、设计、编码、测试等阶段,AutoBE 按照瀑布模型的顺序依次进行,确保每个阶段的工作都符合预期。
    • 螺旋模型:AutoBE 融入了螺旋模型的思想,在每个阶段都会进行验证和测试,及时发现和解决问题,确保代码的质量和可靠性。

    AutoBE的项目地址

    AutoBE的应用场景

    • 快速开发新项目:AutoBE 能根据用户的需求描述快速生成高质量的后端代码,帮助开发者在短时间内搭建起项目的基本框架。
    • 提高开发效率:对于大型项目或复杂系统,AutoBE 可以自动生成数据库模式、API 接口代码、测试代码等。
    • 教学与培训:AutoBE 也可以用于教学和培训场景。通过生成代码示例,可以帮助学生或新手开发者更好地理解后端开发的概念和实践。
    • 代码优化与重构:AutoBE 的“氛围编码”理念强调通过持续的用户反馈和编译器反馈来迭代优化代码。开发者可以对现有项目进行优化和重构,提高代码质量。
  • Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架

    Pixel3DMM是什么

    Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色,在处理复杂面部表情和姿态方面,显著优于现有方法。Pixel3DMM引入新的基准测试,涵盖多样的面部表情、视角和种族,为该领域的研究提供新的评估标准。

    Pixel3DMM

    Pixel3DMM的主要功能

    • 高精度的3D人脸重建:从单张RGB图像中准确重建出3D人脸的几何结构,包括面部的形状、表情和姿态。
    • 处理复杂表情和姿态:擅长处理复杂的面部表情和非正面视角的人脸图像,能有效地重建出高质量的3D人脸模型。
    • 身份和表情的解耦:从表现性(posed)图像中恢复出中性(neutral)面部几何,即能区分和重建出人脸的身份信息和表情信息。

    Pixel3DMM的技术原理

    • 预训练的视觉变换器(Vision Transformer):用 DINOv2 作为骨干网络,提取输入图像的特征。DINOv2 是强大的自监督学习模型,能提取出丰富的语义特征,为后续的几何线索预测提供坚实的基础。
    • 预测头(Prediction Head):在 DINOv2 骨干网络的基础上,添加额外的变换器块和上卷积层,将特征图分辨率提升到所需的尺寸,最终输出预测的几何线索。几何线索包括表面法线和uv坐标,为3D人脸模型的优化提供重要的约束信息。
    • FLAME 模型拟合:基于预测的表面法线和uv坐标作为优化目标,优化FLAME模型的参数重建3D人脸。FLAME是参数化的3D人脸模型,能表示人脸的身份、表情和姿态。基于最小化预测的几何线索与FLAME模型渲染结果之间的差异,优化FLAME模型的参数,实现高精度的3D人脸重建。
    • 优化策略:在推理阶段,基于最小化预测的几何线索与FLAME模型渲染结果之间的差异,优化FLAME模型的参数。
    • 数据准备与训练:用多个高质量的3D人脸数据集(如NPHM、FaceScape和Ava256),基于非刚性配准统一到FLAME模型的拓扑结构中,训练预测网络。数据集涵盖多种身份、表情、视角和光照条件,确保模型的泛化能力。

    Pixel3DMM的项目地址

    Pixel3DMM的应用场景

    • 影视游戏:快速生成高质量3D人脸模型,提升表情捕捉与动画效果,降低成本。
    • VR/AR:创建逼真虚拟头像,增强沉浸感和交互真实感。
    • 社交视频:生成虚拟背景和特效,提升视觉效果,实现更准确的表情识别和互动。
    • 医疗美容:辅助面部手术规划,提供虚拟化妆和美容效果预览。
    • 学术研究:提供新方法和基准,推动3D人脸重建技术发展。
  • Imagen 4 – 谷歌推出的最新图像生成AI模型

    Imagen 4是什么

    Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面,Imagen 4也有重大突破,能生成清晰准确的文字,适合广告、漫画或邀请函等设计场景。支持多种艺术风格,从超现实到抽象、从插图到摄影,极大地扩展了创作者的表达空间。

    Imagen 4

    Imagen 4的主要功能

    • 高分辨率与细节呈现:支持最高2K分辨率的图像生成,细节捕捉能力显著提升,能逼真呈现复杂织物纹理、水滴折射及动物毛发质感等。
    • 文本渲染能力:在图像中生成清晰准确的文字,适合广告、漫画或邀请函等设计场景,可更好地理解上下文,生成更符合逻辑和审美的文本和图像组合。
    • 风格多样性:支持从超现实到抽象、从插图到摄影等多种艺术风格,为创作者提供更大的灵活性和创作自由。
    • 快速生成模式:速度比前代产品大幅提高,谷歌计划推出速度提升10倍的变体,适合需要高效迭代的创意工作流。
    • 生态整合:已集成到Gemini应用、Google Workspace(包括Slides、Docs和Vids)以及Google Labs的Whisk实验平台,部分功能还通过Vertex AI向企业用户开放。

    Imagen 4的技术原理

    • 增强的扩散变换器:Imagen 4通过增强的扩散变换器,显著提升了图像细节、色彩真实性和复杂场景的生成能力。
    • 高效特征蒸馏:Imagen 4采用了更高效的特征蒸馏技术,对蒸馏过程的优化,对特征提取和传递的改进。有助于模型在保持高质量生成的同时,显著提升生成速度。
    • 文本编码器:Imagen 4使用Transformer编码器将文本描述转换为数值表示,能理解文本中单词之间的关联,生成更符合描述的图像。
    • 图像生成器:生成器基于文本编码器的输出,利用扩散模型逐步生成图像。通过调整扩散模型的去噪过程,能根据文本描述生成高质量的图像。
    • 多级超分辨率:为了生成高分辨率图像,Imagen 4使用了多级超分辨率模型。模型通过逐步上采样,将低分辨率图像放大到所需的高分辨率。
    • 扩散模型的超分辨率应用:在超分辨率阶段,Imagen 4再次使用扩散模型,不仅基于文本编码,还结合了正在上采样的低分辨率图像。
    • Fast版优化:Imagen 4 Fast专注于低延迟场景,通过优化推理速度,将单张图像生成时间降低至1秒。使模型更适合实时应用,如虚拟会议背景生成或移动端内容创作。

    Imagen 4的项目地址

    Imagen 4的应用场景

    • 创意设计:可用于海报制作、PPT制作等生产级应用,满足专业设计需求。
    • 内容创作:适合制作幻灯片、邀请函,或者任何其他需要融合图像和文字的内容。
    • 影视制作:结合Veo 3视频生成模型和Flow电影制作工具,可用于电影片段、场景和故事的创作。
  • News Agents – 开源的终端新闻聚合与摘要系统

    News Agents是什么

    News Agents基于终端的新闻聚合与摘要系统。基于Amazon Q CLI作为 Agent 框架,用Model Context Protocol (MCP)解析RSS新闻源,借助tmux实现终端分割和多任务监控。系统从多个新闻源(如Hacker News、TechCrunch、华尔街日报等)抓取文章,分配给多个子Agents并行处理,最终生成简洁易读的摘要,汇总到main-summary.md文件中。整个过程在终端完成,展示多Agents协作的强大功能,为用户提供了高效、个性化的新闻阅读体验。

    News Agents

    News Agents的主要功能

    • 新闻聚合:从多个知名新闻源(如Hacker News、TechCrunch、华尔街日报等)抓取RSS新闻源。
    • 多Agents协作:基于主Agents和多个子Agents并行处理新闻源,提高效率。
    • 新闻摘要生成:每个子Agents解析新闻内容生成简洁的摘要。
    • 终端可视化:实时监控各代理的处理进度。
    • 汇总输出:将所有子Agents生成的摘要汇总到一个主摘要文件main-summary.md中,方便用户快速浏览。

    News Agents的技术原理

    • Amazon Q CLI:作为Agent的框架,管理和调度主Agent与子Agent。提供工具和接口支持多Agent协作和任务分配。
    • Model Context Protocol (MCP):解析RSS新闻源,提取新闻标题、链接和内容。提供标准化的接口,方便不同新闻源的处理。
    • tmux:终端窗口分割,将主Agent和子Agent的运行状态分别展示在不同窗格中。实现实时监控和多任务并行处理的可视化。
    • 并行处理:将新闻源列表分割成多个部分,每个子Agent处理一部分,提高处理效率。基于tmux的多窗格功能,确保每个Agent的运行状态一目了然。

    News Agents的项目地址

    News Agents的应用场景

    • 个人新闻阅读:用户在终端中快速获取多个新闻源的摘要,节省浏览新闻的时间。
    • 信息筛选:帮助用户快速筛选出感兴趣的新闻内容,避免信息过载。
    • 开发测试:为开发者提供实验性的框架,用在测试多Agent协作和新闻处理功能。
    • 新闻研究:研究人员用其聚合功能,快速收集和分析多个新闻源的内容。
    • 终端爱好者:为喜欢在终端操作的用户,提供有趣的新闻阅读和处理工具。
  • Flow – 谷歌推出的AI电影制作工具

    Flow是什么

    Flow是谷歌推出的AI电影制作工具,整合了Veo 3、Imagen 4和Gemini 2.5等多个AI模型,能根据文本提示生成完整的电影场景或短片,保持连贯性。用户可以通过“Camera Controls”操作镜头移动,“Scenebuilder”编辑场景,“Asset Management”管理创意元素。Flow设有“Flow TV”,展示社区创作,供用户学习交流。目前,仅对美国的谷歌AI Pro和AI Ultra订阅用户开放。

    Flow

    Flow的主要功能

    • 视频生成与编辑:用户可以通过输入文本提示,让Flow生成完整的电影场景或短片。能保持角色、场景和叙事的连贯性,支持实时故事板设计、资产生成和场景编辑。
    • 多模型集成:Flow整合了Veo 3、Imagen 4和Gemini 2.5等多个谷歌的AI模型。Veo 3负责高保真视频生成,支持原生音频同步;Imagen 4用于图像生成,精度提升10倍,可渲染水滴或毛发等细微细节;Gemini 2.5提供语言理解和文本生成能力。
    • 创意辅助工具:Flow提供多种创意辅助工具,如“Camera Controls”功能,用户可以直接操作镜头的移动和角度;“Scenebuilder”支持用户无缝编辑或扩展镜头;“Asset Management”功能,帮助用户组织和管理所有创意元素。
    • 社区共享与学习:Flow推出了“Flow TV”功能,是展示社区用户创作视频的平台,用户可以看到其他创作者的创作提示和技巧,学习和借鉴。

    Flow的官网地址

    Flow的应用场景

    • 电影制作:电影制作者可以用Flow快速生成电影场景或短片,大大提高了创作效率。
    • 视频创作:视频创作者可以用Flow生成高质量的视频内容,进行编辑和调整,满足不同的创作需求。
    • 创意探索:专业创作者或新手,可以通过Flow探索创意想法,转化为具体的视觉作品。