Blog

  • 桐小乌 – 桐乡市人民政府联合支付宝推出的 AI 智能助手

    桐小乌是什么

    桐小乌是桐乡市人民政府与支付宝合作推出的智能体,国内首个集会务与文旅服务于一体的AI智能助手。为2024年世界互联网大会参会者和乌镇游客提供全面的服务,包括会议议程、展区导航、功能服务点查询,以及景点讲解、餐饮美食和酒店信息推荐。用户可通过支付宝“碰一下”、首页下拉或支小宝APP快速访问桐小乌。依托蚂蚁集团的百灵大模型和AI文旅智能体解决方案,结合“AOI”技术,桐小乌能在用户进入乌镇峰会和景区时,智能推送最需要的服务。

    桐小乌

    桐小乌的主要功能

    • 会议日程查询:桐小乌可以帮助参会者了解会议议程。
    • 展区导航:为参会者提供展区导航服务。
    • 景点讲解:为游客提供乌镇景点的讲解服务。
    • 餐饮和住宿推荐:推荐附近的餐饮美食和酒店信息。
    • 功能服务点查询:帮助寻找附近的功能服务点。
    • 租借服务:通过“碰一下”功能,用户可以快捷租借充电宝、购买饮品等。
    • AI伴游服务:提供全程AI伴游服务,包括购买景点门票、预订酒店、查找附近设施等。
    • 即时需求响应:能够快速响应用户的需求,如寻找共享单车、网约车、公交地铁,或自驾查找充电桩、加油站等。

    如何使用桐小乌

    • 支付宝“碰一下”:在大会现场,可以通过支付宝的“碰一下”功能来唤起桐小乌。
    • 下拉支付宝首页:可以通过下拉支付宝首页,选择智能体,找到桐小乌。
    • 支小宝APP:可以通过支小宝APP来访问桐小乌。

    桐小乌的应用场景

    • 会务服务:桐小乌能帮助参会者了解会议议程、做展区导航、寻找附近的功能服务点。
    • 旅游信息服务:为游客提供乌镇景点讲解、查询附近餐饮美食和酒店信息等。
    • 智能导航与实时信息推送:桐小乌通过AI分析并推送用户最可能需要的服务,如导航和实时信息。
    • 个性化推荐:根据用户的位置和需求,提供个性化的推荐服务。
    • 线上缴费和翻译服务:提供便捷的线上缴费和语言翻译服务,便于国际会议的参与者。
  • 口语达人 – AI英语学习应用,游戏化的学习方式提升口语能力

    口语达人是什么

    口语达人是专为非英语国家人士设计的AI英语学习应用,帮助用户提升英语口语能力。通过游戏化的学习方式,将日常生活场景划分为多个单元,涵盖旅行、购物、社交等,让用户在轻松愉快的氛围中学习。应用支持24小时AI老师一对一对话练习,无需预约,随时开启口语练习。每天只需10-15分钟,用户可以利用碎片时间,循序渐进地提升口语水平。口语达人适合零基础用户,也适合需要提高口语能力的商务人士和学生。

    口语达人

    口语达人的主要功能

    • AI一对一对话练习:用户可以随时与AI老师进行一对一的口语练习,无需预约,随时开启练习。
    • 游戏化学习:通过游戏闯关的方式,将学习过程变得有趣,提高学习动力。
    • 生活场景模拟:提供多种日常生活场景,如旅行、购物、社交等,帮助用户在实际情境中练习英语。
    • 碎片时间学习:每天只需10-15分钟,用户可以利用零散时间进行学习,适合忙碌的生活节奏。
    • 实用课程内容:课程内容实用,包括地道用法、热词、年俗等,帮助用户学习实用的英语表达。
    • 打卡学习:鼓励用户每日打卡,形成持续学习的习惯,逐步成为口语达人。
    • 免费课程:所有课程内容免费,用户可以无门槛地学习英语口语。
    • 适用人群广泛:无论是学生、商务人士还是对英语感兴趣的普通用户,都可以使用口语达人来提升自己的英语口语能力。

    如何使用口语达人

    • 下载与安装:访问苹果AppStore应用商店,下载安装应用。
    • 注册与登录打开应用后,使用手机号、邮箱或社交媒体账号进行注册。注册完成后登录账户。
    • 选择学习语言在应用的主页面上,选择想要学习的语种,比如英语。
    • 设置学习目标根据需求,设置学习目标,比如日常对话、商务英语等。
    • 开始学习进入学习模块,选择适合的课程开始学习。课程以游戏化的形式呈现,可以通过完成关卡来学习。
    • AI对话练习使用AI对话功能,与AI老师进行一对一的口语练习。可以根据提示进行对话,AI会根据您的回答给出反馈。
    • 跟踪进度应用会记录学习进度和成就,可以查看自己的学习报告,了解自己的提升。

    口语达人的应用场景

    • 日常生活对话:口语达人将生活场景划分成单元,涵盖旅行、日常生活、朋友聊天等,帮助用户在这些日常场景中提升英语口语能力。
    • 工作和商务场合:对于商务人士,口语达人可以模拟商务会议、谈判等专业场景的英语表达,提升用户在商务环境下的沟通技巧。
    • 学术环境:学生和学者可以通过口语达人练习学术报告、论文答辩、与国际同行交流等学术场景的英语。
    • 面试准备:口语达人可以帮助求职者模拟面试场景,练习自我介绍、回答常见面试问题等。
    • 旅行英语:对于计划出国旅行的用户,口语达人提供旅行中可能遇到的各种情景对话,如预订酒店、询问路线、在餐厅点餐等。
    • 雅思备考:口语达人提供雅思口语考试准备,包括模拟考试场景和得分评估,帮助考生熟悉考试流程并提高口语能力。
  • FitDiT – 腾讯联合复旦推出的高保真虚拟试穿技术

    FitDiT是什么

    FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理提取器和服装先验演化技术,增强对服装纹理如条纹、图案和文字的捕捉能力。用扩张-松弛掩码策略,优化服装尺寸适配问题。FitDiT在定性和定量评估中表现优异,能快速生成具有真实感和复杂细节的试穿图像,推理速度快,为虚拟试穿领域带来突破。

    FitDiT

    FitDiT的主要功能

    • 高保真虚拟试穿:生成逼真的试穿图像,让用户在不同场景下看到自己穿上特定服装的效果。
    • 纹理感知保持:基于服装纹理提取器和服装先验演化,精确捕捉和再现服装上的复杂纹理,如条纹、图案和文字。
    • 尺寸感知拟合:用扩张-松弛掩码策略,适应不同服装的长度和形状,防止在跨类别试穿时服装形状信息的泄露,实现更准确的服装拟合。
    • 快速推理:在保持高保真试穿效果的同时,优化DiT结构,让单张1024×768图像的推理时间仅为4.57秒,提高试穿过程的效率。

    FitDiT的技术原理

    • Diffusion Transformers (DiT):FitDiT基于DiT架构,基于分配更多的参数和注意力给高分辨率特征,增强对服装细节的处理能力。
    • 服装纹理提取器:引入专门的服装纹理提取器,基于服装先验演化微调服装特征,更好地捕捉服装的丰富细节。
    • 频域学习:基于定制的频率距离损失函数,增强高频服装细节,提升服装纹理和细节的保真度。
    • 扩张-松弛掩码策略:为解决尺寸感知拟合问题,采用扩张-松弛掩码策略,适应服装的正确长度,防止在跨类别试穿时生成覆盖整个掩码区域的服装,提高试穿的准确性。
    • 结构瘦身:对DiT结构进行优化,移除对虚拟试穿影响较小的文本编码器,减少模型的参数量,提高模型训练和推理的速度。
    • 混合注意力机制:在DenoisingDiT中用混合注意力机制,将从GarmentDiT提取的服装特征注入到去噪过程中,实现高分辨率特征的融合。

    FitDiT的项目地址

    FitDiT的应用场景

    • 电子商务平台:服装零售网站,让消费者在线上购物时看到自己穿上不同服装的效果,提升购物体验和满意度。
    • 时尚行业:设计师展示设计作品,让顾客在购买前预览服装的实际穿着效果,增加设计的吸引力。
    • 个性化定制:服装定制服务为客户提供个性化的试穿体验,确保定制服装的尺寸和样式完全符合顾客的需求。
    • 增强现实(AR)和虚拟现实(VR):在AR和VR应用中,提供更加真实的试穿体验,用户在虚拟环境中试穿服装,为虚拟形象装扮。
    • 社交媒体:社交媒体平台,让用户在分享照片或视频时能够试穿不同的服装风格,增加互动性和娱乐性。
  • RAG-Diffusion – 南京大学推出的区域感知文本到图像生成方法

    RAG-Diffusion是什么

    RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diffusion支持图像重绘功能,用户在保持其他区域不变的情况下修改特定区域,无需额外的内绘模型。RAG-Diffusion在属性绑定和对象关系方面展现出优于其他免微调方法的性能。

    RAG-Diffusion

    RAG-Diffusion的主要功能

    • 区域硬绑定(Regional Hard Binding):确保区域提示被准确执行,基于独立处理每个区域,将局部区域潜在表示绑定到全局潜在空间。
    • 区域软细化(Regional Soft Refinement):增强相邻区域之间的和谐性,在交叉注意力层中实现区域局部条件与全局图像潜在的交互。
    • 图像重绘(Image Repainting):用户在保持其他区域不变的情况下,重新初始化特定区域的噪声,实现区域的重绘,无需依赖额外的内绘模型。
    • 免微调(Tuning-free):适用于其他框架,作为对提示跟随特性的增强,无需额外训练或微调。

    RAG-Diffusion的技术原理

    • 多区域生成解耦:将复杂的多区域生成任务分解为两个子任务:区域硬绑定和区域软细化。
    • 区域硬绑定:在去噪过程的早期阶段,将输入提示分解为每个区域的基本描述,单独处理每个区域,将局部区域潜在表示绑定回原始图像潜在空间。
    • 区域软细化:在去噪过程的后期阶段,在交叉注意力层中实现区域局部条件与全局图像潜在的交互,增强相邻区域之间的和谐性。
    • 图像重绘:用区域硬绑定和区域软细化的控制和融合能力,支持用户在保持其他区域不变的情况下,重新初始化特定区域的噪声,实现区域的重绘。
    • 控制参数:引入参数r控制硬绑定的频率,以及参数δ控制区域软细化的强度,优化生成图像的结构和连贯性。

    RAG-Diffusion的项目地址

    RAG-Diffusion的应用场景

    • 数字艺术创作:艺术家和设计师创作复杂的艺术作品,基于精确控制图像中的各个元素和它们之间的关系,实现高度个性化和细致的构图。
    • 广告和营销:在广告设计中,生成符合特定营销主题和品牌要求的图像,例如,创建包含特定产品和场景的吸引人的广告图像。
    • 游戏开发:游戏开发者快速生成游戏环境、角色和道具的概念图,或用于游戏内资产的创建,提高开发效率。
    • 电影和娱乐产业:在电影制作中,生成场景概念图、特效预览图等,帮助导演和美术指导更好地规划拍摄和视觉效果。
    • 虚拟现实(VR)和增强现实(AR):创建VR和AR应用中的环境和对象,提供更加丰富和细致的虚拟体验。
  • 抖音AI分身 – 抖音专为创作者推出的AI虚拟分身工具

    抖音AI分身是什么

    抖音AI分身是抖音“V项目”中专为创作者推出的AI虚拟分身工具,支持创作者培养与自己性格和思维习惯相似的虚拟分身,与用户进行互动。抖音AI分身基于豆包大模型算法,能全天24小时在线,自动生成回复内容,非创作者本人回复。抖音AI分身包括AI互动空间、AI群聊、AI私信、AI评论和AI直播等多项分支功能,丰富用户体验,提升抖音在社交领域的地位。

    shuziren-douyin

    抖音AI分身的主要功能

    • AI互动空间:创作者可以开启AI互动空间,用户可以通过点击创作者的个人头像等方式进入这个空间,与创作者的AI分身进行互动。
    • AI群聊:创作者可以在与用户的群聊中添加自己的AI分身,这样群成员就可以与AI分身进行对话和互动。
    • AI私信:如果创作者开启了AI分身私信功能,AI分身可以代替创作者回复用户的私信,或者主动向用户发送消息。
    • AI评论:创作者可以开启AI分身自动回复评论功能,AI分身可自动回复用户在创作者发布的视频下的评论。
    • AI直播:创作者可以开启AI自动回复直播评论功能,AI分身可自动回复用户在创作者直播时发送的评论。

    如何使用抖音AI分身

    抖音AI分身官网地址:shuziren.douyin.com

    抖音AI分身功能内测中,后台私信人工客服开通。目前内测是定向邀请,需满足内测资格。

    • 个人账号要求:年满18周岁,粉丝≥50万,粉丝≥50万
    • 账号内容要求:创作内容较符合 Al 分身应用场景的创作者
    • 个人意愿:对AI等新技术尝试有着浓厚兴趣,且乐于他人互动交流

    抖音AI分身的应用场景

    • 虚拟直播:创作者在无法亲自直播时,用AI分身进行直播,与粉丝互动,增加直播的频率和时长。
    • 互动娱乐:用户与AI分身进行对话和互动,增加娱乐性和趣味性,提高用户粘性。
    • 内容创作:辅助创作者生成内容,提供创意灵感,或者完成一些基础的内容制作工作。
    • 品牌营销:品牌进行产品宣传,基于虚拟形象与消费者建立更亲密的联系。
    • 教育和培训:作为虚拟教师,提供在线教育和培训服务,尤其是在语言学习和专业技能培训领域。
  • AnimateAnything – 浙江大学联合北航推出的统一可控视频生成技术

    AnimateAnything是什么

    AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提示和用户动作注释。基于多尺度控制特征融合网络,该技术将控制信息转化为逐帧光流,指导视频生成。为减少大范围运动导致的闪烁,AnimateAnything提出基于频率的稳定模块。

    AnimateAnything

    AnimateAnything的主要功能

    • 精确视频操作:对视频进行精确控制,包括相机轨迹、文本提示和用户动作注释等多种条件下的视频操作。
    • 多条件控制:支持将不同的控制信号(如对象运动、相机运动)统一为光流表示,简化多信号处理的复杂性。
    • 光流引导:用光流作为运动先验指导视频生成,确保视频的连贯性和一致性。
    • 闪烁问题减少:基于频率的稳定模块减少大规模运动引起的视频闪烁问题,增强视频的时间一致性。

    AnimateAnything的技术原理

    • 多尺度控制特征融合网络:构建一个网络处理不同的控制信号,将其统一转换为逐帧的光流。这个网络处理显式控制信号(如基于箭头的运动注释)和隐式控制信号(如相机轨迹)。
    • 光流作为运动先验:将生成的光流作为运动先验,用于指导视频生成模型的行为,实现对视频生成过程的精确控制。
    • 基于频率的稳定模块:基于在频域中修改特征来增强时间一致性,减少由于大规模运动引起的视频闪烁和不稳定性。
    • 两阶段视频生成流程
      • 第一阶段:将各种视觉控制信号转换为统一的光流表示。
      • 第二阶段:用生成的统一光流指导最终的视频生成,确保视频与参考图像和注释的语义一致性。
    • 频域特征修改:用快速傅里叶变换(FFT)和逆FFT(InvFFT)在频域中修改特征,保持视频生成过程中的特征一致性。

    AnimateAnything的项目地址

    AnimateAnything的应用场景

    • 电影和视频制作:在电影制作中,生成或修改视频片段,如动画角色的动作捕捉、特效制作和场景模拟,提高制作效率并降低成本。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,创建更加真实和动态的虚拟环境,提供更加自然和流畅的交互体验。
    • 游戏开发:游戏开发者生成或控制游戏角色和环境的动画,提高游戏的沉浸感和可玩性。
    • 模拟和训练:在军事、航空、医疗等领域的模拟训练中,生成逼真的视频内容,用于模拟各种复杂场景,提高训练效果。
    • 教育和培训:创建教育视频和培训材料,让学习内容更加生动和易于理解。
  • Memoripy – 支持 AI 应用上下文感知的记忆管理Python库

    Memoripy是什么

    Memoripy是一个Python库,为AI应用提供上下文感知的记忆管理。Memoripy支持短期和长期记忆存储,兼容OpenAI和Ollama API。核心功能包括记忆检索、概念提取、图基关联、层次聚类及记忆衰减和强化。基于这些功能,Memoripy帮助AI系统更好地理解和响应用户交互,提升对话的连贯性和个性化体验。

    Memoripy

    Memoripy的主要功能

    • 短期和长期记忆管理:Memoripy根据使用频率和相关性将记忆分为短期和长期两种,优化信息的存储和检索。
    • 上下文检索:分析嵌入向量、概念和历史交互,Memoripy检索与当前交互最相关的过去记忆。
    • 概念提取和嵌入生成:基于OpenAI和Ollama模型,提取关键概念并生成相应的嵌入向量,便于记忆的比较和检索。
    • 图基关联:构建概念图谱,基于传播激活机制实现基于相关性的记忆检索。
    • 层次聚类:将相似的记忆根据语义相似度聚类,便于进行上下文相关的检索。
    • 记忆衰减和强化:Memoripy实现记忆的动态管理,让不常访问的记忆逐渐衰减,频繁访问的记忆得到强化。

    Memoripy的技术原理

    • 记忆存储:Memoripy用两种存储方式,内存存储和JSON文件存储,保存交互数据。
    • 嵌入技术:用自然语言处理技术,Memoripy将文本转换为嵌入向量,向量捕捉文本的语义信息,便于比较和检索。
    • 相似性检索:用余弦相似度等算法,基于嵌入向量找出与当前交互最相似的历史记忆。
    • 概念图谱:构建一个图,其中节点代表概念,边代表概念之间的关系,基于图算法实现复杂关系的检索。
    • 聚类算法:用聚类技术将相似的记忆分组,提高检索效率和相关性。

    Memoripy的项目地址

    Memoripy的应用场景

    • 聊天机器人:在客户服务和在线聊天应用中,帮助聊天机器人记住用户的历史交互,提供更加个性化和连贯的对话体验。
    • 虚拟助手:在个人助理应用中,存储用户的偏好和习惯,让虚拟助手根据用户的历史行为提供更加贴心的服务。
    • 教育软件:在教育应用中,跟踪学生的学习进度和偏好,提供定制化的学习内容和建议。
    • 推荐系统:在电商或内容推荐平台,分析用户的历史交互和偏好,提供更加精准的个性化推荐。
    • 健康监测:在健康和健身应用中,录用户的活动和健康数据,帮助用户跟踪进展并调整健康计划。
  • Perplexica – 开源AI搜索引擎,支持多种搜索模式、实时信息更新

    Perplexica是什么

    Perplexica是开源的AI驱动搜索引擎,是Perplexity AI的开源替代品。基于机器学习算法和自然语言处理技术理解用户查询,提供精确答案。Perplexica支持多种搜索模式,包括全网搜索、写作助手、学术搜索、YouTube搜索、Wolfram Alpha搜索和Reddit搜索。Perplexica支持本地大型语言模型,用API将搜索功能集成到其他应用中,集成 SearxNG 搜索技术确保获得最新的信息。

    Perplexica

    Perplexica的主要功能

    • 本地LLM支持:Perplexica支持用本地大型语言模型(LLM),如Llama3和Mixtral,提高搜索准确性。
    • 常规模式:处理用户查询、执行网络搜索。
    • 专注模式:包括多种特定类型的搜索模式,如:
      • 全网搜索模式:搜索整个网络寻找最佳结果。
      • 写作助手模式:帮助进行不需要网络搜索的写作任务。
      • 学术搜索模式:搜索学术文章和论文,适合学术研究。
    • YouTube搜索模式:根据查询找到YouTube视频。
    • Wolfram Alpha搜索模式:用Wolfram Alpha进行需要计算或数据分析的查询。
    • Reddit搜索模式:搜索Reddit找到与查询相关的讨论和意见。
    • API集成:支持开发者将Perplexica集成到自己的应用程序中,使用搜索功能。
    • 实时信息更新:用SearxNG元搜索引擎,确保提供最新信息。

    Perplexica的技术原理

    • 用户交互:用户基于WebSocket发送消息到后端服务器,触发处理链。
    • 查询处理:消息被传递到一个链,该链根据聊天历史和问题预测是否需要搜索网络。如果需要,将生成一个查询。
    • 网络搜索:查询基于SearXNG进行网络搜索,获取信息。
    • 相似性搜索:搜索到的信息基于转换成嵌入、进行相似性搜索找到最相关的资源。
    • 响应生成:资源被传递到响应生成器,结合聊天历史、查询和资源生成回应。
    • 用户界面显示:最终的回应基于用户界面显示给用户,完成整个搜索和响应过程。

    Perplexica的项目地址

    Perplexica的应用场景

    • 个人搜索引擎:用户作为个人的搜索引擎,保护隐私、定制搜索体验。
    • 学术研究:研究人员查找学术论文和文章,支持研究工作。
    • 企业内部搜索:企业构建内部知识库的搜索引擎,帮助员工快速找到所需信息。
    • 开发人员工具:开发者用Perplexica的API集成到自己的应用程序中,增强应用的搜索能力。
    • 教育用途:教育机构帮助学生和教师快速访问教育资源和学术资料。
  • OmniSearch – 阿里通义推出的多模态检索增强生成框架

    OmniSearch是什么

    OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架,具备自适应规划能力。OmniSearch能动态拆解复杂问题,根据检索结果和问题情境调整检索策略,模拟人类解决复杂问题的行为,提升检索效率和准确性。OmniSearch引入动态检索规划框架,基于递归检索与推理流程,逐步接近问题解答,显著提高多模态检索的灵活性和效果。

    OmniSearch

    OmniSearch的主要功能

    • 自适应检索规划:根据问题解决的阶段和当前检索内容实时规划每个检索动作,模拟人类在解决复杂问题时的行为方式。
    • 动态问题拆解:将复杂问题分解为多个子问题,为每个子问题制定相应的检索步骤和策略。
    • 多模态信息处理:支持图像检索、文本检索和跨模态检索,处理包括文本、图像在内的多模态信息。
    • 迭代推理与检索:基于递归式的检索与推理流程,根据当前的解答状态判断是否需要继续检索或提出新的子问题。
    • 多模态特征交互:对检索得到的多模态特征进行有效交互,根据不同模态信息灵活调整检索策略。

    OmniSearch的技术原理

    • 规划代理(Planning Agent):OmniSearch的规划代理负责逐步分解原始问题,根据每个检索步骤的反馈决定下一步要解决的子问题和检索工具。
    • 检索器(Retriever):执行实际的检索操作,根据规划代理的指示进行图像检索、文本检索或跨模态检索,返回相关信息供规划代理分析。
    • 子问题求解器(Sub-question Solver):对检索到的内容进行总结和解答,包含任意多模态大语言模型,或是规划代理本身。
    • 动态检索规划:核心创新在于动态检索规划,基于模拟人类思考问题的方式,逐步接近问题的最终解答。
    • 递归检索与推理:基于递归式的检索与推理流程,每次提出子问题并获得初步答案后,根据当前的解答状态判断是否需要继续检索。

    OmniSearch的项目地址

    OmniSearch的应用场景

    • 智能客服系统:集成到智能客服系统中,理解用户的复杂查询,并动态检索相关信息,提供更准确和个性化的服务。
    • 教育和学习辅助:在教育领域,帮助学生和研究人员解答复杂问题,基于动态检索和推理提供深入的学术资料和解释。
    • 医疗咨询和诊断:在医疗领域,辅助医生和患者进行症状分析、疾病诊断和治疗方案的检索,提供最新的医疗知识和研究。
    • 新闻和信息聚合:用在新闻聚合平台,基于多模态检索增强生成,为用户提供更丰富、更准确的新闻内容和背景信息。
    • 企业知识管理:在企业中,帮助员工快速检索内部文档、报告和数据,提高工作效率和决策质量。
  • AgileGen – AI生成式软件开发框架,自动生成软件代码和原型

    AgileGen是什么

    AgileGen是生成式软件开发框架,基于人与AI协作增强软件的创建过程。AgileGen包含两个核心部分:终端用户决策制定和AgileGen智能体。框架用Gherkin语言设计和确认用户故事和验收标准,确保软件代码与用户需求保持一致。AgileGen基于交互式系统收集用户决策,自动生成软件原型,支持用户反馈进行迭代改进,最终提供满足用户需求的软件产品。

    AgileGen

    AgileGen的主要功能

    • 用户需求收集与澄清支持用户用自然语言提出原始需求,基于用户决策过程澄清和细化需求。
    • 场景设计用Gherkin语言设计基于用户需求的场景,将场景转化为自然语言供用户决策。
    • 代码生成根据用户确认的场景自动生成软件代码。
    • 原型设计与反馈快速生成软件原型供用户测试和反馈,根据用户反馈进行代码的迭代修改。
    • 记忆池机制收集用户决策场景,为类似需求提供推荐,提高决策效率。

    AgileGen的技术原理

    • 行为驱动开发(BDD):采用BDD的核心概念,用Gherkin语言描述用户故事和验收标准。
    • 大型语言模型(LLMs):基于大型语言模型的理解能力生成符合用户需求的代码。
    • 人机交互桥接:设计交互桥接,将形式化的Gherkin语言与非形式化的自然语言之间进行转换。
    • 迭代反馈循环:基于快速原型和用户反馈实现迭代开发,快速响应用户需求的变化。
    • 一致性因素提取:从用户故事中提取业务逻辑一致性因素,指导代码生成。
    • 记忆池的自更新机制:收集和分析用户决策,不断优化和调整生成策略。

    AgileGen的项目地址

    AgileGen的应用场景

    • 初创公司和小型软件开发团队:快速从概念验证阶段过渡到最小可行性产品(MVP)的开发,减少开发时间和成本。
    • 非技术背景的业务用户:业务分析师或产品经理实现业务需求,无需深入的编程知识。
    • 教育和培训:在学术环境中,作为教学工具,帮助学生理解软件开发的全过程,从需求收集到代码生成。
    • 快速原型开发:在需要快速迭代和验证概念的场合,如黑客松或创新实验室,加速原型的创建和测试。
    • 企业内部工具开发:大型企业开发内部工具和应用程序,提高工作效率和响应市场变化的速度。