Blog

  • Eko – Fellou AI 推出的开源 AI 代理开发框架

    Eko是什么

    Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台,包括计算机桌面环境和浏览器环境,提供统一且便捷的操作界面。Eko将自然语言指令转化为复杂的工作流程,具备高度的可干预性,支持开发者在执行过程中随时调整。Eko API设计简洁明了,文档齐全,易于上手,适合不同水平的开发者。

    Eko

    Eko的主要功能

    • 平台支持:Eko支持所有平台,包括传统桌面系统、移动设备等,无需担心兼容性问题。
    • 工作流转换:Eko将简单的自然语言指令转化为复杂的工作流程,例如“查询今日股市行情并生成分析报告”。
    • 可干预性:在工作流执行过程中,开发者随时干预和调整,确保流程按预期进行。
    • 开发效率:Eko的API设计简洁明了,文档齐全,易于上手,提供了大量预制组件和模板,缩短开发周期。
    • 任务复杂度处理:Eko能处理高复杂度任务,如大规模数据处理、复杂业务逻辑和多系统集成。

    Eko的技术原理

    • 自然语言处理(NLP):用先进的自然语言处理技术理解和解析用户的指令。基于自然语言理解(NLU)模块,将用户的自然语言输入转换为结构化的任务和步骤。
    • 任务分解与调度:Eko 内部有任务分解引擎,将复杂的任务分解为多个子任务,按照逻辑顺序进行调度。每个子任务能独立执行,Eko 根据任务的依赖关系和优先级进行合理的调度,确保任务的高效执行。
    • 多平台适配:基于抽象层和适配器模式,实现对不同平台的支持。包括浏览器环境、桌面环境中,Eko基于相应的适配器调用底层的操作系统或浏览器 API,执行具体的操作。

    Eko的项目地址

    Eko的应用场景

    • 浏览器自动化与数据采集:模拟用户在浏览器中的操作,自动登录网站、填写表单、点击链接,提取所需数据,适用于市场调研和数据收集。
    • 系统文件与进程管理:用自然语言指令创建文件夹、移动文件、清理磁盘空间等,提高系统文件管理的效率。
    • 工作流自动化与业务流程优化:自动执行企业日常运营中的重复性工作流程,如订单处理、客户反馈管理、财务报表生成,减少人工干预,提高效率和准确性。
    • 数据处理与分析:从多个数据源收集数据,进行清洗、整理和分析,生成可视化报告,帮助决策者快速了解业务状况。
    • GUI自动化测试:模拟用户操作,自动测试应用程序的各个功能模块,确保软件质量,适用于软件开发过程中的自动化测试。
  • NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具

    NVIDIA-Ingest是什么

    NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式,提供多种提取方法,便于在吞吐量和准确性之间进行权衡。NVIDIA-Ingest支持预处理和后处理操作,如文本分割、转换、过滤、嵌入生成和图像存储。NVIDIA-Ingest基于并行化文档处理,提高提取效率,支持将提取内容嵌入到Milvus等向量数据库中,适用于大规模文档处理和生成式应用。

    NVIDIA-Ingest

    NVIDIA-Ingest的主要功能

    • 多格式文档支持:支持解析 PDF、Word (Docx)、PowerPoint (Pptx) 和图像等多种复杂的企业文档格式。
    • 多方法提取:支持多种提取方法,便于在吞吐量和准确性之间进行权衡。例如,PDF 文档支持 pdfium、Unstructured.io 和 Adobe Content Extraction Services 进行提取。
    • 内容分类与提取:将文档内容分类为文本、表格、图表和图像,分别提取这些内容。用光学字符识别(OCR)技术将提取的内容进一步上下文化,并转换为定义良好的 JSON 模式。
    • 并行处理:支持将文档拆分为页面,并行处理每个页面的内容提取,提高处理效率。
    • 预处理和后处理:支持多种预处理和后处理操作,包括文本分割和分块、内容转换、过滤、嵌入生成和图像存储。

    NVIDIA-Ingest的技术原理

    • 微服务架构:基于微服务架构,每个微服务负责特定的处理任务,如文本提取、图像提取、表格提取等,提高系统的可扩展性和灵活性。
    • GPU 加速:基于NVIDIA 的 GPU 技术,特别是 H100 和 A100 GPU,加速文档解析和内容提取过程。GPU 的并行计算能力显著提高了处理效率,尤其是在处理大量文档时。
    • 光学字符识别(OCR):用 OCR 技术将文档中的图像和表格内容转换为可读的文本。NVIDIA-Ingest集成多种 OCR 引擎,如 PaddleOCR,提高文本识别的准确性和效率。

    NVIDIA-Ingest的项目地址

    NVIDIA-Ingest的应用场景

    • 企业内容管理:将纸质文档、PDF、Word和PowerPoint等转换为可搜索、可编辑的数字格式,支持知识共享和协作。
    • 智能客服系统:解析用户上传的文档,提取关键信息,生成自动回答,提高客服效率和用户满意度。
    • 法律和合规领域:解析合同、法律文件,提取关键条款和条件,支持合规检查、风险评估和案件管理。
    • 金融行业:解析财务报告、合同和市场研究文档,提取关键数据,支持风险评估、合规监控和客户尽职调查。
    • 医疗保健:将病历文档转换为结构化数据,支持电子病历管理、临床研究和医疗影像分析。
  • Websim – AI网页开发工具,与AI对话实现网页应用构建

    Websim是什么

    Websim是AI网页开发工具,基于先进的 AI 模型,如 OpenAI GPT-4o 和 Anthropic Claude 3.5 Sonnet,让用户输入简单的文本提示,快速生成网站或应用程序。用户无需具备深厚的编程技术,只需在 Websim 的文本框中输入自己的创意想法,AI自动编写代码、设计界面风格,将想法转化为实际可运行的项目。让初学者、专业开发者,轻松创建极简主义游戏、音频工作站、营销页面等各种类型的应用,极大地降低网站和应用程序开发的门槛。

    Websim

    Websim的主要功能

    • 快速生成网站和应用:基于简单文本提示,无需编程技能,创建各种类型的网站和应用程序。
    • 智能界面设计:AI 自动布局界面元素,支持迭代优化,让设计更合理美观。
    • 自动代码编写:根据提示生成完整代码,涵盖前后端逻辑,降低开发门槛。
    • 项目下载与托管:支持下载 HTML 格式网站,在 GitHub Pages 等平台托管,方便部署上线。

    Websim的官网地址

    Websim的应用场景

    • 个人创意实现:帮助独立开发者、创业者和创意工作者将想法快速转化为网站或应用原型,无需深厚编程技术。
    • 企业项目开发:为中小型企业搭建功能网站,助力大型企业快速开发内部管理工具或员工培训平台,提高开发效率。
    • 教育领域:作为编程教育辅助工具,激发学生兴趣,促进跨学科项目合作,融合艺术创意与技术开发。
    • 市场营销与推广:助力营销人员创建营销活动页面、落地页,企业打造品牌官网或品牌故事页面,提升营销效果和品牌形象。
    • 快速原型设计:适用于任何需要快速生成网站或应用原型的场景,方便展示创意、收集反馈、进行市场测试等。
  • ProfilePicture.AI – AI头像生成平台,提供300多种不同风格

    ProfilePicture.AI是什么

    ProfilePicture.AI 是基于AI技术的在线平台,帮助用户创建个性化且专业的个人资料图片(PFP)。平台提供超过 350 种风格选择,包括写实、卡通、动漫等,用户根据自己的喜好和需求挑选合适的风格。系统能自动移除照片背景,支持添加自定义的边框和文字,让头像更具吸引力。所有图像处理都在用户的浏览器中本地完成,确保数据隐私和安全。

    ProfilePicture.AI

    ProfilePicture.AI的主要功能

    • AI 生成头像:基于AI技术,根据用户上传的照片生成个性化的个人资料图片(PFP),提供多种风格选择,如写实、卡通、动漫等。
    • 多样化风格选择:拥有超过 350 种风格供用户挑选,用户根据自己的喜好和需求选择合适的风格,或组合多种风格创造独特的头像效果。
    • 背景移除与自定义:AI 能自动识别、移除照片背景,用户添加自定义的边框和文字,进一步增强头像的个性化和吸引力。

    ProfilePicture.AI的官网地址

    ProfilePicture.AI的应用场景

    • 社交媒体:为个人社交媒体账户创建个性化头像,吸引更多关注和互动。
    • 职业发展:在职业社交平台生成专业头像,提升求职和商务合作机会。
    • 个人品牌:为个人博客或网站创建独特头像,增强品牌辨识度和吸引力。
    • 活动推广:为活动或产品制作专属头像,提高活动知名度和参与度。
    • 娱乐行业:生成具有特定角色特征的头像,用于娱乐和角色扮演,增加乐趣。
  • Nemotron-CC – 英伟达推出的大型预训练数据集

    Nemotron-CC是什么

    Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法,实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。Nemotron-CC在短期(1T tokens)和长期(15T tokens)训练中均展现出优越性,特别是在MMLU等任务上,相比DCLM和Llama 3.1模型,Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言模型的训练提供了更丰富、更多样的数据资源。

    Nemotron-CC

    Nemotron-CC的主要功能

    • 提供高质量的预训练数据集:Nemotron-CC为大型语言模型(LLMs)提供高质量、大规模的预训练数据集,特别适用于长序列训练,如15T tokens的训练需求。
    • 平衡数据量和质量:在不显著牺牲数据质量的前提下,大幅增加数据集的规模,包含更多的独特真实tokens,提高模型在长序列训练中的性能。
    • 支持模型性能提升:实验表明,Nemotron-CC训练的模型在多个基准测试任务中表现出色,特别是在MMLU等任务上,相比其他现有数据集,能显著提高模型的准确性。

    Nemotron-CC的技术原理

    • 优化文本提取:选用Justext作为HTML-to-text提取器,因其在提取高质量tokens方面表现更佳,有效提升数据集的初始质量。
    • 基于模型的质量标记
      • 分类器集成:构建三个不同的质量分类器,每个分类器有不同的高质量偏好。基于集成三个分类器,为所有文档打分,根据质量得分将爬取的语料库划分为不同的质量级别。
      • 质量标签分配:进一步将细粒度的质量得分聚类为5个下游任务质量类别,基于连续预训练和任务性能评估,为每个类别分配更符合实际性能的质量标签。
    • 合成数据生成
      • 低质量数据重述:对于低质量文档,基于重述减少噪声和错误,同时保留有用信息。用Wikipedia风格的提示(prompt)重述低质量文档,有效减少错误和冗余,提高格式化水平。
      • 高质量数据扩展:对于高质量文档,基于生成多样化的问答对、提炼、提取知识和知识列表等方式,获取更多独特的tokens,丰富数据集的内容和多样性。
    • 数据集整合
      • 大规模数据合成:用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens,其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
      • 数据集构建:将上述技术和方法应用于Common Crawl的99个快照(CC-MAIN-2013-20至CC-MAIN-2024-30),构建6.3万亿tokens的数据集,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。

    Nemotron-CC的项目地址

    Nemotron-CC的应用场景

    • 预训练大型语言模型:适用于长序列训练,如15T tokens,提升模型在复杂任务中的性能。
    • 微调和特定任务适应:便于模型在多任务学习和特定领域任务中快速适应,提高任务表现。
    • 文本生成任务:用于生成高质量文本,如新闻、故事,及提升对话系统的自然度。
    • 研究与开发:助力探索模型架构和训练方法的改进,提供基准测试资源。
    • 教育与培训:生成教育资源,辅助语言学习,提升教育内容的丰富性。
  • Robin AI – AI法律顾问,用于起草和审阅法律合同

    Robin AI是什么

    Robin AI是专注于法律领域的AI产品,基于先进的AI技术帮助企业和法律专业人士高效审查合同。Robin AI结合大型语言模型、专有机器学习模型及法律和产品专家的专业知识,经过海量条款训练,精准识别合同中的关键信息和潜在风险。Robin AI与Anthropic、AWS等合作,确保产品可靠、安全,符合GDPR等隐私标准。Robin AI能直观地集成到Microsoft Word中,让法律团队能快速上手,节省时间成本,提升工作效率,让法律工作更贴合商业发展的速度。

    Robin AI

    Robin AI的主要功能

    • 即时审查:即时审查合同,根据预设的规则(playbooks)进行标记和建议修改。
    • 极速条款查询:支持自然语言查询,即时对比条款,集中管理义务,借助机器学习提升数据洞察力。
    • 集成体验:能集成到Microsoft Word中,在 Robin AI 的侧边栏中查看合同条款的分解,获得修改建议。
    • 合同管理优化:提供合同分组、分类管理功能,便于用户快速查找和筛选合同,同时支持团队协作,多人同时对合同进行审查、批注和讨论,提高管理效率。
    • 深度合同分析:生成简单易读的合同报告,提供数据可视化呈现,帮助用户快速理解合同的整体情况和关键信息。

    Robin AI的官网地址

    Robin AI的产品定价

    •  免费套餐 (Free):每天最多发送 10 条消息,仅限单一用户使用。
    • 专业套餐 (Pro):每月每用户 $100,无限制访问法律AI助手,支持最多5个用户,无限制上传文件,每月提供3份报告,无限制发送消息。
    • 企业套餐 (Enterprise):价格定制,包含专业套餐的所有功能,集中管理义务,每月提供30多份报告,提供定制剧本,即时条款比较,无限制用户数量,配备专属客户成功经理。

    Robin AI的应用场景

    • 法律事务所的合同审查与起草:律师快速审查合同,识别风险,高效完成审查工作;起草新合同时,AI提供条款建议和模板参考。
    • 企业法务部门的日常合同管理与合规监控:法务人员自动识别关键条款和风险点,确保合同符合法律法规和内部合规要求。
    • 金融行业的贷款合同审查与风险评估:金融机构审查贷款合同,确保符合监管要求和内部政策;深入分析合同风险条款,为风险评估提供数据支持。
    • 房地产行业的租赁与买卖合同管理:房地产企业管理租赁合同,确保公平合规;审查买卖合同,识别风险,保护企业权益;监控项目开发合同,保障项目顺利推进。
    • 供应链管理的采购与物流合同优化:企业优化采购合同条款,降低采购成本;评估供应商合同合规性和风险;分析物流合同关键内容,确保物流服务质量。
  • Joyland – 西湖心辰推出的沉浸式AI聊天机器人平台

    Joyland是什么

    Joyland 是沉浸式AI聊天机器人平台,支持用户在数字空间中设计独特的 AI 角色,与动漫风格的 AI 伙伴建立友谊,构建自己的文本冒险世界。用户能塑造角色的外貌、性格和背景,基于互动见证角色的成长。用户能在这个由自己创造的宇宙中,与 AI 角色共同编织动态发展的故事。Joyland提供丰富的教程,涵盖聊天机器人创建、角色扮演AI开发、AI图像生成等多个方面,助力用户充分挖掘AI的潜力。

    Joyland

    Joyland的主要功能

    • 设计独特 AI 角色:用户能塑造角色的外貌、性格和背景故事,每个角色都会随着互动而演变,形成独特的个性和行为模式。
    • 深度互动体验:支持与AI的深入对话及角色扮演,涵盖多元话题,提供情感交流与知识探索的平台,增加对话趣味性和沉浸感。
    • 构建文本冒险世界:用户打造自己的基于文本的冒险世界,设定故事线、挑战和冒险内容,AI 角色会在其中互动,共同创造出动态且不断发展的叙事宇宙。
    • 虚拟约会体验:用户能与 AI 伙伴进行深入、有意义的对话,体验虚拟约会,探索浪漫故事,感受数字时代全新的恋爱形式。

    Joyland的官网地址

    Joyland的应用场景

    • 创意角色设计与社交互动:用户设计独特 AI 角色,与朋友分享交流,组织角色扮演活动,增强社交和团队合作能力。
    • 虚拟恋爱与情感体验:用户与 AI 伙伴开展虚拟恋爱,体验情感起伏,提升情感表达和现实恋爱沟通能力。
    • 个性化文本冒险创作:用户构建文本冒险世界,创作各种类型故事, 与AI 角色互动推动情节发展,锻炼创造力。
    • 语言学习与文化体验:用户与不同语言文化背景的 AI 角色交流,练习语言,了解多元文化,增强跨文化交流能力。
    • 心理疗愈与情感支持:用户在情绪低落时与 AI 伙伴倾诉,获得安慰鼓励,缓解负面情绪,找到情感共鸣。
  • 3MinTop – AI阅读助手,将书籍内容精炼总结为 3 分钟精华摘要

    3MinTop是什么

    3MinTop 是 AI 驱动的阅读助手,能将书籍内容精炼总结为 3 分钟的精华摘要,帮助用户快速掌握书籍核心要点,降低阅读门槛,培养阅读习惯。用户只需上传书籍文件,系统自动生成章节摘要,可通过智能问答系统解答阅读中的问题,借助多语言翻译功能跨越语言障碍。还提供科学的学习激励机制,追踪阅读进度,助力用户养成阅读习惯,适合各类人群使用,让阅读变得更高效、便捷。

    3MinTop的主要功能

    • 快速掌握核心内容:通过先进的 AI 技术,3MinTop 能将书籍内容精炼总结为 3 分钟的精华摘要,让用户高效完成阅读任务,没有任何阅读经验,也能轻松读完整本书。
    • 智能总结与解释:智能总结功能能准确提取重点内容,用通俗易懂的语言解释复杂概念,输出结构化的思维导图,帮助用户深入理解知识脉络。
    • 智能问答系统:用户在阅读过程中遇到问题,可以使用智能问答系统,输入问题,系统会根据书籍内容进行解答,实现对话式学习。
    • 多语言翻译功能:具备智能多语言翻译功能,助力用户跨越语言障碍,阅读不同语言的书籍。

    如何使用3MinTop

    • 上传书籍:访问3MinTop官方网站,点击“上传书籍”按钮,选择你想阅读的书籍文件,支持多种格式,如PDF、EPUB等。
    • 获取摘要:上传完成后,系统会自动生成每个章节的3分钟精炼摘要,你可以选择逐章阅读或一次性获取所有摘要。
    • 使用翻译功能:如果遇到不懂的语言,可以使用翻译功能,系统会准确传达原文含义。
    • 查看思维导图:系统会生成知识脉络图,帮助你直观理解章节关系,点击“思维导图”按钮即可查看。
    • 智能问答:在阅读过程中遇到问题,可以使用智能问答系统,输入你的问题,系统会根据书籍内容进行解答。
    • 学习激励:系统会记录你的阅读进度和学习成果,每天花费3分钟,你可以看到自己的成长过程,设定目标并坚持完成。

    3MinTop的应用场景

    • 学生:学生可以通过 3MinTop 快速预习或复习课程材料,节省时间,提高学习效率。
    • 专业人士:忙碌的专业人士可以在有限的时间内快速掌握书籍要点,提高工作效率。
    • 阅读新手:3MinTop 通过每天 3 分钟的阅读任务,帮助读者克服阅读拖延,养成长期阅读习惯。
    • 自我提升者:3MinTop 的科学和数据驱动方法有助于建立持久的阅读习惯,适合追求个人成长的用户。
    • 语言学习者:用 3MinTop 的翻译功能,用户可以快速获取外文书籍的核心内容,轻松跨越语言障碍。
  • ViTPose – 基于 Transformer 架构的人体姿态估计模型

    ViTPose是什么

    ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通过将输入图像切块并送入 Transformer block 来提取特征,再经解码器将特征解码为热图,实现对人体关键点的精准定位。ViTPose 系列模型具有多种规模版本,如 ViTPose-B、ViTPose-L、ViTPose-H 等,可根据不同需求选择。在 MS COCO 等数据集上表现出色,展现了简单视觉 Transformer 在姿态估计任务上的强大潜力。此外,ViTPose+ 作为改进版本,拓展到多种身体姿态估计任务,涵盖动物、人体等不同类型关键点,进一步提升了性能和适用范围。

    ViTPose的主要功能

    • 人体关键点定位:能识别图像中人体的关键点,如关节、手、脚等,广泛应用于运动分析、虚拟现实、人机交互等领域。
    • 模型架构简单:采用普通的视觉 Transformer 作为骨干网络进行特征提取,再通过简单的解码器将特征解码为热图,实现关键点的精准定位。其模型结构简单,易于实现和扩展。
    • 可扩展性强:可以通过调整 Transformer 的层数、头数等超参数,将模型从 100M 扩展到 1B 参数,适应不同规模的任务需求,同时保持高性能。
    • 灵活性高:在训练范式上具有灵活性,支持不同的预训练和微调策略,以及多种输入分辨率和注意力类型,能处理多种姿态估计任务。
    • 知识可迁移:大模型的知识可以通过简单的知识令牌轻松迁移到小模型,进一步提升了模型的实用性和灵活性。

    ViTPose的技术原理

    • 视觉 Transformer:ViTPose 使用标准的、非分层的视觉 Transformer 作为骨干网络进行特征提取。输入图像首先被切分成多个小块(patches),每个小块被嵌入到一个高维空间中,形成 tokens。这些 tokens 然后通过多个 Transformer 层进行处理,每一层包含多头自注意力(Multi-head Self-Attention, MHSA)和前馈网络(Feed-Forward Network, FFN)。
    • 特征提取:经过 Transformer 层的处理,最终输出的特征图具有丰富的语义信息,能够捕捉到图像中人体的关键点特征。
    • 热图预测:ViTPose 的解码器将编码器输出的特征图解码为热图。热图中的每个像素值表示该位置是某个关键点的概率。解码器有两种选择:
      • 标准解码器:使用转置卷积(transposed convolution)进行上采样,然后通过预测层生成热图。
      • 简单解码器:直接使用双线性插值进行上采样,生成热图。
    • 模型迁移:ViTPose 的知识可以通过简单的知识令牌(knowledge token)轻松迁移到小模型,进一步提升了模型的实用性和灵活性。
    • SOTA 性能:ViTPose 在多个姿态估计数据集上达到了新的 SOTA(State of the Art)和帕累托前沿。

    ViTPose的项目地址

    ViTPose的应用场景

    • 人体姿态估计:主要用于识别图像中人体的关键点,如关节、手、脚等,广泛应用于运动分析、虚拟现实、人机交互等领域。
    • 动物姿态估计:ViTPose+ 拓展到动物姿态估计任务,可以用于野生动物行为研究、宠物行为分析等。
  • NeuralSVG – 文本驱动矢量图形生成技术,转化为有层次结构的矢量图形

    NeuralSVG是什么

    NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络,将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入,输出形状参数,再经可微渲染器生成像素输出。基于分数蒸馏采样优化网络权重,形成图形的隐式神经表示。还采用基于随机丢弃的正则化技术,使生成图形语义清晰、有序可编辑。NeuralSVG支持推理时控制,可动态调整图形属性,如背景色等。在生成结构化矢量图形方面表现优异,为图形生成带来新思路。

    NeuralSVG的主要功能

    • 文本生成矢量图形:能根据文本提示生成具有有序和可编辑形状的矢量图形,解决了传统方法生成的矢量图形结构复杂、难以二次编辑的问题。
    • 支持动态条件:支持用户在生成过程中根据需要动态调整生成的SVG,如背景颜色、宽高比等,实现多颜色方案的快速切换和适应不同设计布局需求。
    • 生成草图:可以生成具有不同笔画数量的草图,且无需对框架进行任何修改。
    • 层次结构生成:通过引入基于dropout的正则化技术,鼓励生成的SVG具有分层结构,使每个形状在整体场景中具有独立的意义,便于后期编辑。

    NeuralSVG的技术原理

    • 隐式神经表示:NeuralSVG采用隐式神经表示,将整个矢量图形场景编码到一个小的多层感知器(MLP)网络的权重中。这种表示方式类似于神经辐射场(NeRFs),通过网络输出单个形状,再聚合形成完整的SVG。
    • 分数蒸馏采样优化:使用分数蒸馏采样(Score Distillation Sampling,SDS)方法对网络权重进行优化。SDS能保证生成SVG文件的高质量,同时促进图形层次结构的形成,使每个形状在整体图像中都具有独特的意义和作用。
    • 基于dropout的正则化技术:引入一种基于随机丢弃(dropout)的正则化技术,鼓励每个学习到的形状在整体构图中具有有意义且有序的角色。使生成的图形更具结构性,便于后期编辑修改。
    • 推理时控制能力:基于神经表示的优势,NeuralSVG支持推理时控制,用户可以根据提供的输入动态调整生成的SVG,例如背景颜色、宽高比等。

    NeuralSVG的项目地址

    NeuralSVG的应用场景

    • 艺术创作:艺术家可以用NeuralSVG根据创意文本生成具有层次感和可编辑性的矢量图形,便于进一步创作和修改。
    • 设计领域:设计师能快速生成符合需求的矢量图形,用于网页设计、UI设计等,可根据不同场景动态调整图形的颜色、背景等元素。
    • 教育与学术:在教育领域,可用于生成教学所需的矢量图形示例;在学术研究中,有助于研究人员探索文本与矢量图形生成之间的关系。