Author: Chimy

  • SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型

    SocioVerse是什么

    SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户的数据池,构建与现实世界“对齐”的大规模社会模拟框架。模型基于社会环境、用户引擎、场景引擎和行为引擎四个模块,实现对目标群体行为模式的建模、群体事件演化趋势的预测及辅助重大决策。SocioVerse 在新闻热点传播、社会经济调查等多个场景中展现出高精度的对齐效果,为计算社会科学的交叉研究提供强大的工具。

    SocioVerse

    SocioVerse的主要功能

    • 高精度社会模拟:构建与现实世界对齐的模拟环境,模拟大规模群体行为,预测社会事件的演化趋势。
    • 多场景应用:支持多种社会研究场景,如新闻传播、社会经济调查、政治选举预测等,帮助研究人员和决策者获取群体行为的洞察。
    • 用户画像与行为生成:构建复杂的目标用户画像,基于智能体生成符合用户特征的行为模式。
    • 动态环境更新:基于实时更新的社会事件、社会统计和个性化内容,让模拟环境与现实世界保持同步。

    SocioVerse的技术原理

    • 社会环境模块:为模拟提供最新的社会背景信息,包括实时事件、社会统计和个性化内容。事件更新构建带时间戳的新闻事件库,供智能体检索和引用。社会统计提供人口分布、城市结构等结构化数据,让智能体行为更符合群体特征。偏好内容基于推荐系统为智能体推送个性化内容,提升行为生成的多样性和个性化。
    • 用户引擎:根据真实用户数据构建目标用户画像,确保模拟智能体的人群特征与现实分布一致。用户池包含来自多个社交媒体平台的1000万用户数据。用户标签结合硬标签(如性别、年龄)和软表征向量,基于大语言模型标注和人工校验生成高精度用户画像。
    • 场景引擎:将模拟场景与真实场景对齐,设计相应的交互结构,按人口分布推广至大规模群体。问卷调查基于1对多的单轮结构,收集大规模样本的观点意见。深入访谈用1对1的多轮交互,挖掘受访者的态度和动机。行为实验基于1对多或多对多的结构,观测个体和群体的决策行为。社交媒体互动基于多对多的动态发帖与评论,模拟信息扩散和网络影响。
    • 行为引擎:结合用户画像、场景结构和社会背景,驱动智能体生成合理的模拟行为。大模型智能体包括通用型LLM(如GPT、Qwen)、专家型LLM(针对特定领域微调)和领域LLM(应对复杂任务)。传统建模智能基于规则或数学模型,适合低影响力的边缘用户建模,具有计算效率优势。

    SocioVerse的项目地址

    SocioVerse的应用场景

    • 政治选举预测:模拟选举过程,预测候选人支持率和选举结果,为政治竞选策略提供数据支持。
    • 突发新闻反馈分析:模拟公众对重大新闻事件的反应,帮助提前评估公众态度并制定应对策略。
    • 国家经济调查:模拟居民消费行为和经济决策,为经济政策制定和市场研究提供参考依据。
    • 社会政策评估:预测社会政策的实施效果和公众反应,助力优化政策设计。
    • 信息传播与舆论分析:模拟信息在社会网络中的传播和舆论演变,为舆情管理和信息治理提供分析工具。
  • Miras – 谷歌推出的深度学习架构设计通用框架

    Miras是什么

    Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义为具有内部优化目标的关联记忆模块。Miras基于四种关键选择构建模型,关联记忆架构、注意力偏差目标、保持门及记忆学习算法。Miras能生成具有不同优势的新型序列模型,例如Moneta、Yaad和Memora,模型在语言建模、常识推理等任务中表现出色,超越现有的Transformer和线性RNN模型。

    Miras

    Miras的主要功能

    • 统一现有架构:将现有的多种序列模型(如Transformer、RetNet、Mamba等)纳入统一的框架下。
    • 优化记忆管理:基于引入注意力偏差(Attentional Bias)和保留门(Retention Gate)的概念,Miras能够更好地平衡学习新信息和保留旧信息,从而优化模型的记忆管理能力。
    • 设计新型模型:支持设计出具有不同注意力偏差和保留机制的新型序列模型,如Moneta、Yaad和Memora。
    • 提升模型性能:提升模型在长序列任务中的性能,保持快速的并行化训练能力。

    Miras的技术原理

    • 关联记忆:将输入(键,Keys)映射到输出(值,Values)的机制。在Miras中,序列模型被看作是关联记忆模块,基于学习输入和输出之间的映射关系存储和检索信息。关联记忆是Miras的核心,决定模型如何存储和利用序列数据中的信息。
    • 注意力偏差:注意力偏差是关联记忆的内部优化目标,用在衡量模型如何优先关注某些事件或刺激。决定模型如何学习输入(键和值)之间的映射关系。基于选择不同的注意力偏差目标(如ℓ2回归、ℓ1回归、Huber损失等),调整模型对数据的敏感度和鲁棒性。
    • 保持门:一种正则化机制,控制模型在学习新信息时如何保留旧信息。引入保留正则化项(如ℓ2正则化、KL散度等)平衡学习和保留。防止模型过度遗忘旧信息,在长序列任务中保持更好的性能。
    • 记忆学习算法:记忆学习算法用在优化关联记忆的目标函数。常见的算法包括梯度下降、动量梯度下降等。基于选择合适的优化算法,提高模型的训练效率和收敛速度。

    Miras的项目地址

    Miras的应用场景

    • 语言建模:NLP研究人员、文本生成开发者用于高效处理长文本,捕捉长距离依赖。
    • 常识推理:AI研究者、智能助手开发者提升对隐含信息的理解和推理能力。
    • 长文本处理:文本分析工程师、信息检索专家优化长文本处理效率,减少资源消耗。
    • 多模态任务:多模态研究者、多媒体内容分析工程师融合多种模态信息,提升跨模态推理能力。
  • Dia – 开源文本转语音模型,支持生成自然逼真的对话语音

    Dia是什么

    Dia 是 Nari Labs 推出的开源文本转语音(TTS)模型,拥有 16亿参数,根据文本脚本直接生成高度逼真的对话语音,支持多说话者标记、情感语调控制以及非语言提示(如笑声、咳嗽声等),通过语音克隆功能生成与特定音频相似的声音。Dia 的代码和权重已在 Hugging Face 和 GitHub 上开源,用户可以下载并本地部署,也可以通过 Gradio 界面在线体验。

    Dia

    Dia的主要功能

    • 自然对话生成:能根据文本脚本生成高度逼真的对话语音,支持多说话者标记(如 [S1][S2] 等),适合生成多人对话场景。
    • 情感与语调控制:用户可以通过音频提示或固定种子调整生成语音的情感和语调,使语音更具表现力。
    • 非语言提示:支持生成非语言音频提示,如笑声、咳嗽声、清嗓子等,让对话更加生动自然。
    • 零样本语音克隆:Dia 支持零样本语音克隆,用户可以上传一个简短的参考音频片段,模型将复制该片段的语音风格。这使得用户无需对每个新说话者进行微调即可生成个性化语音。
    • 实时语音合成:Dia 优化了推理管道,能在消费级设备上实现实时语音生成。在企业级 GPU 上,Dia 能以实时速度生成音频。

    Dia的技术原理

    • 基于Transformer架构:Dia 使用了Transformer架构,是强大的深度学习架构,应用于自然语言处理和语音合成任务中。能处理长文本序列,生成高质量的语音输出。
    • 单次生成对话:与传统的TTS模型不同,Dia 能直接从文本脚本生成完整的对话,无需将每个说话者的语音片段拼接在一起。使生成的对话更加自然流畅。

    Dia的项目地址

    Dia的应用场景

    • 视频制作:为视频生成自然流畅的对话语音,包括旁白、角色对话等,提升内容的吸引力。
    • 音频内容创作:生成播客、有声读物等音频内容,支持多种语调和情感表达。
    • 语言学习:通过生成自然对话,帮助学习者练习口语和听力,支持多种语调和情感表达。
    • 客服与虚拟助手:生成自然流畅的语音对话,用于客服系统或虚拟助手,提升用户体验。
    • 广告与宣传:生成用于广告宣传的语音内容,支持情感和语调控制,提升广告效果。
  • AvatarFX – Character.AI 推出的 AI 视频生成模型

    AvatarFX是什么

    AvatarFX 是 Character.AI 推出的先进 AI 视频生成模型。基于上传一张图片和选择声音,让角色瞬间“活起来”,实现说话、唱歌和表达情感。AvatarFX支持多角色、多轮对话,从单张图片生成高质量视频。AvatarFX 配备强大的安全措施,防止深度伪造和滥用,确保用户创作的安全性和合法性。AvatarFX为创作者和用户提供沉浸式的互动故事创作体验,推动 AI 辅助内容创作的新发展。

    AvatarFX

    AvatarFX的主要功能

    • 图像驱动的视频生成:用户上传一张图片,自动生成该角色的动态视频,角色能说话、唱歌、表达情感。
    • 多角色与多轮对话支持:生成包含多个角色的视频,支持多轮对话。
    • 长视频生成能力:支持长时间视频的生成,保持面部、手部和身体动作的高度时间一致性。
    • 丰富的创作场景:支持从现实人物到虚构角色(如神话生物、卡通角色等)的视频生成,满足多样化的创作需求。

    AvatarFX的技术原理

    • 基于 DiT 架构的扩散模型:基于先进的扩散模型(Diffusion Model)作为基础架构,结合深度学习技术,用大量的视频数据进行训练,学习不同角色的动作和表情模式。模型能根据输入的音频信号生成对应的面部、头部和身体动作,实现高度逼真的动态效果。
    • 音频条件化(Audio Conditioning):基于音频信号驱动角色的动作生成。模型能分析音频的节奏、语调和情感,生成与音频内容相匹配的唇部动作、表情和身体语言,确保视频中的角色动作与声音的完美同步。
    • 高效的推理策略:基于新颖的推理策略,减少扩散步骤和优化计算流程,加快视频生成速度,不降低生成质量。基于先进的蒸馏技术(Distillation Techniques),进一步提升推理效率,确保实时生成高质量视频。
    • 复杂的数据管道:构建复杂的数据处理管道,筛选出高质量的视频数据,对不同风格、不同运动强度的视频进行分类和优化,确保模型学习到多样化的动作模式,生成更丰富、更逼真的视频内容。

    AvatarFX的项目地址

    AvatarFX的应用场景

    • 互动故事与动画制作:快速生成角色视频,用在创作互动故事、动画短片等。
    • 虚拟直播:实现虚拟角色的直播互动,适用于虚拟主播、在线教学等场景。
    • 娱乐表演:制作角色唱歌、跳舞等表演视频,用在虚拟演唱会、搞笑短剧等。
    • 教育内容:让角色“讲解”知识点,使学习过程更生动有趣。
    • 社交媒体内容:生成个性化视频,如虚拟宠物、创意短片等,用在社交媒体分享。
  • 企鹅读伴 – 腾讯推出的 AI 阅读助手

    企鹅读伴是什么

    企鹅读伴是腾讯SSV数字支教实验室推出基于腾讯混元大模型腾讯元器平台提供技术支持的AI阅读助手,专为中小学生设计。企鹅读伴依托《义务教育语文课程方案和课程标准(2022年版)》,涵盖经典书目和名家名篇,基于AI技术实现个性化推荐、数字人互动、角色扮演、启发式提问和游戏化激励等多种功能,打破传统阅读的静态局限,构建“阅读-思考-创造”的完整学习闭环,将经典书籍从“任务书单”变为“互动剧场”,激发学生的阅读兴趣,提升阅读能力和核心素养,重构阅读教育生态。

    企鹅读伴

    企鹅读伴的主要功能

    • 个性化推荐:根据用户年级、阅读能力和兴趣偏好推荐适合的阅读书目。
    • 多种阅读模式:包括专注模式、朗读模式和听书模式,满足不同场景下的学习需求。
    • 启发式互动:基于提问和引导,帮助学生深入思考,提升提问和解题能力。
    • 角色扮演与情景体验:基于AI技术实现书中角色互动,增强情感共鸣和理解深度。
    • 游戏化激励:将阅读过程设计成探险游戏,完成任务获得奖励,激发阅读兴趣。
    • 智能总结报告:系统自动生成阅读总结报告,可视化呈现阅读数据,支持分享阅读成果。

    如何使用企鹅读伴

    • 打开微信小程序:微信搜索企鹅读伴,找到点击进入小程序。
    • 注册与登录:按照提示按成注册和登录。
    • 选择阅读书目:在首页,系统根据年级和阅读能力推荐适合的书目。或用搜索功能,查找自己感兴趣的书籍。
    • 开始阅读:点击感兴趣的书目,进入阅读页面。
    • 选择阅读模式
      • 专注模式:适合深度阅读,支持划线批注和金句收藏。
      • 朗读模式:AI实时识别朗读情况,帮助纠正发音给予鼓励。
      • 听书模式:AI朗读书籍内容,适合在不方便阅读时使用。
    • 互动与提问:阅读过程中,AI读伴提出启发式问题,引导深入思考。
    • 角色扮演与情景体验:在《西游记》书籍中,AI读伴提供角色扮演功能,用户选择书中的人物,AI扮演其他角色,共同演绎书中的场景。
    • 完成任务与获得奖励:每完成一个章节或任务,获得智慧星星。积攒一定数量的星星后,开启盲盒宝箱,获得奇幻道具。
    • 查看阅读报告:在个人中心,查看自己的阅读总结报告,包括阅读时长、进度、AI互动情况等。

    企鹅读伴的应用场景

    • 中小学生日常阅读:提供个性化书目推荐和多种阅读模式,帮助学生提升阅读能力。
    • 家庭亲子阅读:基于AI互动和角色扮演功能,增强亲子互动,激发孩子阅读兴趣。
    • 学校阅读教学辅助:为教师提供学生阅读数据和个性化反馈,辅助课堂教学。
    • 课外阅读拓展:提供丰富的书目资源和游戏化激励体系,鼓励学生主动探索更多书籍。
    • 低线城市教育资源补充:借助AI技术,为教育资源匮乏地区的学生提供优质的阅读指导。
  • Add To Cart AI – AI电商购物助手,支持多模态理解购物需求

    Add To Cart AI是什么

    Add To Cart AI 是创新的AI电商购物助手,为提升购物体验设计。支持文本、语音、图像等多种输入方式,能快速理解用户需求,将购物清单、聊天记录或图片瞬间转化为购物车内容。通过生成式 AI 和语义搜索技术,能提供个性化的产品推荐,精准匹配用户偏好。

    Add To Cart AI

    Add To Cart AI的主要功能

    • 多模态交互:支持文本、语音、图像和实时视频输入,用户可以通过多种方式与助手交互,表达购物需求。
    • 快速填充购物车:能将购物清单、聊天记录或图片中的商品信息瞬间转化为完整的购物车内容,大幅提升购物效率。
    • 个性化推荐:基于生成式 AI 和语义搜索技术,根据用户的浏览历史、搜索习惯和实时查询,提供高度个性化的产品建议。
    • 智能问答:分析产品评论和描述,回答消费者关于商品的具体问题,例如“这款产品适合我吗?”。
    • 无缝集成:商家可通过简单代码嵌入,将其集成到产品页面,实现自动回答常见问题,支持直接在对话中完成“加入购物车”操作。
    • 品牌定制:支持商家自定义助手的语气、措辞和视觉风格,确保与品牌形象一致。
    • 数据安全保障:严格遵循 GDPR 和 CCPA 等全球隐私标准,确保用户数据安全。

    Add To Cart AI的官网地址

    Add To Cart AI的应用场景

    • 电商平台:适用于各类电商平台,如综合商城、垂直电商、跨境电商等。
    • 品牌官网:品牌官网可以通过集成 Add To Cart AI,为消费者提供更加个性化的购物体验。
    • 社交媒体:社交媒体平台上的电商营销账号,可以用购物车填充功能,快速引导消费者完成购买。
  • UFO² – 微软推出的 Windows 桌面 Agent 操作系统

    UFO²是什么

    UFO² 是微软推出的面向 Windows 桌面的多Agent操作系统(AgentOS),基于深度系统集成和自然语言交互实现复杂桌面任务的自动化。UFO²基于中央 HostAgent 分解任务协调多个应用专用的 AppAgent 执行操作,结合 GUI 交互和原生 API 调用,提高任务执行的效率和鲁棒性。UFO² 引入混合控制检测、持续知识整合和非干扰式用户体验设计,支持在隔离的虚拟桌面中运行,避免干扰用户操作。UFO² 在多个真实 Windows 应用中表现出色,显著提升自动化任务的成功率和执行效率。

    UFO²

    UFO²的主要功能

    • 深度操作系统集成:支持深度集成到 Windows 系统中,实现对桌面应用的精细控制。
    • 非干扰式用户体验:UFO² 支持在隔离的虚拟桌面中运行,用户和智能体同时操作,互不干扰。
    • 多轮交互支持:支持多轮任务执行,用户在会话中逐步细化指令或干预智能体的操作。
    • 安全保障机制:检测潜在的危险操作,在执行前提示用户确认,确保用户数据和系统安全。

    UFO²的技术原理

    • 多智能体架构
      • HostAgent:作为中央控制平面,负责解析用户指令、分解任务、调度 AppAgent,协调跨应用的执行。
      • AppAgent:针对特定应用的执行模块,具备应用专用的 API、知识库和 GUI/API 混合动作接口,高效地执行任务。
    • 混合控制检测:结合 Windows UI Automation(UIA)APIs 提供的结构化数据和基于视觉的检测模型,实现对标准和自定义 UI 元素的可靠识别。
    • 统一 GUI/API 动作层:基于 Puppeteer 模块,UFO² 动态选择 GUI 操作或应用原生 API 调用,优化任务执行路径,减少 GUI 操作的脆弱性。
    • 持续知识整合:基于检索增强型记忆(RAG)技术,将外部文档和历史执行记录整合到智能体的知识库中,支持智能体在运行时动态学习和改进。
    • 推测性多动作执行:基于单次推理预测多个动作,在运行时验证这些动作的可行性,减少推理调用频率,提高执行效率。

    UFO²的项目地址

    UFO²的应用场景

    • 办公自动化:自动处理 Excel 数据、编辑 Word 文档、制作 PowerPoint 演示文稿等。
    • 跨应用工作流:协调多个应用完成复杂任务,如从 Excel 导入数据到 Outlook。
    • 企业任务自动化:减少人工干预,高效完成数据录入、文件处理等重复性工作。
    • 智能客服:快速响应用户请求,基于自然语言交互解决问题。
    • 教育与培训:辅助教学,自动演示操作或生成学习报告。
  • 混元3D v2.5 – 腾讯推出的最新版 3D 生成模型

    混元3D v2.5是什么

    混元3D v2.5是腾讯推出的新一代3D生成模型,在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到1024,实现超高清的几何细节建模,表面更平整、边缘更锐利、细节更丰富。混元3D v2.5支持4K高清纹理和细粒度bump凹凸贴图,支持模拟物体表面高低起伏的视觉效果,率先实现多视图输入生成PBR模型,让光影、反射更接近现实。混元3D v2.5骨骼蒙皮系统优化,支持非标准姿态下的自动骨骼绑定和自动蒙皮权重赋值,大幅提升3D动画生成效率。

    混元3D v2.5

    混元3D v2.5的主要功能

    • 超高清建模:总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到1024,实现超高清的几何细节建模,表面更平整、边缘更锐利、细节更丰富。
    • 4K高清纹理:支持4K高清纹理和细粒度bump凹凸贴图,模拟物体表面高低起伏的视觉效果,让生成的3D模型更具真实感。
    • 多视图输入:支持多视图输入生成PBR模型,用户上传物体的多个视图(如前、后、左、右),生成的模型光影、反射效果更接近现实,提升生成质感和真实感。
    • 骨骼蒙皮优化:优化骨骼蒙皮系统,支持非标准姿态下的自动骨骼绑定和自动蒙皮权重赋值,大幅提升3D动画生成效率。
    • 多管线模板:提供文生/图生3D智能减面模型、多视图生3D模型等专业管线模板,用户根据具体场景选择对应的生产管线。
    • 灵活调整参数:用户根据需求调整生成模型的细节、纹理、光影等参数,生成特定风格和特征的3D资产。

    如何使用混元3D v2.5

    • 访问平台:访问腾讯混元3D的官方网站,根据提示完成注册和登录。
    • 选择模型:默认选择3D生成-v2.5模型。
    • 文生3D:输入需要生成文字描述,建议以单体为主,例如“一只带红围脖的企鹅”。
    • 图生3D:上传物体的图片,支持单图和多多视图输入(如前、后、左、右视图),获得更高质量的生成效果。
    • 选择参数:根据需要调整生成参数,例如模型的精细度、纹理质量等。
    • 生成模型:点击生成按钮,等待系统生成3D模型。
    • 下载或使用:生成完成后,用户下载生成的3D模型,或直接在平台上进行进一步的编辑和调整。

    混元3D v2.5的应用场景

    • 游戏开发:快速生成高质量3D角色、场景和道具,缩短开发周期,降低制作成本。
    • 动画制作:高效生成动画角色和场景的3D模型,支持骨骼动画,提升制作效率。
    • 电商广告:生成逼真的3D产品模型,支持虚拟试穿和动态展示,提升用户体验和购买转化率。
    • 工业制造:快速生成产品虚拟原型,用在设计验证、展示和培训,优化研发流程。
    • AR/VR:生成高质量3D模型和场景,提升沉浸感和交互体验,适配多种设备。
  • Praktika – AI语言学习应用,与逼真的AI数字人互动学习

    Praktika是什么

    Praktika是AI语言学习应用,基于高效有趣的方式帮助用户提升语言能力,口语流利度。Praktika基于超逼真的AI虚拟人物(Avatars)为用户提供沉浸式学习体验,帮助练习口语、获得即时反馈和个性化指导。应用涵盖从基础到高级的多种水平和实用话题,如商务、文化、考试备考等。AI教练具备逼真的语音和外观,支持准确的唇部同步。Praktika提供数千种课程和角色,满足不同用户的需求,是语言学习者的理想选择。

    Praktika

    Praktika的主要功能

    • 超逼真的 AI 虚拟人物:提供具有独特背景和口音(如美国、英国、拉丁美洲等)的虚拟导师,帮助用户在真实对话场景中练习语言。
    • 个性化学习体验:根据用户的学习水平和目标,提供定制化的学习路径和反馈。
    • 全面的课程内容:涵盖超过 1000 节课程,包括基础语法、高级对话、商务英语、IELTS/TOEFL 考试准备等。
    • 实用话题练习:提供 150+ 实用话题,如医疗保健、金融、体育、文化等,满足不同用户的学习需求。
    • 互动式学习:随时随地进行口语练习,基于短时对话增强语言流利度和自信心。
    • 进度跟踪与反馈:实时反馈、流利度评分和里程碑成就,帮助用户清晰了解自己的进步。

    Praktika的官网地址

    Praktika的应用场景

    • 日常口语练习:帮助用户练习日常对话,提升口语流利度和自信心。
    • 商务场景模拟:提供商务交流练习,提升商务英语能力。
    • 考试备考:模拟语言考试口语部分,帮助用户熟悉考试流程。
    • 兴趣主题学习:基于旅游、美食等兴趣场景,学习相关词汇和表达。
    • 儿童语言启蒙:结合趣味互动方式,激发儿童学习语言的兴趣。
  • Suna – Kortix推出的全球首款通用型 AI Agent 开源项目

    Suna是什么

    Suna 是Kortix推出的全球首款通用型 AI Agent 开源项目,支持高效解决现实场景中的各类任务。基于自然流畅的对话交互,Suna 支持智能辅助研究分析、数据处理及日常事务,化身专属数字伙伴。Suna 具备强大的功能,包括浏览器自动化、文件管理、网络爬虫、命令行执行、网站部署及与多种API的集成。Suna 结合直观的界面和强大的工具集,解决复杂问题并自动化工作流程。支持用户自托管Suna,用简单的对话实现从研究分析到日常事务的多种应用场景。

    Suna

    Suna的主要功能

    • 浏览器自动化:自动浏览网页,提取数据,完成复杂的网络任务。
    • 文件管理:创建、编辑和管理文档,支持多种格式,如文本、表格和报告生成。
    • 网络爬虫与搜索:抓取网页内容、分析数据,生成总结报告。
    • 命令行执行:执行系统任务,支持命令行操作,用在自动化脚本和系统管理。
    • 网站部署:支持网站部署和管理,帮助用户快速搭建和维护在线服务。
    • API集成:与多种API和服务集成,例如LinkedIn、Crunchbase等,获取和处理第三方数据。
    • 数据分析与报告生成:分析数据生成报告,例如市场分析、产品评论总结、科学论文对比等。
    • 实时交互:提供实时的对话支持,理解用户需求即时反馈。

    Suna的技术原理

    • 后端 API:基于 Python 和 FastAPI 构建,处理 REST 接口、线程管理和与 OpenAI、Anthropic 等 LLM 的集成。
    • 前端:基于 Next.js 和 React,提供聊天界面和仪表板等响应式用户界面。
    • Agent Docker:为每个代理提供隔离的执行环境,支持浏览器自动化、代码解释器、文件系统访问、工具集成和安全功能。
    • Supabase 数据库:处理数据持久化,包括身份验证、用户管理、对话历史记录、文件存储、代理状态、分析和实时订阅。

    Suna的演示用例

    1. 数据处理与增强

    • 提示词:I have this Excel file with B2B leads for my business. For each company, find the LinkedIn page. Then, tell me who is the CEO/Founder of the company and the head of sales/marketing of the company.Last, add a 1-line description of what the company does.Add all of these requests to the Excel file.(我有一个包含我业务的B2B潜在客户的Excel文件。对于每个公司,请找到他们的LinkedIn页面。然后,告诉我公司的CEO/创始人是谁,以及公司的销售/市场负责人是谁。最后,添加一行描述公司是做什么的。将所有这些请求添加到Excel文件中。)

    Suna

    2. 网络搜索

    • 提示词:Research about Suna.so and explain what it is.(研究Suna.so并介绍一下。)

    Suna

    3. 数据研究与可视化
    • 提示词
    •  Give me thorough analysis of Apple Inc. (AAPL), including:
      • Summary: Company overview, key metrics, historical performance data, and investment recommendations.
      • Financial Data: Revenue trends, profit margins, balance sheet strength, and cash flow analysis.
      • Market Sentiment: Analyst ratings, sentiment indicators, and recent news impact.
      • Technical Analysis: Price trends, key technical indicators, and current support/resistance levels.
      • Compare Assets: Market share and financial metrics compared to key competitors in the consumer tech and electronics industry.
      • Value Investor: Intrinsic value estimation, long-term growth potential, and risk factors.
      • Investment Thesis: SWOT analysis and tailored recommendations for different investor profiles (e.g. long-term holders, value investors, swing traders).
    • 请对苹果公司(Apple Inc.,股票代码:AAPL)进行全面分析,包括以下内容:
      • 概要:公司概况、关键指标、历史业绩数据和投资建议。
      • 财务数据:收入趋势、利润率、资产负债表强度和现金流分析。
      • 市场情绪:分析师评级、市场情绪指标以及近期新闻的影响。
      • 技术分析:价格趋势、关键技术指标以及当前的支撑/阻力水平。
      • 资产比较:与消费科技和电子行业主要竞争对手的市场份额和财务指标比较。
      • 价值投资者:内在价值评估、长期增长潜力和风险因素。
      • 投资论点:SWOT分析以及针对不同投资者类型(例如长期持有者、价值投资者、短线交易者)的定制化建议。

    Suna

    Suna的官网和开源项目地址

    Suna的产品定价

    • Free(免费):每月使用10分钟。
    • Pro(专业):$29/月,每月使用4小时。
    • Enterprise(企业):$199/月,每月使用40小时。

    Suna的应用场景

    • 市场与商业分析:分析竞争对手、行业趋势,生成风险投资列表和市场报告,助力商业决策。
    • 数据抓取与信息收集:抓取保险政策、公开招标、社交媒体数据,为用户提供精准信息。
    • 个人与行政任务:规划旅行、撰写报告、管理文件,提升个人事务处理效率。
    • 教育与研究支持:总结科学论文、整理学习资料,辅助学术研究和知识获取。
    • 客户服务与销售:生成潜在客户列表、撰写个性化邮件,优化SEO,助力销售与客户服务。