Blog

  • 豆包浏览器插件 – 字节跳动推出的 AI 浏览器智能助手

    豆包浏览器插件是什么

    豆包浏览器插件是字节跳动推出的AI智能助手工具,通过AI技术提升用户的浏览器使用体验。集成了多种实用功能,包括AI问答、内容总结、翻译、智能搜索、一键收藏等。用户可以通过划词翻译、对话框提问等方式快速获取信息,能对网页、文献、视频等内容进行智能总结和翻译,帮助节省时间提升学习与工作效率。

    豆包浏览器插件

    豆包浏览器插件的主要功能

    • AI问答与对话:用户可以在浏览器中随时提问,豆包会提供即时的回答和建议,帮助解决学习、工作或生活中的问题。
    • 内容总结与提取:能快速总结网页、文献、视频等的内容,提取关键信息,帮助用户高效获取核心要点。
    • 翻译功能:支持划词翻译和全文翻译,覆盖多种语言,提供自定义翻译配置,如显示原文、译文下划线等。
    • 智能搜索:优化搜索结果,自动整理信息,提供更精准的搜索体验。
    • 一键收藏:用户可以快速收藏网页、PDF、视频等内容,在豆包收藏夹中统一管理,方便后续查阅。
    • AI伴读:辅助阅读英文文献等资料,提供全文翻译和提问功能,帮助用户更好地理解内容。
    • 创意写作辅助:提供文章开头、段落续写、总结等写作辅助功能,激发创意,提升写作效率。
    • 文本到图像转换:将文本内容转换为图像,增加信息的表达形式。
    • 邮件撰写辅助:帮助用户快速撰写邮件,提供模板和建议,提升沟通效率。

    如何使用豆包浏览器插件

    • 安装方法
      • 下载插件:访问豆包官网,点击下载浏览器插件。
      • 打开浏览器扩展程序页面:以谷歌浏览器为例,输入 chrome://extensions 回车。
      • 开启开发者模式:在扩展程序页面右上角,开启“开发者模式”。
      • 拖拽安装:将下载好的插件文件(把名字命名为 `豆包插件 v1.x.x .crx`的文件)拖拽到扩展程序页面中,点击“添加扩展程序”。
      • 登录账号:安装完成后,登录豆包账号即可开始使用。
    • 使用方法
      • 侧边栏面板:点击浏览器上的豆包图标,打开侧边栏面板,可进行对话、翻译、总结等操作。
      • 划词翻译:选中网页中的文字,右键选择“翻译”或通过划词工具栏进行翻译。
      • 内容总结:点击“总结此网页”按钮,豆包会自动提取网页的关键信息生成摘要。
      • AI搜索:在插件中输入问题,豆包会联网搜索并提供精准答案。
      • 自定义技能:用户可以根据需求自定义划词工具栏的技能,例如一键生成小红书文案。
    • 注意事项
      • 安装时出现“无法从该网站添加应用、扩展程序、和用户脚本”等问题,应该是谷歌浏览器版本不是最新版,推荐在浏览器 – 帮助 – 关于 Google Chrome 中进行升级或者重新安装。
    • 其他浏览器支持:豆包插件在 Microsoft Edge 浏览器、Safari 浏览器,都支持安装使用。
      • Microsoft Edge 浏览器
        • 使用最新版本的 Microsoft Edge 浏览器。
        • 点击’获取’ 点击’添加扩展’到 Microsoft Edge。
        • 弹出页面显示’安装完成’,安装成功。
      • Safari 浏览器
        • 在 App Store 中,下载 Safari 浏览器豆包插件。
        • 点击打开豆包插件,根据提示打开’Safari 扩展菜单’; 在豆包旁边的框里打勾; 允许在所有网站上拥有运行的权限。
        • 看到 Safari 浏览器导航栏的豆包头像,则安装成功。

    豆包浏览器插件的应用场景

    • 学习与研究:快速翻译和总结学术文献、论文,辅助阅读和理解。
    • 日常工作:撰写邮件、创意写作、整理笔记。
    • 信息获取:快速总结网页内容、视频摘要,提升浏览效率。
  • SurveyX – 人民大学联合悉尼大学等推出自动化生成学术综述的系统

    SurveyX是什么

    SurveyX 是基于大型语言模型(LLMs)自动化生成学术综述的系统,是中国人民大学、悉尼大学和中国东北大学联合推出的。基于用户提供论文标题和关键词,快速生成高质量、特定领域的学术综述或论文。SurveyX系统基于先进的语言模型技术,结合数据处理和文献检索能力,帮助用户节省编写学术综述的时间和精力。SurveyX将综述生成过程分解为准备阶段和生成阶段,解决传统方法中上下文窗口限制、知识过时及缺乏系统性评估框架等问题。SurveyX 在内容质量、引用质量和文献相关性方面均优于现有方法,接近人类专家水平,为高效生成高质量学术综述提供了有力支持。

    SurveyX

    SurveyX的主要功能

    • 自动化生成学术综述:用户提供论文标题和相关关键词,系统自动生成高质量的学术综述或研究论文。
    • 定制化内容生成:用户根据自己的研究需求,基于关键词指定文献检索范围,生成特定领域的综述内容。
    • 高效文献检索与整合:基于关键词检索相关文献,整合文献中的信息,生成全面且结构化的综述内容。
    • 支持多种学术领域:系统适用于多种学科领域,包括但不限于人工智能、自然语言处理、计算机科学、医学、物理学等。

    SurveyX的技术原理

    • 关键词扩展与文献检索:基于关键词扩展算法,通过语义聚类和关键词提取,逐步扩展检索关键词池,确保检索的全面性。结合两步过滤方法,用嵌入模型进行粗粒度过滤,用LLMs进行细粒度过滤,确保文献与主题高度相关。
    • 文献预处理:将文献的关键信息提取构建成属性树,显著提高文献信息密度和LLMs的上下文窗口利用率。不同类型的文献(如方法论文、理论论文等)使用不同的属性树模板,确保信息提取的针对性和准确性。
    • 智能大纲生成:基于AttributeTree生成提示(hints),辅助LLMs生成二级大纲。基于“分离-重组”步骤消除冗余,优化大纲的逻辑结构,确保综述的条理性和连贯性。
    • 内容生成与优化:基于RAG技术,结合检索到的文献材料,优化生成内容的引用质量和准确性。在生成过程中,LLMs能查看其他子节的内容,确保生成内容的一致性。
    • 多模态展示与后处理:基于信息提取模板和生成模板,从文献中提取必要信息生成图表和表格,丰富综述的表现形式。用多模态LLMs检索支持内容的图表,进一步提升综述的可读性和信息传达效果。对生成的初稿进行精细化润色,提升文本流畅性、逻辑性和学术性。

    SurveyX的项目地址

    SurveyX的应用场景

    • 学术研究:快速生成高质量的文献综述,帮助研究人员掌握领域现状和研究方向。
    • 跨学科研究:整合多学科文献,促进跨学科知识融合。
    • 动态更新:实时检索最新文献,生成动态综述,助力跟踪前沿研究。
    • 教学辅助:帮助学生学习综述写作,提升学术写作能力。
    • 行业分析:生成技术综述和行业报告,为企业和机构提供决策参考。
  • TheDream.ai – AI图像生成工具,生成多种风格的个性化头像

    TheDream.ai是什么

    TheDream.ai是基于人工智能技术的图像生成工具,专注于为用户提供个性化头像和创意照片生成服务。用户只需上传照片,可通过先进的AI模型和Dreambooth技术,快速生成多种风格的图像,涵盖时尚、艺术、插画、历史等200多种风格。

    TheDream.ai

    TheDream.ai的主要功能

    • 个性化头像生成:用户可以上传自己的照片,通过AI技术生成各种风格的个性化头像,适用于社交媒体、个人品牌等场景。
    • 多样化风格选择:提供超过200种不同的风格,涵盖时尚、艺术、幻想、电影、历史、插画、美妆、视觉、雕塑、趣味和旅行等多种类别,满足不同用户的需求。
    • AI智能创作:基于先进的AI模型和Dreambooth技术,根据用户上传的照片和选择的风格,快速生成高质量、符合用户需求的图像。
    • 隐私保护:注重用户隐私,上传的照片仅用于生成图像,24小时内从服务器删除,确保用户信息安全。
    • 易用性:用户界面简洁友好,操作简单,无需专业技能即可快速上手,适合各种用户群体。
    • 创意灵感激发:除了生成头像,还可以用于生成创意照片、艺术作品或社交媒体内容,帮助用户激发创意和灵感。

    TheDream.ai的官网地址

    TheDream.ai的应用场景

    • 社交媒体头像生成:TheDream.ai 可以为用户生成高质量的社交媒体头像,适用于 Facebook、Instagram、Twitter 等平台,帮助用户提升个人形象和视觉吸引力。
    • 职业形象塑造:对于职场人士,TheDream.ai 可以生成适合 LinkedIn、公司网站等专业平台的正式照片,帮助求职者在简历上展现最佳形象。
    • 在线约会应用:用户可以为约会应用创建有吸引力且真实的个人照片,增强在交友平台上的吸引力。
    • 个人品牌建设:博客作者、影响力者和创作者可以用 TheDream.ai 生成一致的个人形象,用于个人网站、博客或社交媒体。
  • TinyR1-Preview – 奇虎360联合北大团队推出的推理模型

    TinyR1-Preview是什么

    TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepseek-R1-671B的性能,TinyR1-Preview在数学领域(AIME评测78.1分)逼近原版R1(79.8分),远超70B的Deepseek-R1-Distill-Llama(70.0分)。TinyR1-Preview基于“分治-融合”策略,分别训练数学、编程、科学三大垂直领域模型,借助Mergekit工具实现智能融合,突破性能上限。

    TinyR1-Preview

    TinyR1-Preview的主要功能

    • 强大的数学推理能力:在复杂数学问题(如 AIME 2024)上表现出色,快速准确地解决高难度数学题目。
    • 高效的编程辅助:支持代码生成和调试,帮助开发者快速解决问题,提升编程效率。
    • 科学问题解答:支持处理复杂的科学问题,提供准确的答案和解释。
    • 轻量级部署:仅需 32B 参数量,相比大型模型,推理成本更低,适合资源受限的场景。

    TinyR1-Preview的技术原理

    • 分治策略:基于 DeepSeek-R1 生成的海量领域数据,分别训练数学、编程、科学等垂直领域的子模型,每个子模型专注于特定领域的任务。
    • 智能融合:基于 Arcee 团队的 Mergekit 工具,将不同领域的子模型进行智能融合,突破单一模型的性能上限,实现多任务的均衡优化。
    • 蒸馏技术:基于模型蒸馏方法,将大型模型的知识迁移到较小的模型中,仅用 5% 的参数量达到原版 R1 模型 95% 以上的性能。
    • 优化训练:基于领域数据训练和智能融合,TinyR1-Preview 在推理效率和性能上显著提升,保持轻量级的特点,适合快速部署和应用。

    TinyR1-Preview的项目地址

    TinyR1-Preview的应用场景

    • 教育领域:辅助数学学习和编程教育,提供解题思路和代码生成。
    • 科研学术:帮助科研人员解答科学问题,设计实验和分析数据。
    • 软件开发:生成代码、优化算法,提升开发效率。
    • 企业应用:支持数据分析和流程优化,辅助企业决策。
    • 个人生活:作为智能助手,提供知识查询和学习支持。
  • 浙江大学DeepSeek系列专题讲座课件第一期(PDF文件) – AI教程资料

    主题为“DeepSeek:回望AI三大主义与加强通识教育”是浙江大学计算机科学与技术学院吴飞教授关于人工智能发展的专题报告。从人工智能的起源——1956年达特茅斯会议讲起,回顾了符号主义、连接主义和行为主义三大研究范式的发展历程及其对现代人工智能的影响。深入探讨了以ChatGPT为代表的生成式人工智能技术的原理、架构和训练方法,重点介绍了浙江大学参与研发的DeepSeek模型,阐述了在模型算法和工程优化方面的创新突破,以及开源开放对推动人工智能技术普及和生态发展的意义。强调了人工智能通识教育的重要性,介绍浙江大学在人工智能教育领域的实践成果,包括课程体系建设、教材编写、人才培养模式探索以及科普工作。人工智能作为一种通用目的技术(GPT),深刻影响社会的各个方面,呼吁加强人工智能伦理和素养教育,推动技术与社会的协同发展。

    获取《DeepSeek:回望AI三大主义与加强通识教育》

    《Chatting or Acting? – DeepSeek的突破边界和浙大先生的未来图景》

    PDF原文件,扫码关注回复: 20250221

    从达特茅斯启航的人工智能三大主义

    • 回顾人工智能的起源,特别是1956年达特茅斯会议对人工智能的定义和发展方向的奠定。介绍了符号主义、连接主义和行为主义三种主要的人工智能研究范式,并探讨了它们在人工智能发展中的作用和局限性。

    从ChatGPT到DeepSeek

    • 讨论从ChatGPT到DeepSeek的技术演进。介绍了ChatGPT的技术架构(如Transformer模型、自注意力机制等),以及DeepSeek在模型算法和工程优化方面的创新。同时,探讨了DeepSeek在降低算力成本和提升效率方面的突破。

    人工智能通识教育

    • 介绍浙江大学在人工智能通识教育方面的努力,包括开设人工智能通识课程、发布相关教材和培养方案。强调了人工智能通识教育对于培养跨学科人才的重要性。
    • 人工智能:通用目的技术(GPT)
      • 讨论人工智能作为通用目的技术(GPT)的特征,包括其普遍适用性、动态演进性和创新互补性。分析了人工智能对经济增长和社会发展的深远影响。
    • 浙江大学人工智能教育教学研究中心
      • 介绍浙江大学成立人工智能教育教学研究中心的背景和目标,包括构建人工智能课程体系、培养跨学科师资队伍、推进人工智能赋能教育教学等。
    • 浙江大学发布《大学生人工智能素养红皮书》
      • 介绍《大学生人工智能素养红皮书》的主要内容,包括大学生人工智能素养的构成、培养目标和策略。强调了知识、能力、价值和伦理在人工智能素养中的重要性。
    • 浙江大学发布《高校教师人工智能素养红皮书》
      • 讨论高校教师在智能时代应具备的人工智能素养,包括育人理念、智能教育知识、人机协同教学能力等。提出了提升教师人工智能素养的路径和保障措施。
    • 从新一代人工智能系列教材迈向新一代人工智能通识系列教材
      • 介绍浙江大学在新一代人工智能教材建设方面的进展,包括理论教材和实践教材的出版。同时,启动了新一代人工智能通识系列教材的编写工作,以满足不同层次学生的需求。

    • 人工智能体系化人才培养载体
      • 探讨人工智能人才培养的多种载体,包括微辅修专业项目、双学位项目、交叉学科课程等。强调了体系化知识、创新能力和社会责任在人才培养中的重要性。
    • 基础教育中人工智能通识教育
      • 介绍浙江大学在基础教育领域开展人工智能通识教育的实践,包括与中小学合作建立创新研究中心,开发适合基础教育阶段的人工智能教学案例和课程。
    • 人工智能科普通识读物
      • 介绍浙江大学在人工智能科普方面的工作,包括出版《走进人工智能》有声通识数字栏目和科普通识读物。强调了科学普及在提升公众对人工智能理解中的作用。

    获取《DeepSeek:回望AI三大主义与加强通识教育》

    《Chatting or Acting? – DeepSeek的突破边界和浙大先生的未来图景》

    PDF原文件,扫码关注回复: 20250221

  • 《2024年移动端AI应用场景研究报告》(PDF文件) – AI教程资料

    《2024年移动端AI应用场景研究报告》。全面分析了全球和中国人工智能市场的现状与发展趋势,重点关注移动端AI应用的市场格局、用户行为、应用场景以及未来发展方向。2024年移动端AI市场呈现明显的分化趋势,语言模型类应用占据主导地位,豆包、Kimi智能助手和文小言等应用表现突出。智能伴聊、图像处理和智能工具等细分赛道也在快速发展,用户需求加速向移动端迁移。报告深入分析了移动端AI应用的用户画像,包括用户对AI的认知度、使用场景、付费意愿以及使用反馈等。

    获取《2024年移动端AI应用场景研究报告》 PDF原文件,扫码关注回复: 20250226

    AI市场概览

    • 全球AI市场概览:全球AI市场规模持续扩大,预计2027年将迎来普适AI时代。中美成为产业引领者,推动AI技术、产品和应用的多轮驱动发展。

    • 人工智能产业结构对比:对比美国和中国在AI应用、基础大模型、云基础设施和芯片等方面的产业占比。
    • 中美AI发展对比:展示中美在AI独角兽企业数量、AI企业数量、大模型数量等方面的占比,并预测全球生成式AI市场规模的增长趋势。
    • 中国AI产业概览:中国AI产业从百模大战向应用驱动转型,本土化大模型加速落地,推动AI应用生态发展。介绍国内主要AI企业及软件产品,包括传统互联网企业、传统AI企业和AI初创企业的代表性产品。

    移动端AI市场研究

    • 移动端AI赛道流量增长强劲:2024年移动端AI月独立设备数翻番,人均月度使用时长持续攀升,市场接受度显著提升。
    • 用户画像:移动端AI应用整体用户分析:分析移动端AI应用的核心用户特征,包括性别、年龄、消费能力、城市级别和人群标签等。

    • 用户对AI的认知度及信息获取渠道:用户对AI的认知度不断提升,社交媒体和工作学习是主要信息来源。用户接触AI的时间和使用契机也有所分析。
    • 用户行为:移动端AI产品带来的反馈与使用契机:分析移动端AI应用在提升工作效率、辅助搜索、提供准确资料等方面的作用,以及用户开始使用AI的场景和功能吸引力。
    • 用户行为:移动端AI应用使用技巧:用户常用的AI应用使用技巧,如知乎式提问、迭代优化等,以及用户对个性化使用和AI应用基本原理的兴趣。

    • 用户付费:移动端AI应用付费意愿、付费区间和方式:分析用户对移动端AI应用的付费意愿、付费区间和付费方式,如免费基础版+增值服务、按月订阅模式等。
    • 用户付费:用户看重的影响购买决策因素:用户在购买移动端AI应用服务时最看重的因素,如使用便捷性、功能多样性、数据隐私保护等。

    • 用户付费:对高级功能的认知及付费意愿:用户对移动端AI高级功能的认知,如专家助手、云端协同等,以及对高级功能的付费意愿。
    • 使用反馈:移动端AI应用使用中遇到的问题:用户对移动端AI应用的整体满意度,以及使用中遇到的问题,如回答不准确、对话不自然等,需要改进的地方包括与办公软件集成、生成内容准确度等。

    移动端AI细分赛道研究

    • 移动端AI应用领域:整体概况:2024年11月移动互联网AI细分赛道数据显示,语言模型应用最受欢迎,活跃用户和使用时长领先。

    • 移动端AI应用:语言模型细分赛道用户行为情况:分析语言模型类应用的用户行为,如豆包、Kimi智能助手、文小言等应用的活跃用户规模和增长趋势,以及用户对这些应用的核心功能需求。
    • 移动端AI应用:智能伴聊细分赛道用户行为情况:智能伴聊类应用用户需求快速增长,星野APP凭借创新的AI社交体验脱颖而出,用户对泛娱乐类应用关注度更高。

    • 移动端AI应用:图像处理细分赛道用户行为情况:图像处理领域用户黏性持续增强,无界AI、图趣AI等头部应用通过差异化功能满足用户需求,细分赛道流量具备增长潜力。
    • 移动端AI应用:智能工具细分赛道用户行为情况:智能工具类赛道用户基数虽小但增长迅速,腾讯元宝等头部互联网企业推出的产品满足用户需求。

    移动端AI应用场景研究

    • 移动端AI应用主要使用场景:分析用户在生活、工作学习、娱乐休闲和亲子教育四大场景中使用移动端AI产品的比例和时间占比。
    • 移动端AI应用主要场景用户画像:展示不同场景下用户的性别、学历、城市等级、收入、职业等特征,如亲子教育场景中高学历人群和高收入人群占比显著。

    • 移动端AI应用使用周期、频率和时长:分析用户在各场景中使用移动端AI应用的周期、频率和单次使用时长,如亲子场景的使用频率更高。
    • 移动端AI应用主要场景使用体验:用户对移动端AI应用的整体评价,以及在不同场景中最认可和最有用的功能,如与办公软件协同、娱乐休闲功能等。

    • 移动端AI应用付费意愿:用户在不同场景下的付费意愿,包括愿意支付的月度费用、付费模式,以及对数据安全保护、专业内容生成等功能的付费意愿。

    AI应用未来展望

    • 技术创新驱动用户体验升级与场景深度融合:随着算法和模型改进,AI回答准确性和对话自然度提升,本地化AI能力增强,隐私保护和响应速度提升,生活和工作学习场景逐渐深化,办公软件协同能力完善,个人专家助手和云端协同功能丰富化,针对高学历用户的垂直领域应用普及,优化教育和办公等专业场景服务,提供一站式解决方案。

    • 商业模式创新与价值提升,细分赛道差异化发展:语言模型、智能伴聊、图像处理等细分赛道通过差异化商业模式和创新服务,实现持续分化发展,如轻量级订阅服务、专业内容生成优化、免费试用+付费进阶等模式。

    • AI应用生态系统完善与普及,市场释放增长潜力:中国AI软件市场规模持续扩大,用户规模增速高,新一线城市市场潜力大,区域服务差异缩小,用户活跃度和时长持续提升,社交媒体等核心渠道不断建设优化,用户教育体系完善,AI应用生态链逐步完善。

    获取《2024年移动端AI应用场景研究报告》 PDF原文件,扫码关注回复: 20250226

  • DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

    DeepGEMM是什么

    DeepGEMM是DeepSeek开源的为高效简洁的FP8矩阵乘法(GEMM)设计的库,目前仅支持NVIDIA Hopper张量核心。DeepGEMM支持普通和混合专家(MoE)分组的GEMM操作,基于即时编译(JIT)技术,无需安装时编译,支持在运行时动态优化。DeepGEMM基于细粒度缩放和CUDA核心双级累加技术,解决FP8精度不足的问题,同时用Hopper的Tensor Memory Accelerator(TMA)特性提升数据传输效率。DeepGEMM核心代码仅约300行,易于学习和优化。DeepGEMM的轻量设计,在多种矩阵形状上均达到或超过专家级优化库。

    DeepGEMM

    DeepGEMM的主要功能

    • 高效FP8矩阵乘法(GEMM):DeepGEMM是专为FP8(8位浮点)矩阵乘法设计的高效库,支持细粒度缩放,显著提升矩阵运算的性能和精度。
    • 支持普通和分组GEMM
      • 普通GEMM:适用于常规的矩阵乘法操作。
      • 分组GEMM:支持混合专家(MoE)模型中的分组矩阵乘法,包括连续布局(contiguous layout)和掩码布局(masked layout),优化多专家共享形状的场景。
    • 即时编译(JIT)设计:基于即时编译技术,所有内核在运行时动态编译,无需安装时编译。根据矩阵形状、块大小等参数进行优化,节省寄存器提升性能。
    • Hopper架构优化:专为NVIDIA Hopper架构设计,充分利用Tensor Memory Accelerator(TMA)特性,包括TMA加载、存储、多播和描述符预取,显著提升数据传输效率。
    • 细粒度缩放和双级累加:为解决FP8精度不足的问题,DeepGEMM引入细粒度缩放技术,基于CUDA核心的双级累加机制,将FP8计算结果提升到更高精度的格式(如BF16),确保计算精度。
    • 轻量级设计:核心代码简洁,仅约300行,易于理解和扩展。避免复杂模板或代数结构的依赖,降低学习和优化的难度。

    DeepGEMM的项目地址

    DeepGEMM的性能表现

    • 普通GEMM(非分组)性能
      • 最高加速比:在某些矩阵形状下,DeepGEMM能达到2.7倍的加速比,显著提升矩阵乘法的效率。
      • 计算性能:在大规模矩阵运算中,DeepGEMM能够实现超过1000 TFLOPS的计算性能,接近Hopper架构GPU的理论峰值。

    DeepGEMM

    • 分组GEMM(MoE模型)性能
      • 加速比:在分组GEMM中,DeepGEMM能实现1.1-1.2倍的加速比,显著提升MoE模型的训练和推理效率。
      • 内存带宽优化:基于TMA特性,DeepGEMM在内存带宽利用上表现出色,达到接近硬件极限的性能。
        • 连续布局(Contiguous Layout)

    DeepGEMM

        • 掩码布局(Masked Layout)

    DeepGEMM

    DeepGEMM的系统要求

    • 硬件要求
      • GPU架构:必须支持NVIDIA Hopper架构,具体要求为支持sm_90a的GPU。推荐使用H800或H100等Hopper架构的GPU,专为FP8计算和Tensor Core优化设计。
      • CUDA兼容性:需要支持CUDA 12.3或更高版本,推荐使用CUDA 12.8或更高版本获得最佳性能。
    • 软件要求
      • 操作系统推荐:使用Linux操作系统(如Ubuntu、CentOS等),因为CUDA和PyTorch在Linux上支持更好。
      • Python版本:Python 3.8或更高版本。
      • CUDA工具包:CUDA 12.3或更高版本。CUDA版本必须与GPU架构匹配,推荐使用12.8或更高版本以充分利用Hopper架构的特性。
      • PyTorch:PyTorch 2.1或更高版本。
      • CUTLASS库:CUTLASS 3.6或更高版本。
    • 其他要求
      • 常规的编译工具(如gcc、make等)。
      • torch.utils.cpp_extension模块,用于CUDA扩展。

    DeepGEMM的应用场景

    • 大规模AI模型推理:加速高维矩阵乘法,提升推理速度。
    • 混合专家(MoE)模型:优化分组矩阵乘法,提高计算效率。
    • 低精度计算:通过细粒度缩放解决FP8精度问题,保持高精度输出。
    • 高性能计算:基于Hopper架构特性,提升矩阵运算效率。
    • 深度学习框架优化:作为底层优化库,加速模型训练和推理。
  • AgentRefine – 北京邮电大学联合美团推出的智能体合成框架

    AgentRefine是什么

    AgentRefine 是北京邮电大学和美团联合提出的智能体合成框架,通过“精炼调整”(Refinement Tuning)提升基于大型语言模型(LLM)的智能体在多样化任务中的泛化能力。让智能体通过轨迹中的观察学习纠正错误,实现自我优化。研究团队受到桌面角色扮演游戏(TRPG)的启发,设计了包含脚本生成、轨迹生成和验证的数据构建流程。

    AgentRefine

    AgentRefine的主要功能

    • 错误纠正与自我优化:AgentRefine 通过轨迹中的观察让智能体学习纠正错误,实现自我优化。过程类似于人类在面对错误时的反思和调整,智能体能更好地适应新环境和任务。
    • 多样化环境与任务集成:框架整合了多种环境和任务,促使智能体在面对复杂场景时能灵活调整策略
    • 增强鲁棒性:AgentRefine 在面对环境扰动时表现出了更强的鲁棒性。例如,在任务描述或环境设置发生微小变化时,AgentRefine 能更好地适应并保持性能。
    • 推理过程多样化:AgentRefine 能在推理过程中生成多样化的思路。依赖于记忆中的固定模式,能根据环境反馈动态调整决策路径。

    AgentRefine的技术原理

    • 自我精炼能力:AgentRefine 的核心思想是让智能体通过轨迹中的观察学习纠正错误。框架通过模拟多轮交互,让模型在生成错误动作后,根据环境反馈进行自我修正。使智能体避免陷入固定错误模式,通过合理探索发现正确的行动序列。
    • 数据合成与验证:该框架通过生成多轮交互数据,并使用验证器检测生成内容中的格式或逻辑错误。错误的交互被保留,并提示模型根据观察结果进行修正,最终生成经过自我精炼的数据。
    • 鲁棒性与推理多样化:AgentRefine 在面对环境扰动时表现出更强的鲁棒性,例如在任务描述或环境设置发生微小变化时,能保持良好性能。框架能生成多样化的推理路径,进一步提升智能体的泛化能力。

    AgentRefine的项目地址

    AgentRefine的应用场景

    • 复杂任务的自动化决策:AgentRefine 可以应用于需要在复杂环境中进行多轮决策的任务,例如自动驾驶、机器人导航和智能客服等。
    • 游戏 AI 和虚拟环境:在游戏 AI 和虚拟环境中,AgentRefine 可以通过自我优化提升智能体的决策质量和多样性。
    • 代码生成与优化:在代码生成领域,AgentRefine 可以生成初始代码,通过自我反思机制识别代码中的错误和不足,进行迭代优化,最终生成高质量的代码。
    • 自然语言处理任务:AgentRefine 可以用于自然语言处理中的文本生成和对话系统。AgentRefine 可以生成初稿并通过自我反思机制优化内容,提升文章质量。
    • 科学研究和模拟环境:在需要模拟复杂环境的科学研究中,AgentRefine 可以通过自我纠正和泛化能力,更好地适应动态变化的环境。
  • Gemini Code Assist – 谷歌推出免费的 AI 编程工具

    Gemini Code Assist是什么

    Gemini Code Assist 是 Google 推出的 AI编程工具,能帮助开发者更高效地编写代码、提升代码质量。Gemini Code Assist 基于 Gemini 2.0 模型,支持所有公开领域的编程语言,提供代码补全、生成、调试和代码审查等功能。Gemini Code Assist 提供每月高达 180,000 次代码补全的免费使用额度,适合学生、自由开发者、初创企业和专业开发者。Gemini Code Assist支持在 Visual Studio Code 和 JetBrains IDE 中使用,基于 GitHub 应用提供免费的 AI 驱动代码审查服务。支持开发者基于自然语言描述需求,快速生成代码片段或优化现有代码。

    Gemini Code Assist

    Gemini Code Assist的主要功能

    • 代码生成与补全:在 IDE 中提供自动代码补全和生成功能,支持多种编程语言。
    • 智能代码审查:自动审查 GitHub 拉取请求,查找错误和风格问题,提供修复建议。
    • 自然语言交互:通过聊天界面与 AI 交互,支持代码解释、生成和转换。
    • 上下文感知:结合 IDE 中的代码和 128K tokens 的上下文窗口,提供更相关的响应。
    • 集成与扩展:支持与 Firebase、Google Cloud 等平台集成,提供更强大的开发支持.

    Gemini Code Assist的官网地址

    Gemini Code Assist的产品定价

    • 个人版:免费预览,提供基础的代码生成、补全和聊天功能。每日6,000 次代码相关请求和 240 次聊天请求。
    • 标准版:年付$19/用户/月,月付$22.80/用户/月,提供企业级的安全性和管理工具,支持代码生成、代码审查、代码补全等功能,适用于团队协作,支持多 IDE(如 VS Code、JetBrains IDEs),提供 Firebase 集成,支持应用质量分析。
    • 企业版:年付$45/用户/月,月付$54/用户/月,提供全面的 AI 驱动的开发解决方案,支持基于私有代码库的定制化代码建议,集成多种 Google Cloud 服务(如 BigQuery、Apigee 等),提供高级功能,如代码上下文感知、应用质量分析、智能命令等。

    Gemini Code Assist的应用场景

    • 代码生成与补全:快速生成代码片段,提高开发效率。
    • 代码审查:自动检测问题,提升代码质量。
    • 自然语言编程:通过文字描述生成代码,降低编程难度。
    • IDE 功能增强:在主流开发环境中提供实时代码建议和调试辅助。
    • GitHub 协作优化:在 GitHub 上辅助代码审查,优化团队协作。
  • Wan2.1 – 阿里开源的AI视频生成大模型

    Wan2.1是什么

    Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅长复杂运动生成和物理建模,性能卓越;1.3B参数的极速版能在消费级显卡上运行,显存需求低,适合二次开发和学术研究。Wan2.1模型基于因果3D VAE和视频Diffusion Transformer架构,实现高效时空压缩和长时程依赖建模。14B版本在权威评测集Vbench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。Wan2.1开源采用Apache 2.0协议,支持多种主流框架,已在GitHub、HuggingFace和魔搭社区上线,方便开发者使用和部署。

    Wan2.1

    Wan2.1的主要功能

    • 文生视频:根据输入的文本描述生成对应的视频内容,支持中英文长文本指令,精准还原场景切换和角色互动。
    • 图生视频:以图像为基础生成视频,实现更可控的创作,适合从静态图像扩展为动态视频的需求。
    • 复杂运动生成:稳定展现人物或物体的复杂运动,如旋转、跳跃、转身等,支持高级运镜控制。
    • 物理规律模拟:精准还原碰撞、反弹、切割等真实物理场景,生成符合物理规律的视频内容。
    • 多风格生成:支持多种视频风格和质感,适配不同创作需求,同时支持不同长宽比的视频输出。
    • 文字特效生成:具备中文文字生成能力,支持中英文文字特效,提升视频的视觉表现力。

    Wan2.1的技术原理

    • 因果3D VAE(Variational Autoencoder)架构:万相自研专为视频生成设计的因果3D VAE架构。基于编码器将输入数据压缩为潜在空间的表示,再用解码器重建输出。在视频生成中,3D VAE能处理视频中的时空信息,同时结合因果性约束,确保视频生成的连贯性和逻辑性。
    • 视频Diffusion Transformer架构:基于主流的视频Diffusion(扩散模型)和Transformer架构。扩散模型逐步去除噪声生成数据,Transformer基于自注意力机制(Attention)捕捉长时程依赖关系。
    • 模型训练和推理优化
      • 训练阶段:用DP(数据并行)和FSDP(全Sharded数据并行)组合的分布式策略,加速文本和视频编码模块的训练。对于Diffusion模块,基于DP、FSDP、RingAttention和Ulysses混合的并行策略,进一步提升训练效率。
      • 推理阶段:用CP(通道并行)进行分布式加速,减少生成单个视频的延迟。对于大模型,基于模型切分技术,进一步优化推理效率。

    Wan2.1的性能优势

    • 卓越的生成质量:在 Vbench评测 中,14B参数的专业版本以总分86.22% 的成绩大幅超越国内外其他模型(如Sora、Luma、Pika等),稳居榜首。
    • 支持消费级GPU:1.3B参数的极速版仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内在RTX 4090上生成5秒的480P视频。
    • 多功能支持:支持文生视频、图生视频、视频编辑、文生图和视频生音频等多种任务,同时具备视觉特效和文字渲染能力,满足多场景创作需求。
    • 高效的数据处理与架构优化:基于自研因果3D VAE和优化的训练策略,支持任意长度视频的高效编解码,显著降低推理内存占用,提升训练和推理效率。

    Wan2.1

    Wan2.1的项目地址

    Wan2.1的效果展示

    • 复杂运动:擅长生成包含广泛肢体动作、复杂旋转、动态场景转换以及流畅镜头运动的逼真视频。

    Wan2.1

    • 物理模拟:能生成准确模拟现实世界物理规律和逼真物体交互的视频。

    Wan2.1

    • 影院级别画质:提供类似电影的视觉效果,具有丰富的纹理和多样化的风格化特效。

    Wan2.1

    • 可控编辑:具备通用编辑模型,可通过图像或视频参考进行精确编辑。

    Wan2.1

    Wan2.1的应用场景

    • 影视制作与特效:生成复杂的动作场景、特效镜头或虚拟角色动画,减少拍摄成本和时间。
    • 广告与营销:快速生成创意广告视频,根据产品特点或品牌调性生成个性化视频内容。
    • 教育与培训:生成教育视频,如科学实验演示、历史场景重现或语言学习视频,增强学习体验。
    • 游戏开发:用于生成游戏内的动画、过场视频或虚拟角色动作,提升游戏的视觉效果和沉浸感。
    • 个人创作与社交媒体:帮助创作者快速生成创意视频,用于社交媒体分享、Vlog制作或个人项目展示。