Blog

  • 可灵AI国际版(Kling AI) – 快手推出的AI视频和图像创作工具

    可灵AI国际版是什么

    可灵AI国际版(Kling AI) 是快手推出的AI视频和图像创作工具。专注于提供动态、美学和提示遵循方面极大改善的创意工具。可灵AI国际版提供多种功能,包括AI模板、效果、图像和视频编辑、声音处理等。用户基于平台体验和创建各种创意内容,如AI生成的图像视频和声音作品。可灵AI国际版适用于专业创作者和新手快速入门,是创意工作者的得力助手。

    可灵AI国际版

    可灵AI国际版的主要功能

    • 图像生成:根据文本或图像输入生成令人惊叹的图像。
    • 图像编辑:利用AI填补空白并推动创意边界。
    • 视频生成:从文本或图像输入动态视频。
    • 声音生成:支持用户创建或定制特定的声音效果。
    • AI模板:提供多种创意模版。
    • 自定义模型:构建人物角色实现最大一致性。
    • 虚拟模特:根据您的需求定制模特的外貌、服装、姿势等。
    • AI换装:轻点一下自动更换服装。
    • 对口型:为对话提供逼真的唇形同步。

    如何使用可灵AI国际版

    • 访问官网:访问可灵AI国际版(Kling AI) 的官方网站,完成注册和登录。
    • 选择工具:点击想要使用的工具。例如,想生成图像,点击“Image Generation”。
    • 使用工具:按照提示输入相关信息,比如文本描述、上传图片等,让AI根据输入生成内容。
    • 定制和编辑:用图像编辑或视频编辑工具时,对生成的内容进行进一步的定制和编辑,满足您的具体需求。
    • 保存和分享:完成创作后,保存作品,根据需要分享到社交媒体或其他平台。
    • 探索更多功能:平台提供多种功能,如自定义模型、虚拟模型、AI换装、对口型等。探索功能,增强创作体验。

    可灵AI国际版的应用场景

    • 内容创作:用在生成创意视频和图像,帮助创作者快速实现想法,节省时间和精力,适合短视频、广告、动画等领域。
    • 教育与培训:生成教学视频或教育图像,帮助学生更好地理解和记忆知识。
    • 电商与营销:生成产品展示视频和图像,用在电商平台的商品详情页或广告宣传,提升用户体验和购买欲望。
    • 虚拟试穿:在服装、饰品等行业,用户基于虚拟试穿功能查看试穿效果,提高购物体验和满意度。
    • 娱乐与社交:生成有趣的视频和图像,用于社交媒体分享,增加互动性和趣味性。
  • ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

    ACTalker是什么

    ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

    ACTalker

    ACTalker的主要功能

    • 多信号控制与单信号控制:ACTalker 支持多信号控制和单信号控制,能用音频、表情等多种信号来驱动说话人头部视频的生成。
    • 自然协调的视频生成:通过 Mamba 结构,使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记,确保受控视频在时间和空间上的自然协调。
    • 高质量的视频生成:实验结果表明,ACTalker 能生成自然、逼真的面部视频,在多信号控制下,Mamba 层能无缝整合多种驱动模态,无冲突地生成视频。

    ACTalker的技术原理

    • 并行 Mamba 结构:ACTalker 采用并行 Mamba 结构,包含多个分支,每个分支利用单独的驱动信号(如音频、表情等)来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程,互不干扰,实现多信号控制。
    • 门控机制:在所有分支中应用了门控机制,在训练时随机开启或关闭,在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式,支持在不同情况下选择使用单一信号或多种信号进行驱动。
    • 掩码丢弃策略(Mask-Drop):ACTalker 引入了掩码丢弃策略,支持每个驱动信号独立控制其对应的面部区域。在训练过程中,策略通过随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,提高生成内容的质量,防止控制冲突。
    • 状态空间建模(SSM):为了确保受控视频在时间和空间上的自然协调,ACTalker 采用了状态空间建模(SSM)。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记,实现自然的面部动作协调。
    • 视频扩散模型基础:ACTalker 基于视频扩散模型进行构建,在去噪过程中引入多分支控制模块。每个 Mamba 分支处理特定模态信号,通过门控机制动态调整各模态影响权重。

    ACTalker的项目地址

    ACTalker的应用场景

    • 虚拟主播:ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动,提升观众的观看体验。
    • 远程会议:在远程会议中,ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题,能让参会者在视频信号不佳时,通过音频和表情信号生成自然的面部视频,增强远程交流的真实感。
    • 在线教育:在线教育场景中,教师可以用 ACTalker 生成自然的说话头视频,通过音频和表情信号的控制,使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。
    • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。
    • 娱乐与游戏:在娱乐和游戏领域,ACTalker 可以为角色生成自然的说话头视频,增强角色的表现力和代入感。
  • Copilot Search – 微软 Bing 推出的智能搜索模式

    Copilot Search是什么

    Copilot Search 是微软 Bing 推出的智能搜索模式,融合传统搜索和生成式 AI 的优势。基于智能信息整合,根据用户的查询提供简洁的总结、清晰的答案或智能布局的信息,帮助用户快速找到所需内容,减少浏览网页的时间。Copilot Search 支持突出显示来源链接,增强信息可信度,提供相关主题建议,方便用户深入探索。Copilot Search 支持移动设备,适合随时随地获取信息,简化搜索过程,满足用户的好奇心。

    Copilot Search

    Copilot Search的主要功能

    • 智能信息整合:提供简洁总结、清晰答案和智能布局的信息,帮助用户快速找到所需内容。
    • 来源引用:明确标注信息来源,增强可信度,支持一键访问原始链接。
    • 深度探索支持:提供相关主题建议,方便用户继续探索,支持多轮对话体验。
    • 移动设备支持:优化移动端体验,适合随时随地获取信息。
    • 简洁的首页设计:便于用户快速开始搜索,适用于各种场景。

    如何使用Copilot Search

    • Bing 官方网站使用:访问Bing的官方网站导航栏中找到 Copilot Search 的入口。在搜索框中输入问题或关键词。
    • 通过 Bing 移动应用使用:下载安装 Bing 移动应用。在应用中找到 Copilot Search 的入口。输入问题或关键词,获取答案和信息。
    • 探索和深入研究:查看搜索结果下方的相关主题建议,点击感兴趣的主题继续探索。如果需要更多信息,点击引用的来源链接,访问原始网页。
    • 多轮对话体验:在同一页面上,继续提问或点击相关主题,Copilot Search 根据需求提供进一步的信息。
    • 验证信息:如果需要验证信息的来源,点击结果中的引用链接,直接访问原始网页。

    Copilot Search的应用场景

    • 学术研究:快速获取文献、资料和总结,助力学术研究和论文撰写。
    • 日常问题解答:快速查找健康小常识、生活技巧、天气信息等,满足即时需求。
    • 工作信息收集:高效整合数据和专业观点,辅助报告撰写和市场调研。
    • 兴趣爱好探索:基于关键词深入探索摄影、音乐、历史等兴趣领域的更多内容。
    • 旅行规划:查询景点、美食、交通等信息,快速制定旅行攻略。
  • Awesome MCP Servers – 开源的MCP资源聚合平台,覆盖多个垂直领域

    Awesome MCP Servers是什么

    Awesome MCP Servers 是开源项目,汇集各种基于 Model Context Protocol (MCP) 的服务器。Awesome MCP Servers 整理超过 3000 个 MCP 服务器,覆盖浏览器自动化、金融、游戏、安全、科研等20多个垂直领域,支持本地和云服务部署。MCP服务器主要为 AI 大模型提供丰富的外部数据访问和工具调用能力。Awesome MCP Servers 为开发者提供丰富的资源,推动 AI 与外部系统交互的标准化和便捷性。

    Awesome MCP Servers

    Awesome MCP Servers的主要功能

    • 资源集成:基于 MCP 协议,使 AI 模型连接到各种外部资源,如文件系统、数据库、云服务等,扩展功能。
    • 多领域支持:覆盖浏览器自动化、金融、游戏、安全、科研等多个领域,提供丰富的服务器实现。
    • 开发支持:支持多种编程语言(如 Python、TypeScript、Go 等),提供开发框架(如 FastMCP)和工具,简化开发过程。
    • 社区与生态:基于 GitHub、Discord、Reddit 等平台提供社区支持,和详细的教程和文档,帮助开发者快速上手。

    Awesome MCP Servers的部分MCP

    • 浏览器自动化:MCP-Playwright 提供浏览器自动化能力,让 AI 大模型在真实浏览器环境中导航网页、执行点击/输入操作、截取屏幕截图及运行 JavaScript。
    • 管理 Notion:notion_mcp 连接 AI 大模型与 Notion 平台,支持自动化页面管理、内容同步、模板生成等。
    • 金融:coinmarket-mcp-server 基于 Coinmarket API 获取加密货币的行情数据,包括价格、市值、交易量等。
    • 游戏:mcp-unity为 Unity3D 游戏引擎提供集成,支持游戏开发中的编辑、运行、调试和场景管理等功能。
    • 搜索 :arxiv-mcp-server 支持 AI 模型基于编程接口搜索 arXiv 学术论文库中的论文、下载内容,进行深度分析(如摘要提炼、方法评估和结果解读),同时支持本地存储加速访问。
    • 安全:dnstwist MCP Server基于 dnstwist 工具检测域名拼写错误、钓鱼网站等安全问题。
    • 位置服务:mcp-server-google-maps 集成 Google Maps 服务,提供位置服务、路线规划和地点详情查询。
    • 版本控制 :mcp-server-git 直接操作 Git 仓库,包括读取、搜索和分析本地仓库。
    • 社交:vrchat-mcp 与VRChat API交互的MCP服务器,支持获取VRChat的好友、世界、化身等信息。

    如何使用Awesome MCP Servers

    • 选择合适的 MCP 服务器
      • 浏览 Awesome MCP Servers 列表:访问 Awesome MCP Servers 的 GitHub 仓库。浏览不同类别的 MCP 服务器实现。根据需求选择合适的服务器。
      • 查看服务器的详细信息:点击感兴趣的服务器链接,进入 GitHub 仓库地址。阅读 README.md 文件,了解服务器的功能、安装步骤、使用方法和示例代码。检查服务器的图例标记(如编程语言、部署环境、支持的操作系统等),确保符合技术栈和部署需求。
    • 安装和配置 MCP 服务器
      • 克隆仓库:在本地开发环境中,克隆所选 MCP 服务器的 GitHub 仓库。例如:
    git clone https://github.com/executeautomation/mcp-playwright.git
    cd mcp-playwright
      • 安装依赖:根据 README.md 文件中的说明,安装所需的依赖项。例如,对于 mcp-playwright
    npm install
      • 配置服务器:如果需要,配置服务器的参数,例如连接到外部服务的 API 密钥、数据库地址等。
    • 启动 MCP 服务器
      • 运行服务器:根据 README.md 文件中的说明,启动 MCP 服务器。例如:
    npm start
      • 验证服务器运行状态
        • 访问服务器的文档页面(通常在 localhost:8080/docs),查看 API 文档和示例请求。
        • 发送测试请求,确保服务器正常运行。
    • 集成到 AI 模型或应用程序
      • 选择客户端工具:选择适合使用的 AI 模型或应用程序的客户端工具。
      • 安装客户端工具
    npm install @mcp-langchain-ts-client
      • 编写集成代码:在 AI 模型或应用程序中,编写代码调用 MCP 服务器。
    import { MCPClient } from '@mcp-langchain-ts-client';
    
    const client = new MCPClient('http://localhost:8080');
    
    async function fetchData() {
      const result = await client.call('playwright.fetch', {
        url: 'https://example.com',
        action: 'click',
        selector: '#some-button',
      });
      console.log(result);
    }
    
    fetchData();
      • 测试和调试:运行代码,确保 AI 模型能够通过 MCP 服务器成功调用外部资源。根据需要调整代码和服务器配置,优化性能和功能。

    Awesome MCP Servers的项目地址

    Awesome MCP Servers的应用场景

    • 自动化任务:基于浏览器自动化工具,自动完成网页导航、数据抓取等任务,提高工作效率。
    • 金融数据:基于金融领域的 MCP 服务器,AI 实时获取金融市场数据,辅助投资决策。
    • 游戏开发:在游戏开发中,用 MCP 服务器与游戏引擎集成,AI 辅助设计、测试和优化游戏。
    • 安全检测:基于安全领域的 MCP 服务器(如 mcp-dnstwist),AI 检测域名拼写错误和钓鱼网站,增强网络安全。
    • 科研研究:在科研领域,用 MCP 服务器连接学术论文库,AI 快速搜索和分析学术论文,加速研究进程。
  • AnimeGamer – 腾讯联合香港城市大学推出的动漫生活模拟系统

    AnimeGamer是什么

    AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉浸于动态游戏世界中。玩家能操控如《悬崖上的金鱼姬》中的宗介等角色,与游戏世界互动。游戏支持生成具有上下文一致性的动态动画镜头(视频)及角色状态(如体力、社交和娱乐值)的更新。相比传统方法,AnimeGamer 在角色一致性、语义一致性和动作控制等方面表现出色,为玩家带来沉浸式的动漫游戏体验。

    AnimeGamer

    AnimeGame的主要功能

    • 角色扮演与互动:玩家扮演动漫角色,如《悬崖上的金鱼姬》的宗介,与游戏世界互动,让不同动漫的角色相遇互动。
    • 动态动画生成:根据玩家指令,实时生成动态动画镜头(视频),展现角色动作和场景变化,且动画具有上下文一致性和动态性。
    • 角色状态更新:根据角色行为和互动,动态更新角色的体力、社交和娱乐值,反映角色在游戏世界中的状态变化。
    • 多轮对话交互:支持玩家基于自然语言进行多轮对话,模型基于历史上下文生成一致的游戏状态,提供连贯的游戏体验。
    • 自定义游戏内容:支持玩家自定义喜欢的角色和场景。

    AnimeGame的技术原理

    • 多模态大语言模型:AnimeGamer 基于多模态大语言模型(MLLM),理解和生成包含文本和视觉信息的多模态数据。
    • 动作感知多模态表示:游戏将动画镜头分解为视觉参考、动作描述和动作强度三个部分,基于编码器将信息整合为多模态表示。基于视频扩散模型解码为高质量的动态视频,确保生成的动画镜头具有上下文一致性和动态性。
    • 视频扩散模型:视频扩散模型(如 CogVideoX)作为动画镜头的解码器,将多模态表示解码为动态视频。引入动作强度作为额外的条件,控制生成视频中的动作幅度,让动画更加自然和真实。
    • 上下文一致性:将历史动画镜头的多模态表示作为上下文输入,模型能预测后续的游戏状态,确保生成的动画镜头在上下文中保持一致,对于维持游戏的连贯性和沉浸感至关重要。
    • 角色状态管理:游戏基于 MLLM 预测角色的体力、社交和娱乐值的更新,状态更新反映角色在游戏世界中的行为和互动。角色状态的动态更新增加游戏的真实感和互动性。

    AnimeGame的项目地址

    AnimeGame的应用场景

    • 个性化娱乐:玩家可选择喜欢的动漫角色和场景,基于语言指令体验专属冒险故事。
    • 创意激发:为创作者提供灵感,生成角色互动和新剧情。
    • 教育辅助:帮助学生学习语言表达和逻辑思维。
    • 社交互动:玩家与朋友共同创造和分享动漫冒险故事。
    • 游戏开发:助力开发者快速生成游戏内容,降低开发成本。
  • Midlibrary – Midjourney AI图像创作提示词资源库

    Midlibrary是什么

    Midlibrary是国外艺术家Andrei Kovalev建立的Midjourney提示词资源网站,收录了5505种风格流派、艺术运动、技法及艺术家关键词,为AI图像创作提供丰富参考。包含风格(Styles)、特征(Features)、类别(Categories)三大版块,以及MIDGUIDE(绘画指南)。用户可以借助这些资源库,激发创作灵感。

    Midlibrary的主要功能

    • 风格(Styles):以标签形式陈列了超过 5300 种艺术风格、流派、技法以及艺术家关键词。用户可以直接点击标签查看对应的图像生成效果,对比不同模型(如 v3、v4、v5 和 Niji)的效果差异。
    • 特征(Features):按更宽泛的概念对关键词进行分类,如画风特征(黑白、古典、可爱等)、主体(人物、动物、风景等)、色彩和人物肤色等。例如,“柔和的色彩(Pastel Colors)”分类下有 30 多个相关关键词。
    • 类别(Categories):包含 13 个大类,如艺术流派和运动、艺术技巧、日式动漫、建筑师、平面设计师、时装设计师、电影、插画师、画家、摄影师、版画家、雕塑+装饰艺术家、街头艺术家等。
    • MIDGUIDE(绘画指南):提供对 V4、V5、Niji 模型的风格解析,以及流行主题的关键词合集推荐,帮助用户学习更深入的 Midjourney 绘画知识和进阶提示词写作技巧。
    • 助力高效创作:用户可参考图库资源,节省从头创作的时间,提升创作效率。
    • 激发创新灵感:借助不同艺术家风格和技巧,帮助用户生成更具创新性的AI图像。
    • 支持多场景应用:适用于建筑设计、服装设计、插画创作等多种创意领域,满足不同需求。

    如何使用Midlibrary

    • 访问网站:访问Midlibrary的官方网站
    • 浏览风格库:查看网站提供的多种风格库,包括建筑、艺术流派、设计技巧等。
    • 搜索特定风格:通过搜索功能,输入关键词快速找到所需的风格。
    • 参考提示词:在风格库中找到对应的提示词,复制后用于Midjourney AI创作。
    • 结合Midjourney AI使用:将提示词输入Midjourney AI,生成AI图像。
    • 反馈与交流:如有问题或建议,可通过网站反馈渠道与开发者交流。

    Midlibrary的应用场景

    • 建筑设计:建筑师可以参考Midlibrary中的建筑风格库,如哥特式、巴洛克式等,通过Midjourney AI生成具有特定风格的建筑方案,快速呈现设计概念。
    • 服装设计:时尚设计师可以参考服装设计元素,如波普艺术、复古风格等,用AI生成独特的服装设计,探索新的时尚趋势。
    • 插画与漫画创作:插画家和漫画家可以参考艺术家风格库,如梵高风格、漫画风格等,创作出不同风格的插画和漫画作品。
    • 广告与营销:广告设计师可以用Midlibrary中的创意元素,生成具有吸引力的广告图像,提升广告的视觉效果和创意性。
    • 游戏设计:游戏开发者可以参考游戏风格库,如赛博朋克、奇幻风格等,快速生成游戏场景和角色设计。
    • 教育领域:教师和学生可以用Midlibrary的资源库,探索不同艺术风格,用于教学和学习,激发创造力和想象力。
  • 厦门大学DeepSeek大模型赋能高效、企业、政府(PDF文件) – AI教程资料

    厦门大学大数据教学团队推出三份关于DeepSeek大模型的报告,分别面向高校、企业和政府部门。《DeepSeek大模型赋能高校教学和科研》探讨大模型在教学和科研中的应用,包括本地部署、AIGC实践、智能体构建等,强调在提升教学效率和科研创新能力中的作用。《DeepSeek大模型及其企业应用实践》聚焦大模型在企业中的应用场景,如客户服务、内容创作、数据分析等,及企业部署大模型的方案和技术架构,展示大模型如何助力企业降本增效。《DeepSeek大模型赋能政府数字化转型》着重介绍大模型在政务服务、政策制定、城市治理等领域的应用,及政府部门本地部署大模型的必要性和实践案例,同时提出用AIGC工具时的注意事项,强调数据安全和合规性。三份报告突出DeepSeek大模型的强大功能和广泛应用前景,指出在使用过程中需要关注的技术、成本和安全等问题。

    获取《DeepSeek大模型赋能高校教学和科研》《DeepSeek大模型及其企业应用实践》

    《DeepSeek大模型赋能政府数字化转型》

    PPT原文件,扫码关注回复: 20250217

    《DeepSeek大模型赋能高校教学和科研》

    《DeepSeek大模型赋能高校教学和科研》是厦门大学大数据教学团队推出的,报告详细介绍人工智能的发展历程、大模型的概念、原理及分类,重点探讨DeepSeek大模型在高校中的应用。DeepSeek作为强大的AI工具,在高校中用在本地部署,支持教学自动化、科研辅助和学术资源分析等。报告介绍基于大模型的智能体如何助力高校教学和科研,强调AI在高校中的应用优势,如提升教学效率、促进个性化学习、辅助科研创新等,同时指出AI的局限性,提醒教师和科研人员合理使用。

    每个人都可以读懂的大模型科普报告

    人工智能与大模型

    • 图灵测试与起源:图灵测试是人工智能的理论基础,1956年达特茅斯会议标志着人工智能的诞生。
    • 发展阶段与趋势:人工智能经历六个发展阶段,未来可能有五个新阶段,大模型是当前核心技术,基于Transformer架构,广泛应用于多领域。
    • 大模型特点:大参数、大数据、高算力为特征,分为语言、视觉、多模态等类型,推动各行业智能化。

    每个人都可以读懂的大模型科普报告

    高校本地部署DeepSeek

    • 局限性与优势:在线大模型存在隐私、定制化不足等问题,DeepSeek本地部署能实现离线高效使用、定制灵活、数据安全。
    • 解决方案:基于模型微调和本地知识库,满足高校科研与教学的特定需求。

    AIGC应用与实践

    • AIGC概念:基于大模型生成文本、图像、语音、视频等内容,广泛应用于多领域。
    • 实践应用:文本类用在写作、PPT制作;图片类用在图像生成与修复;语音类用在智能助手;视频类用在视频生成与处理。

    每个人都可以读懂的大模型科普报告

    AI赋能高校

    • 科研应用与风险:AI助力快速发表论文、科研探索、数据分析等,需警惕“幻觉”和学术不端风险。
    • 教学应用与协作:AI用在个性化学习、智能助教、教学质量评估等,教师需与AI协作,推动教育创新。

    《DeepSeek大模型及其企业应用实践》

    《DeepSeek大模型及其企业应用实践》是厦门大学大数据教学团队推出的,主要围绕DeepSeek大模型及在企业中的应用实践展开。报告介绍大模型的概念、发展历程、分类及与人工智能的关系,强调强大的学习能力、泛化能力和语言生成能力。详细探讨国内外大模型产品,对主流大模型的“幻觉”现象进行评测。报告重点分析大模型在不同行业的应用领域,尤其是DeepSeek大模型在客户服务、个性化推荐、教育、医疗、金融等多个领域的应用场景。报告讨论企业大模型的落地方案,包括部署方式、规划路线、技术架构设计等,提出大模型应用落地的策略建议。报告介绍了智能体的概念及在企业中的应用,及厂商提供的企业级大模型服务。基于具体案例展示大模型在实际业务中的应用效果,对未来发展趋势进行展望。

    每个人都可以读懂的大模型科普报告

    大模型的核心概念与分类

    • 定义与特点:大模型是人工智能领域的重要成果,具有参数数量庞大、训练数据量大、计算资源需求高、强大的学习能力、泛化能力和语言生成能力等特点。
    • 分类:从不同维度对大模型进行分类,如语言大模型、视觉大模型、多模态大模型,及通用大模型(L0)、行业大模型(L1)、垂直大模型(L2)等。

    国内外大模型产品及其特点

    • 国外产品:如ChatGPT、Gemini、Sora、OpenAI o3等,具有强大的语言生成能力和广泛的应用场景。
    • 国内产品:如DeepSeek、通义千问、豆包、文心一言、Kimi等,2025年1月国内大模型排行榜展示国内大模型的发展现状。

    每个人都可以读懂的大模型科普报告

    大模型的行业应用

    • 应用领域广泛:大模型在自然语言处理、计算机视觉、语音识别、推荐系统、医疗健康、金融风控、工业制造、生物信息学、自动驾驶、气候研究等多个领域有广泛应用。
    • DeepSeek大模型的应用场景:涵盖客户服务与支持、个性化推荐、教育与培训、医疗与健康、金融与投资、内容创作与媒体、智能家居与物联网、法律与合规、游戏与娱乐等众多领域。

    企业大模型落地方案

    • 赋能作用:企业AI大模型在降低成本、提高效率、优化业务流程、提高产品质量等方面发挥重要作用。
    • 部署方式多样:包括本地/内网部署、云端部署、边缘部署、容器化/微服务部署、混合部署、联邦部署等,针对DeepSeek大模型的部署场景有详细说明。

    每个人都可以读懂的大模型科普报告

    智能体的企业应用

    • 智能体概念:智能体(AI Agent)具有自主性、交互性、适应性等特点,能在处理复杂任务中发挥重要作用。
    • 智能体产品:如OpenAI发布的Operator和Deep Research,以及国内的Coze(扣子)、支付宝等推出的智能体开发平台。

    厂商提供的企业级大模型服务

    • 落地解决方案:不同类型供应商(如云厂商、AI应用企业、新兴大模型应用开发服务商)提供企业级大模型落地解决方案服务,各有特点和优势。
    • DeepSeek大模型一体机:具有全尺寸模型支持、动态资源调度、行业场景深度适配、全生命周期管理、数据安全与本地化部署等特点。

    每个人都可以读懂的大模型科普报告

    大模型典型应用案例:如瑞金医院与华为发布的瑞智病理大模型RuiPath、东莞市人工智能大模型中心、云南白药的“大模型应用开发平台”、厦门市合趣信息科技有限公司的云合·AI产业顾问等,展示大模型在不同行业中的实际应用效果和价值。

    AIGC与企业应用实践

    • AIGC概念:AIGC(人工智能生成内容)是利用人工智能技术生成各种形式内容的技术。
    • 应用场景丰富:AIGC在电商、办公、游戏、娱乐、影视、动漫、艺术、教育、设计、媒体、生活等多个领域有广泛应用,常见的AIGC大模型工具包括ChatGPT、DeepSeek、讯飞星火、通义千问、文心一言、豆包、Kimi等。

    每个人都可以读懂的大模型科普报告

    《DeepSeek大模型赋能政府数字化转型》

    《DeepSeek大模型赋能政府数字化转型》是厦门大学大数据教学团队推出的,主题是DeepSeek大模型如何赋能政府数字化转型。报告详细介绍大模型的概念、发展历程、分类及在政府服务和工作中的广泛应用。探讨政府部门本地部署大模型的必要性、技术方案选择及DeepSeek一体机在政府部门的应用效果和安全性。报告分析DeepSeek大模型在政务服务中的多种应用形式,如智能政务咨询、政策解读、城市治理等,提出应用中存在的问题及对策。探讨智能体在政务工作中的应用场景,及AIGC(人工智能生成内容)技术在政府工作中的实践,包括文本、图片、语音、视频生成和辅助编程等方面的应用。

    每个人都可以读懂的大模型科普报告

    大模型的核心概念:大模型是参数数量庞大、训练数据量大、计算资源需求高的模型,具有上下文理解能力强、语言生成能力强、可迁移性高的优势。

    大模型的分类与产品

    • 分类:语言大模型、视觉大模型、多模态大模型、通用大模型(L0)、行业大模型(L1)、垂直大模型(L2)。
    • 国外产品:ChatGPT(语言生成)、Gemini(多模态)、Sora(视频生成)等。
    • 国内产品:DeepSeek(高效安全)、通义千问(广泛应用)、文心一言(语言生成)等。
    • 幻觉现象:大模型可能生成错误信息,需验证输出内容。

    大模型在政务领域的应用价值:大模型用在智能政务咨询、政策解读、城市治理等,提升服务效率。DeepSeek一体机本地部署可保障数据安全,推动政务智能化。

    每个人都可以读懂的大模型科普报告

    智能体在政务中的应用

    • 概念:智能体具有自主性、交互性、适应性。
    • 与RAG区别:智能体更自主,RAG侧重检索增强。
    • 应用场景:材料审核、数据填报、文本质控、智能问答等。

    AIGC在政务领域的应用实践

    • 文本类:DeepSeek辅助公文写作。
    • 图片类:生成海报等。
    • 语音类:智能语音助手、客服等。
    • 视频类:文生视频、图生视频等。

    每个人都可以读懂的大模型科普报告

    AI在办公领域的应用

    • AI搜索:多模态搜索、智能工具集成。
    • AI智能办公:写作、设计、数据分析等助手功能。

    政务大模型的安全风险与对策

    • 风险:语料、应用、生成内容、数据安全等。
    • 对策:评估需求、保障数据安全、建立安全机制。

    政务大模型与公务员的关系:政务大模型不会取代公务员,而是辅助决策,人机协同是未来趋势。

    每个人都可以读懂的大模型科普报告

    获取《DeepSeek大模型赋能高校教学和科研》《DeepSeek大模型及其企业应用实践》

    《DeepSeek大模型赋能政府数字化转型》

    PPT原文件,扫码关注回复: 20250217

  • OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

    OmniCam是什么

    OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容。 通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。

    OmniCam

    OmniCam的主要功能

    • 多模态输入支持:用户可以提供文本或视频作为轨迹参考,以及图像或视频作为内容参考,实现对摄像机运动的精确控制。
    • 高质量视频生成:基于大型语言模型和视频扩散模型,生成时空一致的高质量视频。
    • 灵活的摄像机控制
      • 支持帧级控制,可设置操作的起始和结束帧。
      • 支持任意方向的复合运动、相机拉近和推远,移动和旋转到任意角度。
      • 支持速度控制,为快速剪辑提供基础。
      • 支持多种操作的无缝连接,支持长序列操作,允许连续执行多个指令。
      • 支持常见的特效如相机旋转。
    • 数据集支持:引入了 OmniTr 数据集,是首个针对多模态相机控制的大型数据集,为模型训练提供了坚实的基础。

    OmniCam的技术原理

    • 轨迹规划:用户输入文本或视频后,OmniCam 首先将这些输入转化为离散运动表示,将复杂的指令拆解成一个个简单的动作。通过精准的轨迹规划算法,计算出每一帧画面中相机的具体位置和姿态,为后续的生成做好准备。具体来说,算法将相机运动围绕物体中心建模为球面运动,计算出轨迹上每一点的空间位置,转换为相机外参序列。
    • 内容渲染:结合用户提供的内容参考(图像或视频)以及规划好的相机轨迹,OmniCam 运用先进的 3D 重建技术,渲染出初始视角的视频帧,在渲染过程中,会使用点云、相机内参和外参等信息,通过特定算法优化相机内参,完成视频帧的渲染。
    • 细节完善:在渲染过程中,OmniCam 的扩散模型会基于自身的先验知识,对视频帧进行细节补充,填补那些空白区域,最终生成出完整、精美的视频。
    • 大规模模型训练:以 Llama3.1 为骨干网络进行微调,训练大规模模型。
    • 视频扩散模型训练:对视频扩散模型进行训练。
    • 强化学习微调:冻结下游视频生成模型,将其作为奖励模型,利用 PPO 算法对轨迹大模型进行微调,以优化模型性能。

    OmniCam的项目地址

    OmniCam的应用场景

    • 影视制作:OmniCam 可以快速生成复杂的镜头运动,帮助导演和制片人节省大量设计和拍摄镜头的时间与精力,提高制作效率,实现更多创意想法。
    • 广告宣传:广告商可以用 OmniCam 根据不同宣传需求快速调整镜头角度和运动轨迹,制作出更具吸引力的广告视频,吸引消费者的目光。
    • 教育与培训:OmniCam 能生成生动形象的教学视频,将复杂的概念变得简单易懂。学生通过观看这些视频,可以更好地理解和掌握知识,提高学习效果。
    • 智能安防:OmniCam 可以用于城市治安监控、交通管理、应急指挥等场景,实现多部门视频资源整合与联动。
  • Quasar Alpha – 支持百万 token 上下文的免费 AI 模型

    Quasar Alpha是什么

    Quasar Alpha 是支持 100 万 token 的超大上下文窗口的预发布版 AI 模型,可处理超长文本和复杂文档。代码生成能力出色,生成速度快,延迟低,指令遵循能力强,支持联网功能和多模态功能,安全性也有所增强。目前在 OpenRouter 上完全免费提供使用,有请求次数限制。

    Quasar Alpha

    Quasar Alpha的主要功能

    • 超大上下文窗口:拥有 100 万 token 的上下文窗口,能处理超长文本和复杂文档。
    • 代码生成能力:专为代码生成优化,可快速生成高质量代码,适用于多种编程语言。
    • 高速与低延迟:生成速度平均每秒 136 个 token,延迟仅为 0.5 秒,性能出色。
    • 指令遵循能力:在指令遵循方面表现优异,优于 Claude 3.5 Sonnet 和 Gemini Pro 2.5。
    • 联网功能:支持联网搜索,通过附加 :online 标识,AI 可先搜索再返回结果,增强回答的可信度。
    • 多模态功能:支持图像处理等多模态功能,应用范围更广。

    Quasar Alpha的项目地址

    Quasar Alpha的应用场景

    • 代码生成与开发辅助:Quasar Alpha 在代码生成方面表现出色,能帮助开发者快速生成高质量的代码。支持多种编程语言,可以创建完整的网站、交互式地图、模拟和动画等。
    • 长上下文任务处理:Quasar Alpha 能处理复杂的长文本任务,如法律文件分析、学术研究、技术文档编写等。
    • 创意写作与内容创作:内容创作者可以用 Quasar Alpha 获取灵感和建议,提升创作效率。
    • 多模态应用:Quasar Alpha 支持多模态功能,能处理图像、文本等多种类型的数据。
    • 智能问答与知识检索:Quasar Alpha 可以作为智能问答系统的核心,提供准确的知识检索和信息提炼。能结合联网功能,通过搜索获取最新信息生成回答。
  • Seedream 3.0 – 字节推出的 AI 图片生成模型,精准生成复杂中文内容

    Seedream 3.0是什么

    Seedream 3.0(即梦3.0)是字节跳动推出的AI图片生成模型,模型支持原生 2K 分辨率图像输出,快速生成高品质图像,仅需 3 秒。模型在小字生成与排版、美感与结构准确性等方面有显著提升,优化复杂文本排版和小字体高保真生成,具备商业级图文设计能力。Seedream 3.0具备影视级的画面表现力,支持快速生成高质量的海报、插画等作品,为设计师提供强大的工具支持。在权威榜单Artificial Analysis中排名全球第一梯队,为企业和创作者提供高效、高质量的图像生成解决方案。Seedream 3.0在豆包和字节旗下AI创作平台即梦AI同步接入。模型基于火山引擎正式开放API,供开发者和企业客户使用。

    Seedream 3.0

    Seedream 3.0的主要功能

    • 高分辨率图像生成:支持原生 2K 分辨率图像输出。
    • 快速生成:在 3 秒左右快速生成高品质图像,大幅提升创作效率。
    • 小字生成与排版:优化小字体高保真生成和多行文本语义排版,具备商业级图文设计能力,生成高质量的长文本布局。
    • 美感与结构提升:改善人体和物体结构崩坏问题,弱化 AI 感,提升图像的审美效果,生成富有感染力的图像。
    • 多语言支持:支持中英双语,理解复杂的语言描述生成对应的图像。

    如何使用Seedream 3.0

    • 访问和登录:访问即梦的官方网站或豆包的官方网站按照提示完成注册和登录。
    • 进入图片生成页面:登录后,进入首页,找到“图片生成”或“图像生成”功能入口。
    • 选择模型版本:在生成页面中,选择3.0版本模型。
    • 输入提示词:在输入框中输入想要生成的图像描述。提示词应尽量详细,包括风格、场景、文字内容等信息。
    • 调整参数(可选):根据需要调整生成参数,如分辨率、风格偏好等。
    • 点击生成:输入完成后,点击“生成”按钮,等待模型生成图像。
    • 查看和编辑生成的图像:生成完成后,在页面上查看生成的图像。如果需要,用编辑功能对图像进行进一步调整。
    • 保存或分享:如果对生成的图像满意,保存到本地,或直接分享到社交媒体等平台。

    Seedream 3.0的项目地址

    Seedream 3.0的应用场景

    • 海报设计:生成各类海报,如节日海报、活动宣传海报、产品推广海报等,支持文字排版和创意设计。
    • 插画创作:创作多种风格的插画,包括卡通、写实、水彩、油画等,适用于书籍插画、网页配图、广告插画等。
    • 电商设计:生成电商促销海报、产品展示图、详情页配图等,提升电商页面的吸引力和专业性。
    • 文化创意产品设计:设计具有文化特色的图像内容,如书法字体、中式禅意插画等,应用于文创产品设计。
    • 影视与多媒体制作:生成具有影视质感的图像,如电影海报、动画场景等,支持高分辨率和复杂光影效果。