Skip to main content

Author: Chimy

DeepSider – AI浏览器插件,免费使用多种顶级AI模型

DeepSider是什么

DeepSider 是集成在浏览器侧边栏的 AI 对话工具,支持用户免费使用多种顶级 AI 模型,如 GPT-4oGrok3、Claude 3.5 等。支持用户基于简洁的交互完成复杂的任务,包括 AI 搜索、实时问答、内容创作、翻译和代码生成等。工具支持文档上传功能,能分析文件内容给出回答。DeepSider 具备搜索功能,结合最新数据提供准确答案。DeepSider 快速响应和高效交互的设计,成为提升工作效率和学习效率的强大工具。

DeepSider

DeepSider的主要功能

  • 多模型集成:支持多种顶级 AI 模型,如 GPT-4o、Grok3、Claude 3.5 等,用户能自由切换。
  • AI 对话与问答:实时回答问题,支持多轮对话,优化回答。
  • 内容创作:生成文章、大纲等,支持指定主题和字数。
  • 文档分析:上传文件后,自动读取内容回答相关问题。
  • 搜索功能:结合最新信息,提供更准确的回答。
  • 代码生成:帮助开发者快速生成代码片段。
  • 翻译功能:支持多语言翻译,方便跨语言交流。

如何使用DeepSider

  • 安装扩展:访问 DeepSider的官方网站,根据浏览器类型,进入不同的应用商店,点击“添加至 Chrome”或“获取”按钮进行安装。
  • 登录账户:安装完成后,点击浏览器侧边栏的 DeepSider 图标。用邮箱或社交媒体账号登录。
  • 开始使用
    • 聊天与问答:在侧边栏的聊天框中输入问题或指令,点击“发送”按钮,DeepSider 返回答案。
    • 多轮对话:如果回答不够详细,继续追问,如“能不能再详细一点?”或“给我一些具体的例子。”
    • 文档分析:上传文档、PDF 或表格,DeepSider 读取文件内容根据问题给出回答。
    • 搜索功能:对于时效性强的问题,用搜索功能获取最新信息。
    • 使用提示词:在提问时加上提示词,帮助 DeepSider 更好地理解意图。

DeepSider的应用场景

  • 内容创作:生成文章、大纲,提高写作效率。
  • 文档分析:读取文件内容,提取关键信息。
  • 实时问答:解答日常和学术问题。
  • 代码生成:辅助编程,快速生成代码片段。
  • 翻译功能:支持多语言翻译,方便跨语言交流。

酷雀AI智能抠图 – AI图片处理工具,精细化抠图

酷雀AI智能抠图是什么

酷雀AI智能抠图是高效便捷的AI图片处理工具。基于先进的AI技术,能快速精准地识别图片中的主体自动去除背景,实现精细化抠图。支持人像、物品或者复杂场景,保留细节如发丝等。具备证件照制作功能,可一键更换底色、调整尺寸,适配各类上传规则。能优化模糊图片,增强纹理细节,让图片更清晰;支持无损放大图片,保持清晰度。操作简单,无需专业技能,普通用户也能使用,满足日常多种图片处理需求。

酷雀AI智能抠图

酷雀AI智能抠图的主要功能

  • AI智能抠图:智能AI自动检测精确识别需要保留的人像、物品、图形等,一键轻松去除背景,实现精细化背景分割抠图。
  • 证件照制作:AI智能一键更换底色、尺寸、裁剪,适配平台上传规则,可快速制作工作照、入学照、形象照等各类证件照。
  • 模糊图片变清晰:优化图像纹理细节/文字增强,对质量/清晰度较低图片进行高清修复。
  • 图片无损放大:AI智能修复技术一键无损放大图片,在不降低图片清晰度情况下,支持将图像在长宽方向进行2-16倍放大。
  • 图片内存放大:支持对图像文件的存贮空间进行修改,提升图片分辨率大小。
  • 图片尺寸调整:支持自定义图像长宽大小信息,满足更多使用需求。
  • DPI设置:支持自定义设置图片DPI大小。
  • 人像抠图:支持单人、多人合照等不同类型的人像复杂场景抠图处理,保留发丝细节根根分明。
  • 物品抠图:智能AI自动检测识别轮廓,一键抠出商品、宠物、车辆等,适应各种复杂背景与光线。
  • 印章抠图:精确识别,镂空级处理图像的主体轮廓,一键抠出生活印章制作成电子章。
  • 签名抠图:手写签名一键生成电子签名,精确识别签名主体轮廓,实现镂空级抠图处理。
  • Logo抠图:AI智能检测识别,镂空级处理,一键抠出图像中商品的Logo信息。
  • 校徽抠图:AI智能检测识别,镂空级处理,一键抠出图像中商品的校徽。
  • 图片去水印:采用AI智能去水印,自动识别一键去除水印,并对图片进行自动填充,效果自然。
  • 图片格式转换:一键将Webp,PNG,JPEG,HEIC格式图片转换/互转,满足图片格式多转换需求。
  • 图像修复:擦除图片中指定区域,一键移除图片中多余物体,并自动填充背景修复图像。

如何使用酷雀AI智能抠图

  • 访问平台:访问酷雀AI智能抠图的官方网站,或者选择下载对应手机型号的应用。
  • 选择功能并导入图片:打开应用或选择在线抠图,选择首页的【AI智能抠图】功能,从本地相册中选择需要处理的图片。
  • 自动识别与抠图:图片导入后,AI会自动识别图片中的主体并完成抠图。
  • 编辑与保存:完成抠图后,可以预览到抠图效果,使用下方的工具可以编辑图片尺寸和背景。可使用手动工具进行精修。最后点击保存,选择保存获得抠图完成的图片。

酷雀AI智能抠图的应用场景

  • 证件照制作:在需要办理各种证件时,如身份证、护照、驾照、毕业证等,可以用酷雀AI智能抠图快速制作符合要求的证件照,一键更换底色、调整尺寸和裁剪,节省去照相馆的时间和费用。
  • 创意设计:在制作个人社交媒体头像、壁纸、贺卡等创意设计时,可以将自己喜欢的图片元素进行抠图组合,创造出独特的视觉效果,展现个性。
  • 电商运营:对于电商卖家来说,酷雀AI智能抠图可以帮助快速将商品从复杂背景中抠出,放置在纯色背景或其他更具吸引力的背景上,提升商品展示效果,吸引顾客购买。
  • 平面设计:设计师在进行海报、宣传册、广告等设计时,能高效地抠出所需的图片主体,方便设计师进行创意拼接和排版,提高设计效率。
  • 广告制作:在制作广告图片时,酷雀AI智能抠图可以快速准确地抠出主体,与各种商业背景进行无缝融合,制作出高质量的广告素材。

OCode – 终端原生AI编程助手,直接在shell环境中运行

OCode是什么

OCode 是终端原生 AI 编程助手,为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成,将企业级 AI 辅助直接融入开发流程中。终端原生工作流,能直接在你的 shell 环境中运行;深度代码库智能,可自动映射并理解整个项目;自动任务执行,能端到端处理多步骤开发任务;可扩展的插件层,通过模型上下文协议(MCP)启用第三方集成,帮助开发者提高编程效率和质量。

OCode

OCode的主要功能

  • 代码生成与修改:支持多文件重构、TDD 架构搭建、代码优化和文档生成。
  • 项目理解:进行架构分析、依赖跟踪和跨文件推理,帮助开发者快速理解项目结构。
  • 开发自动化:集成 Git 工作流、测试执行、构建和 CI/CD 集成,简化开发流程。
  • 数据处理:支持 JSON/YAML 解析和查询、数据验证和格式转换,方便数据操作。
  • 系统操作:监控系统进程、管理环境变量、测试网络连通性,提升系统管理效率。
  • 交互式操作:支持自然语言查询、上下文探索和调试辅助,增强开发体验。
  • 文件操作:提供文件编辑、读写管理、文件搜索和目录操作等功能。
  • 文本处理:支持高级文本搜索、文本操作和格式化,以及文件差异比较。
  • 数据处理:支持 JSON/YAML 数据解析、查询和操作,以及 Jupyter 笔记本处理。
  • 系统操作:支持进程监控、环境变量管理、网络连通性测试和安全的 shell 命令执行。
  • 开发工具:支持 Git 操作、项目架构分析、复杂任务委托和上下文管理。
  • 集成:支持模型上下文协议集成和 HTTP 请求,方便与外部系统交互。

OCode的技术原理

  • 终端原生工作流:直接在你的 shell 环境中运行,无缝集成到你的开发流程中。
  • 深度代码库智能:自动映射并理解你的整个项目,提供全面的代码分析和理解。
  • 自动任务执行:端到端处理多步骤开发任务,减少手动操作,提高开发效率。
  • 直接 Ollama 集成:无需代理即可从本地或远程 Ollama 流式传输补全,确保实时的 AI 辅助。
  • 可扩展插件层:通过模型上下文协议(MCP)启用第三方集成,支持多种工具和扩展。

OCode的项目地址

OCode的应用场景

  • 前端开发:OCode 可以将 UI 设计图直接转换为 React 代码,加快前端开发的速度。
  • 设计与开发协作:设计团队与开发团队可以协作使用 OCode,快速将设计图转换为代码,缩短产品从设计到上线的周期。
  • 无代码开发:OCode 提供了拖放界面,支持用户以可视化方式构建应用程序,无需编码技能。
  • 数据管理:OCode 支持强大的后端功能,用户能有效地管理数据。
  • 协作开发:OCode 支持多个用户同时处理同一个项目,促进团队合作并提高生产力。

CRIC深度智联 – 克而瑞推出的房地产行业首个AI Agent

CRIC深度智联是什么

CRIC深度智联是克而瑞推出的中国首个房地产垂直领域的AI Agent。CRIC深度智联基于克而瑞20年的行业经验和海量数据积累,结合多模态大模型技术,为房地产行业提供智能化解决方案。主要功能包括搜索、文章创作、报告生成和知识库管理。深度整合行业数据和专业知识,CRIC深度智联为用户提供精准的市场分析、专业的文章撰写和高质量的报告生成服务,帮助房地产从业者提升工作效率和决策质量,被誉为地产人的“第二大脑”。

dichanai

CRIC深度智联的主要功能

  • 搜索功能:连接房地产资讯和专业数据库,基于地产逻辑深度检索,自动生成核心结论和可视化图表,提供数据溯源链接。
  • 文章创作:支持住宅、商业、政策等多领域文章创作,自动调用行业数据生成撰稿脑图,支持实时修改和一键导出。
  • 报告生成:生成土地、住宅、商业等各类市场报告,根据指令自动生成大纲、收集资料、匹配数据,生成直观的可视化报告。
  • 知识库管理:整合海量文献资料,支持用户创建个性化知识库,为文章和报告生成提供专业保证。

如何使用CRIC深度智联

  • 注册与登录:访问CRIC深度智联的官方网站或微信小程序搜索“CRIC深度智联”。按提示完成注册和登录。
  • 选择功能模块
    • 搜索功能:在首页选择“搜索”模块,输入与房地产相关的关键词或问题,系统自动调用专业数据库和知识库,生成核心结论和可视化图表。
    • 文章创作:选择“文章”模块,输入文章主题或需求描述,系统自动生成撰稿脑图,调用相关素材生成初稿,支持用户进一步编辑和优化。
    • 报告生成:选择“报告”模块,输入报告主题或需求,系统自动生成大纲,收集资料匹配数据,生成结构化的文字报告和可视化报告。
    • 知识库管理:选择“知识库”模块,支持用户浏览系统提供的海量文献资料,创建自己的个性化知识库。
  • 输入需求:在每个功能模块中,清晰地输入需求或问题。
  • 查看结果:系统根据输入的需求生成相应的结果,如搜索结果、文章初稿、报告大纲等。
  • 编辑与优化:对于生成的文章或报告,用户用系统提供的编辑工具进行修改和优化,确保内容符合自己的需求。
  • 导出与使用:完成编辑后,选择将文章或报告导出为不同的格式,如PDF、Word等,方便在其他场景中使用。

CRIC深度智联的产品定价

  • 1次创作:30元,专业内容创作,深度报告撰写,AI搜索限时免费,AI生图5次,专属风格/排版优化2次,个人知识库上传5份。
  • 3次创作:72元,专业内容创作,深度报告撰写,AI搜索限时免费,AI生图15次,专属风格/排版优化6次,个人知识库上传15份,知识库风格提取3次。
  • 10次创作:210元,专业内容创作,深度报告撰写,AI搜索限时免费,AI生图50次,专属风格/排版优化20次,个人知识库上传50份,知识库风格提取30次。
  • 企业版:价格联系客服,提供企业后台管理系统,分配积分,查看员工使用情况,企业API服务。

CRIC深度智联的官方案例

  • AI文章
dichanai
  • AI报告
dichanai
  • AI搜索
dichanai

CRIC深度智联的应用场景

  • 市场研究:生成市场趋势报告,分析区域房地产市场动态。
  • 项目策划:为新项目提供市场定位和策划建议。
  • 投资决策:评估土地或项目的投资价值,生成投资分析报告。
  • 销售营销:为销售团队提供营销文案和策略建议。
  • 产品设计:获取行业最佳实践,为产品设计提供参考。

Jaaz – 开源的AI设计Agent,本地免费Lovart平替项目

Jaaz是什么

Jaaz 是开源的AI设计Agent,本地免费 Lovart 平替项目。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术,在对话中编辑图像,进行对象移除、风格转换等操作。Jaaz 提供无限创意画布,帮助用户快速迭代和布局发布。

Jaaz

Jaaz的主要功能

  • AI 设计能力:Jaaz是开源的AI设计Agent,能智能生成设计提示,批量生成图像、海报、故事板等。
  • 支持多种模型:支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。
  • 图像编辑功能:通过 GPT-4o、Flux Kontext 等技术,用户可以在对话中编辑图像,进行对象移除、风格转换、编辑图像中的特定元素等操作。
  • 创意画布和故事板:提供无限创意画布,用户可以在此基础上进行快速迭代和布局发布。

Jaaz的技术原理

  • AI 设计代理与自然语言处理:Jaaz 通过自然语言处理(NLP)技术,理解用户的需求并生成设计提示。使用大型语言模型(LLM),如 GPT-4o 等,来处理用户的输入,生成相应的设计指令。
  • 本地与云服务结合:Jaaz 支持本地运行和云服务的结合。用户可以选择使用本地模型(如 Ollama、SDXL 等)进行完全免费的设计,也可以通过 API 密钥连接到云服务(如 OpenAI、Replicate 等)获取更强大的计算能力和更多的模型。
  • 技术架构:Jaaz 的技术架构包括前端界面、后端处理、数据存储和 AI 模型等多个组件。前端界面提供用户交互,后端处理负责逻辑运算,数据存储用于保存用户的设计和模型数据,AI 模型是整个系统的核心,负责生成和编辑设计内容。

Jaaz的项目地址

  • Jaaz官网地址:https://jaaz.app/
  • Github仓库:https://github.com/11cafe/jaaz

Jaaz的应用场景

  • 创意设计与内容创作:Jaaz 能帮助设计师、艺术家和创意工作者快速生成图像、海报、故事板等设计内容。
  • 快速原型设计:Jaaz 可以帮助设计师快速迭代设计想法,生成初步的设计原型。
  • 教育与培训:教师可以用来创建教学材料,学生可以用来完成设计相关的作业和项目。
  • 个人创意表达:对于个人用户来说,用于表达个人创意和艺术想法。

VRAG-RL – 阿里通义推出的多模态RAG推理框架

VRAG-RL是什么

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视觉丰富信息理解领域的强大潜力。

VRAG-RL

VRAG-RL的主要功能

  • 视觉感知增强:基于定义视觉感知动作空间(如裁剪、缩放),让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。
  • 多轮交互推理:支持多轮交互,让模型能与搜索引擎进行持续交互,逐步优化推理过程。
  • 综合奖励机制:结合检索效率和基于模型的结果奖励,全面指导模型优化推理和检索能力,让模型更贴近实际应用场景。
  • 可扩展性:框架具有良好的可扩展性,支持多种工具和模型的集成,方便用户自定义和扩展。

VRAG-RL的技术原理

  • 视觉感知动作空间:定义一组视觉感知动作,包括选择感兴趣区域、裁剪和缩放。动作让模型逐步从粗粒度到细粒度获取信息,更有效地关注信息密集区域。
  • 强化学习框架:用强化学习(RL)优化模型的推理和检索能力。基于与搜索引擎的交互,模型自主采样单轮或多轮推理轨迹,基于样本进行持续优化。
  • 综合奖励机制:设计一种综合奖励函数,包括检索效率奖励、模式一致性奖励和基于模型的结果奖励。奖励机制关注最终结果,优化检索过程,让模型更有效地获取相关信息。
  • 多轮交互训练:基于多轮交互训练策略,模型在与外部环境的持续交互中逐步优化推理过程,提升推理的稳定性和一致性。
  • 数据扩展和预训练:基于多专家采样策略扩展训练数据,确保模型在预训练阶段学习到有效的视觉感知和推理能力。

VRAG-RL的项目地址

VRAG-RL的应用场景

  • 智能文档问答:快速从PPT、报告等文档中检索和理解信息,高效回答问题。
  • 视觉信息检索:从大量图表、图片中快速定位并提取相关视觉信息。
  • 多模态内容生成:结合视觉和文本信息,生成图文并茂的总结、报告等。
  • 教育与培训:辅助教学,帮助学生更好地理解和分析视觉材料。
  • 智能客服与虚拟助手:处理用户提出的涉及视觉内容的问题,提供准确回答。

Mary Meeker团队推出《人工智能趋势报告》(PDF文件) – AI教程资料

Mary Meeker团队推出的《人工智能发展趋势》报告,全面分析AI技术的爆炸式发展及全球影响。报告指出,AI的用户增长(如ChatGPT在17个月内达到8亿用户)和资本投入(美国六大科技公司2025年AI开支超2000亿美元)远超历史任何技术,性能指标(如MMLU测试准确率89.8%)已接近人类水平。中美主导全球竞争,美国在大语言模型(如GPT-4.5)领先,中国在工业机器人(占全球50%)和本土模型(如Qwen 2.5)快速追赶。AI已深入金融(如Bank of America的AI助手Erica)、医疗(FDA批准近700项AI设备)、教育(如亚利桑那州立大学AI课程)等领域。未来5年内或实现人类水平的文本生成和个性化医疗,但需警惕自主武器、就业冲击等风险。报告强调,AI的复合增长(算法×算力×数据)正重塑经济、社会与地缘格局,呼吁平衡创新与伦理安全。

Trends – Artificial Intelligence

获取Mary Meeker的Trends – Artificial Intelligence》  PDF原文件,扫码关注回复:20250601

变化速度是否比以往更快?是的,确实如此

  • 技术变革速度史无前例:对比互联网时代(1990年代)与AI时代(2020年代)的技术采纳速度,AI的用户增长和技术迭代速度远超历史任何技术。ChatGPT在17个月内用户达8亿,互联网和iPhone分别耗时7年和3年达到同等规模。
  • 技术复合增长效应:AI性能提升由算法改进、算力增长和数据量扩大共同驱动,形成“复合增长”效应。MMLU测试准确率从2019年30%跃升至2024年89.8%(接近人类水平)。
  • 开发者生态爆发:NVIDIA开发者数量4年内增长100%(2021年300万→2025年600万),反映AI技术落地的加速。
  • 资本投入激增:美国六大科技公司(Apple、NVIDIA等)2025年AI相关资本开支超2000亿美元,远超互联网泡沫时期的投入。
  • 全球同步普及:AI技术(如ChatGPT)从发布起即实现全球多区域同步增长,互联网早期仅以欧美为中心扩散。

Trends – Artificial Intelligence

AI用户、使用量与资本支出增长 = 史无前例

  • 消费者/用户AI采用速度史无前例
    • ChatGPT用户增长:17个月内用户达8亿(P.52),增速是互联网的5.5倍。
    • 全球普及:ChatGPT上线覆盖多区域,非北美用户占比快速攀升至50%以上(互联网耗时20年达到同等比例)。
  • 技术生态系统的AI采用
    • NVIDIA开发者生态:4年内开发者数量增长100%(2021年300万→2025年600万)。
    • Google生态:Gemini开发者数量1年内增长5倍至700万。
  • 科技巨头的资本开支激增
    • 六大科技公司:Apple、NVIDIA等2025年AI相关资本开支超2000亿美元。
    • 投资方向:AI基础设施(如数据中心)、大模型训练、开源生态。
  • 企业级AI应用加速
    • Bank of America案例:AI助手Erica累计交互20亿次,节省40%客服成本。
    • JP Morgan实践:AI节省数千小时人力,优化风险管理。
  • 医疗与政府领域的AI落地
    • FDA批准AI设备:从1995年0项增至2023年近700项。
    • 政府政策:NVIDIA与30+国家合作“主权AI”计划。

Trends – Artificial Intelligence

AI模型计算成本高企/上升 + 单次推理成本下降 = 性能趋同 + 开发者使用量增长

  • 训练成本持续攀升:大模型训练成本,GPT-4训练费用超1亿美元(P.129),年均增长200%(2019-2025)。
  • 单次推理成本快速下降:GPT-3到GPT-4o的单次推理成本下降90%。Anthropic Claude 3.5的推理成本为GPT-4的1/5。
  • 性能趋同现象:主流模型(GPT-4.5、Claude 3.7、Qwen 2.5)在MMLU测试中准确率均超85%。
  • 开发者生态爆发:NVIDIA开发者数量4年增长100%(2021年300万 → 2025年600万)。Google Gemini开发者1年内增长5倍至700万。
  • 开源模型推动普及:Meta的Llama 3下载量突破5000万次。中国Alibaba Qwen 2.5系列模型性能接近GPT-4o。

Trends – Artificial Intelligence

AI使用量、成本与亏损增长 = 史无前例

  • AI使用量激增:ChatGPT交互量,日查询量从2022年11月的100万次增至2025年4月的10亿次。Bank of America的AI助手Erica累计处理交互超20亿次。
  • 训练与推理成本分化
    • 训练成本:GPT-4训练费用超1亿美元,年均增长200%(2019-2025)。
    • 推理成本:单次token处理成本从GPT-3的0.01降至GPT−4o的0.001。
  • 科技巨头亏损扩大
    • TOpenAI亏损:2024年亏损达53亿美元(P.173),主要因算力投资和模型训练。
    • 行业趋势:全球AI初创企业平均亏损率从2021年的40%升至2025年的65%。
  • 资本开支与回报失衡:2025年AI相关资本开支超2000亿美元,但多数项目回报周期超5年。
  • 行业应用成本压力
    • 医疗领域:FDA批准的AI医疗设备部署成本平均增长120%(2020-2025)。
    • 金融领域:JP Morgan的AI风控系统年维护成本达2.5亿美元。

Trends – Artificial Intelligence

AI货币化威胁 = 竞争加剧 + 开源势头 + 中国崛起

  • 竞争格局,美国LLM主导地位受挑战:美国LLM(如GPT-4.5)占全球桌面用户份额的62%,但中国Qwen 2.5等模
  • 开源模型冲击商业生态
    • 关键事件
      • Alibaba发布100个开源Qwen 2.5模型,性能接近西方竞品。
      • DeepSeek推出R1-Zero开源推理模型。
    • 影响:开源模型降低企业付费意愿,2025年闭源LLM收入增长率预期下调至35%。
  • 中国技术崛起与地缘竞争
    • 工业机器人:中国部署量占全球50%以上。
    • 政策响应
      • NVIDIA与30+国家合作“主权AI”计划。
      • 中国“十四五”规划将AI芯片自给率目标设为70%。
  • 企业应对策略
    • 微软将Copilot整合至365套件,强化订阅模式。
    • Google Gemini开发者生态1年内增长5倍至700万。
  • 风险与挑战
    • 商业风险:开源模型导致LLM利润率从2023年的45%降至2025年的28%。
    • 地缘风险:美国限制高端GPU出口中国,加速中国自主芯片研发。

Trends – Artificial Intelligence

AI与物理世界的融合 = 快速 + 数据驱动

  • 工业机器人部署加速:中国工业机器人安装量占全球50%以上。
  • 自动驾驶技术突破:Waymo进展,2025年无人驾驶出租车在旧金山覆盖90%区域。
  • 医疗机器人应用
    • 手术机器人:达芬奇系统完成全球超1000万例手术。
    • FDA批准:2023年近700项AI医疗设备中,23%为机器人辅助类。
  • 智能家居与消费机器人:2025款扫地机器人实现自主充电与垃圾处理。亚马逊Astro家庭机器人销量年增300%。
  • 数据驱动的城市管理
    • 交通优化:新加坡使用AI减少30%拥堵。
    • 能源网络:谷歌DeepMind优化电网效率提升15%。
  • 农业与物流自动化
    • 农业无人机:中国极飞科技无人机覆盖超1亿亩农田。
    • 物流机器人:亚马逊仓库部署超50万台Kiva机器人。

Trends – Artificial Intelligence

全球互联网用户增长由AI驱动 = 前所未见的增速

  • AI驱动的全球用户增长曲线:ChatGPT推动全球互联网用户增速达历史峰值,非北美用户占比从2023年的35%跃升至2025年的52%。
  • 新兴市场的AI普及
    • 案例:印度、印尼等地区通过AI工具(如语音助手)直接跳过PC时代,移动端AI使用率年增200%。
    • 数据:非洲地区ChatGPT用户占比从2024年的3%升至2025年的12%。
  • 多语言与低门槛访问:Meta的通用翻译模型支持100+语言实时互译,覆盖全球80%非英语人口。
  • 基础设施与政策推动:NVIDIA与30+国家合作建设本土AI数据中心(如沙特、新加坡),降低算力依赖。
  • 教育与普惠影响
    • 亚利桑那州立大学“AI加速计划”使课程完成率提升35%。
    • 印度政府通过AI语音助手向农村地区提供基础教育,覆盖1.2亿学生。

Trends – Artificial Intelligence

AI与工作变革 = 真实 + 迅速

  • AI对就业市场的结构性影响:2025年全球IT岗位中,AI相关职位占比达35%,非AI职位年减少率5%。
  • 技能需求转型:调研结果显示73%的企业要求员工掌握基础AI工具(如Copilot)。编程岗位需求下降12%,但“AI+领域专家”复合型人才需求增长200%。
  • 行业案例,金融与医疗
    • 金融:高盛使用AI完成60%的财报分析,分析师效率提升3倍。
    • 医疗:凯撒医疗(Kaiser Permanente)的AI病历助手节省医生50%文书时间。
  • 政策与教育响应
    • 政府行动:美国劳工部2024年推出“AI劳动力再培训基金”。
    • 教育创新:亚利桑那州立大学开设“AI加速计划”,课程完成率提升35%。牛津大学与企业合作开发AI伦理培训模块。
  • 未来工作场景预测
    • 短期(2025-2030):50%的重复性工作(如数据录入、基础编程)将由AI接管。
    • 长期(2030+):“人机协作”成为主流,例如AI管理项目流程,人类负责创意决策。

Trends – Artificial Intelligence

 

获取Mary Meeker的Trends – Artificial Intelligence》  PDF原文件,扫码关注回复:20250601

Bing Video Creator – 微软推出AI视频生成工具

Bing Video Creator是什么

Bing Video Creator 是微软推出AI视频生成工具。由OpenAI的Sora模型提供支持,能根据用户输入的文本描述快速生成视频内容。用户只需在Bing移动应用中输入详细的场景描述,包括主体、动作、环境等信息,系统会在短时间内生成对应的视频。工具生成的视频时长为5秒,支持9:16格式,用户可以免费使用,初始有10次快速生成机会。

Bing Video Creator

Bing Video Creator的主要功能

  • 视频生成:用户输入详细的文本描述,系统会自动生成对应的短视频。可生成写实、风景、卡通、影视等各种风格的视频。
  • 快速模式:初始提供10次免费快速生成机会,用完后可消耗100微软奖励积分继续使用。
  • 标准模式:不限次数,但生成速度较慢。
  • 视频时长和格式:目前生成的视频长度为5秒,支持9:16格式。
  • 生成数量限制:用户可以同时排队生成三个视频。
  • 视频存储时间:生成完成的视频会存储在用户的账户中,存储时间为90天。

如何使用Bing Video Creator

  • 打开应用:需要先下载并安装Bing移动应用。
  • 进入Video Creator:打开Bing应用后,点击右下角的菜单按钮,选择“Video Creator”,或者直接在搜索栏输入“Create a video of…”。
  • 输入描述:在Video Creator中输入详细的文本描述,包括场景、主体、动作等细节,描述越详细,生成的视频越符合要求。
  • 生成视频:提交描述后,Bing Video Creator会使用Sora模型处理请求,并在完成后通知用户。
  • 分享或下载:视频生成后,用户可以选择下载、通过电子邮件或社交媒体分享,或者复制视频的直接链接。
  • 注意事项
    • 语言限制:目前工具可能不支持中文提示词,中文提示可能会报错或无响应。
    • 后期处理:生成的视频不包含字幕和配音,用户需要自行添加。

Bing Video Creator的官网地址

Bing Video Creator的应用场景

  • 广告视频制作:企业可以用 Bing Video Creator 快速生成产品宣传视频或广告素材。
  • 教学视频制作:教师可以生成用于教学的视频,如“植物的光合作用过程”或“历史事件的再现”,帮助学生更直观地理解复杂概念,增强学习兴趣。
  • 在线课程内容:在线教育平台可以用工具生成课程视频,丰富课程内容,提高课程的吸引力和教学质量。
  • 创意视频制作:艺术家、设计师和创意工作者可以用 Bing Video Creator 生成独特的创意视频,用于艺术项目、动画制作等,激发创作灵感。
  • 个人娱乐:用户可以生成有趣的视频,如“自己在太空中的奇幻之旅”或“与虚拟角色的互动”,用于个人娱乐和分享。

Google AI Edge Gallery – 谷歌推出的AI应用,支持手机端离线运行AI模型

Google AI Edge Gallery是什么

Google AI Edge Gallery 是谷歌推出的实验性应用,支持让用户在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。应用目前支持在 Android设备上运行,无需联网即可使用。用户能切换不同模型,进行图像问答、文本生成、多轮对话等操作,实时查看性能指标。应用支持自带模型测试,为开发者提供丰富的资源和工具,助力探索设备端AI的强大功能。

Google AI Edge Gallery

Google AI Edge Gallery的主要功能

  • 本地离线运行:无需互联网连接,所有处理都在设备上完成。
  • 选择模型:轻松切换Hugging Face上的不同模型,比较它们的性能。
  • 图像问答:上传图像进行提问,获取描述、解决问题或识别物体。
  • 提示词实验室:总结、改写、生成代码或使用自由形式的提示词探索单轮对话的LLM用例。
  • AI聊天:进行多轮对话。
  • 性能洞察:实时基准测试(首次响应时间、解码速度、延迟)。
  • 自带模型:测试本地LiteRT .task 模型。
  • 开发者资源:快速链接到模型卡和源代码。

Google AI Edge Gallery的技术原理

  • Google AI Edge:Google AI Edge 是设备端机器学习的核心框架,提供一系列API和工具,在移动设备上高效运行机器学习模型。
  • LiteRT:轻量级的运行时环境,专门用在优化模型的执行效率。基于高效的内存管理和计算优化,确保模型在移动设备上快速运行,减少对设备资源的占用。LiteRT 支持多种模型格式,包括但不限于 TensorFlow Lite 和 ONNX。
  • LLM Inference API:支持设备端大型语言模型(LLM)推理的接口。支持应用在本地设备上运行复杂的语言模型,如 GPT 或其他基于Transformer架构的模型,无需依赖云端服务。
  • Hugging Face 集成:集成 Hugging Face 的模型库,用户能轻松地发现和下载各种预训练模型。Hugging Face 提供丰富的模型资源,涵盖从自然语言处理到计算机视觉等多个领域。基于集成,用户直接在 Gallery 中使用模型,无需手动下载和配置。

Google AI Edge Gallery的项目地址

Google AI Edge Gallery的应用场景

  • 个人娱乐与创意:用户上传图片进行问答、生成创意文本或与AI进行多轮对话,满足娱乐和创意需求。
  • 教育与学习:作为语言学习、科学实验辅助和编程教育工具,提升学习效果。
  • 专业开发与研究:开发者测试优化模型、快速搭建原型比较不同模型性能,助力开发流程。
  • 企业与商业:企业开发本地化客户支持工具,技术人员在无网环境下解决问题,同时保障数据隐私。
  • 日常生活:辅助旅行规划、控制智能家居和获取健康建议,提升生活便利性。

TEN VAD – AI实时语音活动检测系统,低延迟、轻量级、高精度

TEN VAD是什么

TEN VAD 是高性能的实时语音活动检测系统,专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动,具有低延迟、轻量级和高精度的特点。TEN VAD 基于先进的 AI 技术,如深度学习模型,快速区分语音和非语音信号,显著降低对话系统的响应延迟。TEN VAD支持多种平台(如 Linux、Windows、macOS、Android 和 iOS),提供 Python 和 C 接口,方便开发者集成。TEN VAD 适用于智能助手、客服机器人等场景,帮助构建更高效、更智能的对话系统。

TEN VAD

TEN VAD的主要功能

  • 高精度语音检测:精确区分语音和非语音信号,提供高精度的帧级语音活动检测。
  • 低延迟处理:快速检测语音活动,显著降低端到端的响应时间,适合实时对话系统。
  • 轻量级设计:占用资源少,计算复杂度低,适合在多种硬件平台上运行。
  • 多平台支持:支持 Linux、Windows、macOS、Android 和 iOS 等多种操作系统,提供广泛的兼容性。
  • 多语言接口:提供 Python 和 C 接口,方便开发者在不同编程环境中使用。
  • 灵活配置:支持 16kHz 采样率的音频输入,支持配置不同的跳帧大小,适应不同的应用场景。

TEN VAD的技术原理

  • 深度学习模型:基于深度神经网络(如卷积神经网络或循环神经网络)学习语音和非语音信号的特征。用大量标注好的音频数据进行训练,模型能识别语音信号的特征模式。
  • 特征提取:从音频信号中提取关键特征,如梅尔频谱、能量特征等,特征能有效区分语音和非语音信号。
  • 实时处理:采用高效的算法和优化的模型结构,确保在实时音频流中快速检测语音活动,减少计算延迟。
  • 自适应阈值:基于调整模型的阈值,适应不同的应用场景和语音特征,提高检测的准确性和鲁棒性。
  • 优化的架构:在设计上注重计算效率和内存占用,基于优化的架构和算法,实现低延迟和轻量级的语音检测。

TEN VAD的项目地址

TEN VAD的应用场景

  • 智能语音助手:快速检测用户语音指令,实现即时响应,提升交互体验。
  • 在线客服系统:精准识别客户语音,辅助客服机器人高效解答问题。
  • 视频会议软件:准确区分发言者语音,优化会议记录与转写功能。
  • 语音识别前端:过滤非语音片段,提高语音识别准确率与效率。
  • 智能语音玩具:实时检测儿童语音指令,增强玩具的互动性和趣味性。