Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • UniBench – Meta推出的视觉语言模型(VLM)评估框架

    UniBench是什么

    UniBench是Meta FAIR机构推出的视觉语言模型(VLM)评估框架,对视觉语言模型(VLM)进行全面评估。UniBench包含50多个基准测试,涵盖物体识别、空间理解、推理等多维度能力。Meta FAIR机构还推出了”自学评估器”,利用合成数据训练,减少对人工注释的依赖,性能超越了GPT-4等常用模型评审。

    UniBench

    UniBench的主要功能

    • 全面评估:提供50多个精心分类的基准测试,覆盖物体识别、空间理解、推理等多个视觉语言能力维度。
    • 统一接口:简化模型和基准测试的添加过程,提高评估的灵活性和可扩展性。
    • 性能分析:生成可视化图表,帮助研究人员深入理解模型的优势和局限性。
    • 数据集支持:支持多种数据集,包括torchvision数据集和自定义数据集。
    • 处理器抽象:评估逻辑被抽象为可复用的处理器,简化新评估方法的添加。

    UniBench的技术原理

    • 基准测试设计:精心设计了50多个基准测试,覆盖不同的视觉和语言处理能力维度,确保评估的全面性。
    • 统一评估接口:提供一个标准化的接口,支持研究人员轻松添加新的模型或基准测试。
    • 模块化架构:采用模块化设计,将评估逻辑抽象为可复用的处理器(handlers),简化了新评估方法的集成和应用。
    • 数据集兼容性:支持多种类型的数据集,包括torchvision数据集和自定义数据集,提高了评估的适应性。
    • 性能分析工具:提供详细的性能分析工具,能生成各种可视化图表,帮助研究人员深入理解模型的性能特点。
    • 精简评估集:通过分析基准测试之间的相关性,选出最具代表性的基准测试,形成精简版评估集,降低全面评估的计算成本。
    • 自动化和人工审核:结合自动化筛选和人工审核,确保评估样本的质量,减少数据泄露和提高评估的公正性。
    • 多模态增益/泄露度量:引入多模态增益(MG)和多模态泄露(ML)指标,量化模型在多模态任务中的性能提升和数据泄露程度。

    UniBench的项目地址

    UniBench的应用场景

    • 学术研究:为研究人员提供一个标准化工具,用于评估和比较不同视觉语言模型的性能。
    • 模型开发:帮助开发者测试和优化他们的视觉语言模型,通过基准测试快速定位模型的强项和弱点。
    • 教育领域:作为教学工具,帮助学生理解视觉语言模型的工作原理和评估方法。
    • 工业应用:在自动化图像分析、智能监控、自动驾驶等工业领域,评估视觉语言模型的实际应用效果。
    • 产品测试:企业可以利用UniBench对产品中集成的视觉语言功能进行全面测试,确保产品质量。
  • CharacterFactory – 大连理工推出的AI角色创作工具

    CharacterFactory是什么

    CharacterFactory是大连理工大学IIAU团队推出的AI角色创作工具,通过扩散模型在无需参考图片的情况下,仅需2.5GB显存和10分钟训练,即可快速生成具有一致性特征的新角色图像。CharacterFactory支持文本提示词,如动作和风格,实现个性化图像生成,并能无缝融入视频和3D模型中,具有极高的训练效率和应用潜力。

    CharacterFactory

    CharacterFactory的主要功能

    • 快速生成逼真人物照片:能在几秒钟内生成高质量的逼真人物图像。
    • 角色多样性:确保生成的人物照片具有多样性,避免角色“撞脸”。
    • 文本控制:用户可以通过文本指令来控制生成的人物特征,实现个性化定制。
    • 集成脚本支持:提供与ControlNet、T2I-Adapter等工具的集成脚本,以及IP-Adapter-FaceID或InstantID的整合选项,增强角色生成的可控性和个性化。

    CharacterFactory的技术原理

    • 生成对抗网络(GAN):CharacterFactory用GAN来学习从潜在空间到嵌入空间的映射,生成有一致性特征的角色。
    • 嵌入空间:将名字或描述性文本嵌入到一个向量空间中,嵌入向量作为生成任务的输入,确保生成的角色与文本描述保持一致性。
    • 上下文一致性损失:设计特定的损失函数来训练模型,确保生成的角色在不同的背景和上下文中都能保持一致性。
    • 扩散模型:虽然在训练过程中不直接使用扩散模型,但生成的角色嵌入可以无缝地插入到现有的扩散模型中,实现高质量的图像生成。
    • 端到端生成:CharacterFactory能实现从文本描述到图像的端到端生成,无需额外的微调或调整步骤。

    CharacterFactory

    CharacterFactory的项目地址

    CharacterFactory的适用人群

    • 游戏开发者:需要快速生成角色图像和动画的游戏设计师和开发者。
    • 动画制作者:创作动画和故事插图的艺术家和动画师。
    • 3D建模师:在3D建模和渲染中需要角色设计的专业人士。
    • 广告和营销专家:需要快速生成吸引人的视觉内容的市场人员。
    • 内容创作者:需要为社交媒体或个人项目制作原创图像的博主和创作者。
  • VideoDoodles – Adobe推出的AI视频编辑框架

    VideoDoodles是什么

    VideoDoodles是Adobe公司联合多所大学推出的AI视频编辑框架。支持用户在视频中轻松插入手绘动画,实现与视频内容的无缝融合。通过预处理视频帧,系统提供平面画布,用户可以视频上绘制动画,系统自动处理透视和遮挡效果。VideoDoodles的跟踪算法能够使动画跟随视频中的物体移动,简化了动画制作流程。

    VideoDoodles

    VideoDoodles的主要功能

    • 手绘动画插入:用户可以在视频中添加手绘风格的动画元素。
    • 自动融合:动画与视频内容无缝融合,无需复杂的后期处理。
    • 3D场景绘制:在三维空间中放置平面画布,实现透视和遮挡效果的自动渲染。
    • 关键帧控制:通过关键帧设置动画的起始和结束状态,系统自动生成中间动画。
    • 动态物体跟踪:自定义算法使动画能够跟随视频中的动态物体移动。

    VideoDoodles的技术原理

    • 视频预处理:VideoDoodles对输入的视频进行分析,提取每帧的摄像机姿态、深度图和光流信息,为后续的动画合成打下基础。
    • 平面画布映射:用户在3D空间中放置虚拟的平面画布,画布可以映射到视频的特定区域。VideoDoodles利用摄像机姿态和深度图信息,自动渲染出具有正确透视和遮挡效果的画布。
    • 跟踪算法:VideoDoodles采用自定义的跟踪算法,画布能够跟随视频中的静态或动态物体移动。用户可以通过设置关键帧来控制画布的位置和方向,系统会自动计算出最佳的3D轨迹。
    • 3D位置和方向跟踪
      • 位置跟踪:基于关键帧的2D跟踪算法,构建有向图来搜索物体的轨迹,画布与物体的相对位置能保持一致。
      • 方向跟踪:用户可以在关键帧中指定画布的旋转矩阵,通过优化算法来保持画布方向与运动物体方向一致。
    • 自动化动画生成:一旦用户在关键帧上绘制了动画元素,VideoDoodles就会自动生成整个动画过程,无需用户逐帧绘制。
    • 用户界面设计:VideoDoodles提供了一个直观的用户界面,使用户能够轻松地选择、绘制和调整动画元素。

    VideoDoodles

    VideoDoodles的项目地址

    VideoDoodles的应用场景

    • 社交媒体内容创作:用户可以在自己的社交媒体视频中添加有趣的手绘动画,增加视频的吸引力和互动性。
    • 教育视频制作:教师或教育工作者可以在教学视频中加入动画,以更生动的方式解释复杂的概念或过程。
    • 商业广告:广告制作者可以用VideoDoodles为产品或服务制作吸引人的动画广告,提高广告的创意和记忆点。
    • 电影和视频后期制作:视频编辑者可以在电影或视频后期制作中用VideoDoodles,为作品添加独特的视觉效果。
  • MiniCPM-V – 面壁智能推出的开源多模态大模型

    MiniCPM-V是什么

    MiniCPM-V是面壁智能推出的开源多模态大模型,拥有80亿参数,擅长图像和视频理解。MiniCPM-V在单图像理解上超越了GPT-4V等模型,并首次支持在iPad等设备上实时视频理解。模型以高效推理和低内存占用著称,具备强大的OCR能力和多语言支持。MiniCPM-V基于最新技术确保了模型的可信度和安全性,在GitHub上广受好评,是开源社区中的佼佼者。

    MiniCPM-V

    MiniCPM-V的主要功能

    • 多图像和视频理解:能处理单图像、多图像输入和视频内容,提供高质量的文本输出。
    • 实时视频理解:支持在端侧设备如iPad上进行实时视频内容理解。
    • 强大的OCR能力:准确识别和转录图像中的文字,处理高像素图像。
    • 多语言支持:支持英语、中文、德语等多种语言,增强跨语言的理解和生成能力。
    • 高效率推理:优化的token密度和推理速度,降低内存使用和功耗。

    MiniCPM-V的技术原理

    • 多模态学习:模型能够同时处理和理解图像、视频和文本数据,实现跨模态的信息融合和知识提取。
    • 深度学习:基于深度神经网络架构,MiniCPM-V通过大量参数学习复杂的特征表示。
    • Transformer架构:采用Transformer模型作为基础,模型通过自注意力机制处理序列数据,支持语言和视觉任务。
    • 视觉-语言预训练:在大规模的视觉-语言数据集上进行预训练,模型能够理解图像内容及其对应的文本描述。
    • 优化的编码器-解码器框架:使用编码器处理输入数据,解码器生成输出文本,优化了模型的理解和生成能力。
    • OCR技术:集成了先进的光学字符识别技术,能从图像中准确提取文字信息。
    • 多语言模型:通过跨语言的预训练和微调,模型能理解和生成多种语言的文本。
    • 信任增强技术(如RLAIF-V):通过强化学习等技术减少模型的幻觉效应,提高输出的可靠性和准确性。
    • 量化和压缩技术:模型参数进行量化和压缩,减少模型大小和提高推理速度,能适应端侧设备。

    MiniCPM-V的项目地址

    MiniCPM-V的应用场景

    • 图像识别与分析:在安防监控、社交媒体内容管理等领域自动识别图像内容。
    • 视频内容理解:在视频监控、智能视频编辑或视频推荐系统中,对视频内容进行深入分析和理解。
    • 文档数字化:利用OCR技术,将纸质文档转换为可编辑的数字格式。
    • 多语言翻译与内容生成:在国际化企业或多语言环境中,进行语言翻译和内容本地化。
  • Agents – AIWaves公司推出的AI Agent开发工具

    Agents是什么

    Agents是AIWaves公司推出的AI Agent开发工具,支持用户对AI模型进行详细调整和优化,构建更加智能和个性化的AI Agent。通过Agents平台,用户可以自定义AI模型的行为和响应,实现高级的自动化任务和交互体验。Agents平台适合需要高度定制化AI解决方案的企业用户,提供了强大的工具和灵活性,满足不同场景下的具体需求。

    Agents

    Agents的主要功能

    • 自定义AI行为:用户可以定义AI Agent的行为模式,包括响应规则、决策逻辑和交互流程。
    • 高级自动化:Agents平台支持创建能够自动执行复杂任务的AI代理,减少人工干预,提高效率。
    • 个性化服务:根据用户的特定需求和偏好,定制AI Agent的服务方式和内容。
    • 集成开发环境:提供API和工具,方便开发者将AI Agent集成到现有的系统和应用中。
    • 交互式学习:AI Agent可以通过与用户的交互学习并优化其行为,以提供更加精准的服务。

    Agents的技术原理

    • MoE(混合专家模型):Agents平台采用了MoE技术,通过结合多个专家模型(Experts)来处理不同任务的机制。每个专家专注于特定类型的任务,由一个路由器(Router)根据输入数据的特性选择最合适的专家进行处理。
    • 稀疏激活:MoE模型的一个关键特性是稀疏激活,即在处理每个输入token时,只激活一小部分专家,不是全部专家。可以显著提高计算效率并降低成本。
    • 专业化和分工:在MoE架构中,每个专家模型被训练来处理特定类型的数据或任务,可以提高模型在特定领域的专业化水平和效率。
    • 灵活性和扩展性:MoE模型支持根据应用需求灵活地增加或减少专家的数量,从而扩展模型的能力。

    Agents的项目地址

    Agents的适用人群

    • 开发者和程序员:熟悉编程和软件开发,希望用AI技术构建定制化的应用程序或服务。
    • 数据科学家:专注于数据分析和机器学习,使用Agents平台来开发智能分析工具和模型。
    • 企业决策者:期望通过AI技术提高业务效率、优化决策过程的企业高管或经理。
    • 产品经理:负责设计和推出新产品和服务,需要集成AI功能以提升用户体验。
  • WiseFlow – 开源的AI信息挖掘工具

    WiseFlow是什么

    WiseFlow是开源的AI信息挖掘工具,能从网站、微信公众号、社交平台等多源信息中智能提取并分类数据。结合了统计学习和大型语言模型(LLM),支持多种新闻页面,优化了微信公众号文章的解析。WiseFlow轻量化设计,无需GPU即可运行,适用于任何硬件环境,是信息过载时代的理想助手。

    WiseFlow

    WiseFlow的主要功能

    • 自动抓取信息:能自动从网上的各种地方,比如新闻网站、微信公众号、社交媒体等,抓取信息。
    • 分类整理:抓来的信息,WiseFlow会根据你关心的内容,自动分门别类地整理好。
    • 特别擅长公众号文章:对于微信公众号的文章,WiseFlow有特殊的处理,能更好地抓取和理解。
    • 可以配合其他工具使用:可以和其他的工具或者项目配合使用,让信息处理更加灵活。
    • 用一个数据库来存信息:用一个叫做Pocketbase的数据库来存储收集来的信息,方便查看和管理。
    • 自己设定规则:可以根据自己的需要,设定WiseFlow怎么抓取和处理信息。

    WiseFlow的技术原理

    • 信息抓取:WiseFlow使用网络爬虫技术来访问和抓取目标网站和社交媒体上的信息。
    • 内容解析:通过文本解析技术,WiseFlow能够理解网页结构,提取出有用的信息内容。
    • 自然语言处理(NLP):利用大型语言模型(LLM),WiseFlow能够理解自然语言,从而识别关键信息和上下文。
    • 统计学习:结合开源项目GNE(可能是指某种统计学习方法或工具),WiseFlow能够从大量数据中学习并优化信息提取的准确性。
    • 智能分类和标签:WiseFlow根据用户设定的关注点,使用机器学习算法对信息进行自动分类和打标签。

    WiseFlow的项目地址

    WiseFlow的应用场景

    • 新闻监控:自动从新闻网站和社交媒体提取最新新闻,进行分类和摘要,为新闻机构或个人提供实时信息流。
    • 市场研究:监控竞争对手的在线活动,包括产品发布、价格变动等,帮助企业快速响应市场变化。
    • 社交媒体监听:追踪品牌提及、用户反馈和市场趋势,为社交媒体管理和公关策略提供数据支持。
    • 内容聚合:从多个来源聚合相关内容,为内容创作者或博客作者提供丰富的素材和灵感。
  • EAFormer – 复旦推出的AI文本分割框架

    EAFormer是什么

    EAFormer是复旦推出的AI文本分割框架。擅长在照片中找到文字,并且能很精确地把文字从背景中分离出来。即使文字的边缘很模糊或者背景很复杂,EAFormer也能做得很好。对于想要从图片中去除文字或者编辑文字的人来说非常有用。EAFormer是一个能让我们轻松处理图片中文字的智能助手。

    EAFormer

    EAFormer的主要功能

    • 找文本:在照片或图片里,EAFormer能快速找到所有的文字。
    • 描边角:不仅能找到文字,还能特别准确地描绘出文字的边缘,哪怕是弯弯曲曲的地方。
    • 改背景:如果你想把图片里的文字去掉,换上新的背景,EAFormer让文字看起来像是从未有过一样。
    • 学新招:如果EAFormer碰到了新的或不同语言的文字,能很快学会并提高识别能力。

    EAFormer的技术原理

    • 文本边缘提取器:利用Canny算法检测图像中的边缘,并结合轻量级文本检测模型来过滤非文本区域的边缘,只保留文本区域的边缘信息。
    • 边缘引导编码器:基于SegFormer框架构建,通过对称交叉注意力层在编码过程中融入边缘信息,增强模型对文本边缘的感知能力。
    • MLP解码器:采用多层感知机(MLP)层来融合特征并预测最终的文本mask,实现文本区域的精确分割。
    • 损失函数设计:使用文本检测损失和文本分割损失两种交叉熵损失进行优化,通过超参数平衡两者权重,简化了超参数选择的复杂性。
    • 数据集重新标注:针对COCO_TS和MLT_S等数据集的标注质量问题,进行了重新标注,确保评估结果的可靠性和模型训练的准确性。
    • 特征融合策略:在边缘引导编码器中,通过设计的对称交叉注意机制仅在第一层融合边缘信息,避免了在所有层中融合边缘信息可能带来的性能下降。
    • 轻量级文本检测器:在文本边缘提取器中使用,包括基于ResNet的骨干网络和MLP解码器,用于提取文本区域特征并辅助边缘过滤。

    EAFormer

    EAFormer的项目地址

    EAFormer的应用场景

    • 场景文本识别:在自然场景或图片中识别和分割文本,用于信息提取或数据挖掘。
    • 图像编辑:辅助图像编辑软件精确地擦除或替换图像中的文本,保持背景的自然和连贯性。
    • 广告屏蔽:在视频流或图像中自动检测并遮挡广告或其他不希望出现的文本。
    • 版权保护:帮助识别和保护版权文本,防止未经授权的复制或分发。
    • 文档处理:自动化文档扫描和数字化过程中的文本识别,提高文档处理的效率和准确性。
  • Imagen 3 – Google推出的AI图像生成模型

    Imagen 3是什么

    Imagen 3是Google推出的AI图像生成模型,可以生成高质量、逼真的图像。Imagen 3是Google最高质量的文本到图像模型,可生成细节丰富、照片级真实的图像。Imagen 3对提示词理解更好,可捕捉更多细节,生成更广泛的视觉风格。基于谷歌文生图模型Imagen 3的产品ImageFX,现已开放使用。

    Imagen 3

    Imagen 3的主要功能

    • 高质量图像生成:能够根据文本提示生成细节丰富、照片级真实的图像。
    • 文本到图像的转换:用户输入描述性的文本,模型能够理解并转换成相应的图像。
    • 多样化风格生成:支持生成多种视觉风格,满足不同的审美需求。
    • 编辑功能:支持用户对生成的图像进行局部调整,提高灵活性。
    • 人物图像生成:在生成包含人物的图像方面表现出色,能捕捉人物表情和服装质感。

    Imagen 3项目地址

    Imagen 3的应用场景

    • 艺术创作:艺术家和设计师可以用Imagen 3来快速生成创意概念的视觉表现,加速创作过程。
    • 广告和营销:广告商可以使用该技术来创建吸引人的广告图像,提高广告的吸引力和效果。
    • 游戏和电影制作:在游戏设计和电影制作中,Imagen 3可以用来生成场景概念图,辅助前期制作。
    • 教育和培训:教育工作者可以用Imagen 3来创建教学材料,如历史场景重现或科学概念的视觉化。
    • 社交媒体内容:社交媒体用户可以利用Imagen 3来生成个性化的图像,用于个人表达或内容分享。
  • Qwen2-Audio – 阿里通义千问团队推出的开源AI语音模型

    Qwen2-Audio是什么

    Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在多个基准数据集上表现优异,现已集成至Hugging Face的transformers库,方便开发者使用。模型还支持通过ms-swift框架进行微调,适应特定应用场景。

    Qwen2-Audio

    Qwen2-Audio的主要功能

    • 语音聊天:用户可以直接用语音与模型交流,无需通过ASR转换。
    • 音频分析:能根据文本指令分析音频内容,识别语音、声音和音乐等。
    • 多语言支持:支持中文、英语、粤语、法语等多种语言和方言。
    • 高性能:在多个基准数据集上超越先前模型,表现出色。
    • 易于集成:代码已集成到Hugging Face的transformers库,方便开发者使用和推理。
    • 可微调性:支持通过ms-swift框架进行模型微调,适应不同应用需求。

    Qwen2-Audio的技术原理

    • 多模态输入处理Qwen2-Audio模型能接收并处理音频和文本两种模态的输入。音频输入通常通过特征提取器转换成模型能够理解的数值特征。
    • 预训练与微调模型在大量多模态数据上进行预训练,学习语言和音频的联合表示。微调则是在特定任务或领域数据上进一步训练模型,提高其在特定应用场景下的性能。
    • 注意力机制模型使用注意力机制来加强音频和文本之间的关联,在生成文本时能考虑到音频内容的相关信息。
    • 条件文本生成Qwen2-Audio支持条件文本生成,即模型可以根据给定的音频和文本条件生成相应的响应文本。
    • 编码器-解码器架构模型采用编码器-解码器架构,其中编码器处理输入的音频和文本,解码器生成输出文本。
    • Transformer架构作为transformers库的一部分,Qwen2-Audio采用了Transformer架构,这是一种常用于处理序列数据的深度学习模型,适用于自然语言处理任务。
    • 优化算法在训练过程中,使用优化算法(如Adam)来调整模型参数,最小化损失函数,提高模型的预测准确性。

    Qwen2-Audio

    Qwen2-Audio的项目地址

    Qwen2-Audio的应用场景

    • 智能助手:作为虚拟助手,通过语音与用户进行互动,回答问题或提供帮助。
    • 语言翻译:实现实时语音翻译,帮助跨语言交流。
    • 客服中心:自动化客户服务,处理咨询和解决问题。
    • 音频内容分析:分析音频数据,用于情感分析、关键词提取或语音识别。
  • Deep-Live-Cam – 开源的 AI 实时换脸工具

    Deep-Live-Cam是什么

    Deep-Live-Cam 是开源的AI实时换脸工具,用户仅需一张图片即可在视频中实现实时人脸交换。支持 CPU、NVIDIA CUDA、Apple Silicon、Core ML 等多种硬件平台,确保视频处理的流畅性。Deep-Live-Cam 软件内置防滥用机制,遵守法律和伦理规范,提醒用户在使用时需获得被换脸者的同意。

    Deep-Live-Cam

    Deep-Live-Cam的主要功能

    • 实时换脸:用户可通过一张图片,在视频直播中实时替换人脸。
    • 一键操作:简单易用的界面,一键启动换脸过程。
    • 深度伪造视频生成:能生成逼真的换脸视频,难以区分真伪。
    • 多平台支持:兼容 CPU、NVIDIA CUDA、Apple Silicon、DirectML 等多种硬件,适应不同用户需求。
    • 内置防滥用机制:防止处理不当内容,如裸体或暴力等。

    如何使用Deep-Live-Cam

    • 安装环境安装Python(推荐 3.10 版本)、pip、git、ffmpeg 及适用于 Windows 的 Visual Studio 2022 运行时。
    • 克隆仓库使用 git 克隆 Deep-Live-Cam 仓库到本地。
    • 下载模型下载所需的模型文件,如 GFPGANv1.4 和 inswapper_128_fp16.onnx,并将它们放置在项目的 “models” 文件夹中。
    • 安装依赖创建并激活虚拟环境(推荐),然后使用 pip 安装所需的依赖包。
    • 运行程序如果没有 GPU,可以使用 CPU 运行程序。首次运行时,程序会下载一些模型,需要一些时间。
    • 使用 GPU 加速根据硬件配置,安装相应的 CUDA Toolkit 或其他执行提供者的依赖,使用相应的命令行参数运行程序。
    • 选择输入运行程序后,选择一个包含所需人脸的图片和目标图片或视频。
    • 开始换脸点击 “Start” 按钮开始换脸过程。处理过程中,可以在指定的输出目录实时查看换脸效果。
    • Webcam 模式如果想使用摄像头进行实时换脸,按照程序界面的指示操作。
    • 命令行参数可以通过命令行参数调整程序的行为,例如选择源文件、目标文件、输出路径、帧处理器等。

    Deep-Live-Cam的项目地址

    Deep-Live-Cam的应用场景

    • 娱乐制作:用于制作娱乐视频,如模仿名人或虚构角色的表演。
    • 艺术创作:艺术家可以用Deep-Live-Cam 来创造独特的艺术作品或动画。
    • 教育和培训:在教学视频中替换讲师的面孔,适应不同的教学环境或语言。
    • 广告和营销:在广告中使用换脸技术,吸引观众的注意力或展示产品的不同使用场景。