Blog

  • FlexTok – Apple 联合 EPFL 推出的图像处理技术

    FlexTok是什么

    FlexTok 是瑞士洛桑联邦理工学院(EPFL)和苹果公司联合开发的图像处理技术。通过将二维图像重新采样为一维离散标记序列(token sequences),以灵活的长度描述图像,实现高效的图像压缩和生成。FlexTok 的核心技术包括动态像素重组,能将图像压缩率提升300%,支持8K视频的实时渲染,显著降低功耗。

    FlexTok

    FlexTok的主要功能

    • 高效图像压缩:通过动态像素重组技术,FlexTok 能根据图像的复杂性灵活调整标记数量,将图像压缩率提升300%,同时支持8K视频的实时渲染。
    • 低功耗与高性能:在处理高分辨率图像时,FlexTok 的功耗降低45%,显著提升了设备的能效。
    • 无损超分辨率重建:FlexTok 首次实现了移动端的无损超分辨率重建,能将低分辨率图像高质量地放大。
    • 灵活的图像生成:通过“视觉词汇表”(visual vocabulary),FlexTok 可以从粗到细地描述图像,支持高保真图像生成和文本条件下的图像生成。

    FlexTok的技术原理

    • 动态像素重组技术:FlexTok 通过动态像素重组,将图像的像素信息重新排列并压缩为离散的标记序列(token sequences)。
    • 多尺度离散化处理:FlexTok 借鉴了多尺度量化自动编码器(VQ-VAE)的思想,将图像从高分辨率逐步分解为低分辨率的离散标记序列。生成过程从粗到细逐步进行,类似于人类视觉的分层次处理。
    • 自回归模型的应用:FlexTok 使用自回归模型(Autoregressive Model)对离散标记序列进行建模。自回归模型通过逐步预测下一个标记的方式生成图像,类似于语言模型生成文本的过程。能捕捉图像的局部结构和细节信息,实现高质量的图像生成。

    FlexTok的项目地址

    FlexTok的应用场景

    • 智能家居设备的图像处理:FlexTok 的高效压缩技术可以用于智能家居设备中的图像传感器,例如智能摄像头或智能门锁。通过优化图像数据的传输和存储,可以在不降低图像质量的情况下,减少存储空间占用和网络带宽消耗。
    • 家庭娱乐系统中的图像优化:在家庭影院或智能电视中,FlexTok 的超分辨率重建能力可以用于提升低分辨率视频的画质,在大屏幕上也能保持清晰的视觉效果。
    • 智能安防监控:对于家庭安防摄像头,FlexTok 的技术可以实现更高效的图像压缩和存储,同时通过超分辨率技术提升监控画面的清晰度,帮助用户更准确地识别画面中的细节。
    • 移动设备中的图像管理:在智能手机或平板电脑中,FlexTok 可以帮助用户更高效地存储和管理大量照片,同时通过无损超分辨率技术提升照片的显示质量。
  • 妙写 – AI论文排版与管理工具,一键生成标准论文格式

    妙写是什么

    妙写是智能论文排版与管理工具,专注于帮助用户高效完成论文写作和格式调整。通过一键生成标准论文格式、在线编辑、查重纠错等功能,提升了论文写作的效率和规范性。妙写支持多种论文模板,用户可以根据学校要求选择合适的模板,在在线编辑环境中插入公式、图片、表格等元素,编辑完成后系统会自动完成格式排版,确保论文符合学术规范。妙写提供英语语法纠错和润色功能,帮助用户优化语言表达,提升论文质量。

    妙写

    妙写的主要功能

    • 一键生成标准论文格式:提供多种论文模板,支持一键调整格式,确保论文符合学术规范和学校要求。
    • 智能排版:支持在线编辑,自动完成标题、正文、图表、公式、参考文献等格式排版,节省手动调整时间。
    • 查重功能:集成在线查重系统,帮助用户检测论文重复率,降低抄袭风险。
    • 英语纠错与润色:自动检测英语语法、拼写错误,提供润色建议,提升论文语言质量。
    • 团队与院校管理:支持教师在线布置作业、批改论文、反馈意见,方便论文管理与教学互动。
    • 可视化数据分析:实时展示论文进度,支持数据报表导出,便于教师和管理者进行高效管理。
    • 多平台适配:支持网页端和移动端操作,方便用户随时随地编辑和管理论文。

    如何使用妙写

    • 注册与登录:访问妙写官方网站,注册登录或院校登录。
    • 选择模板:根据所在学校和论文类型(如本科、硕士、博士论文等),选择对应的论文模板。妙写支持上千所高校的论文格式模板,确保格式符合学校要求。
    • 在线编辑:在线编辑论文内容,支持插入公式、图片、表格、附录等元素。编辑过程中,系统会自动保存内容,并生成历史版本,方便恢复。
    • 一键排版与导出:编辑完成后,点击“排版导出”,选择PDF或Word格式,系统将自动完成格式排版并生成标准格式的论文文件。
    • 查重与纠错:使用查重功能检测论文重复率,系统会将论文与海量网页数据对比,提供精确的查重报告。

    妙写的应用场景

    • 学术论文写作:帮助学术人员和学生快速完成格式调整和排版,提升写作效率。
    • 研究生和本科生论文提交:确保论文格式符合学校要求。
    • 英语论文编辑和校对:支持英语论文的自动纠错和语言优化。
    • 教师论文管理:方便教师对学生论文进行批改和反馈。
  • PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型

    PaliGemma 2 mix是什么

    PaliGemma 2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型(VLM)。集成了多种视觉和语言处理能力,支持图像描述、目标检测、图像分割、OCR以及文档理解等任务,能在单一模型中灵活切换不同功能。模型提供三种不同参数规模(3B、10B、28B),满足不同场景的需求,同时支持224px和448px两种分辨率,兼顾性能与资源平衡。PaliGemma 2 Mix基于开源框架(如Hugging Face Transformers、Keras、PyTorch等)开发,易于使用和扩展,开发者可通过简单提示切换任务,无需额外加载模型。

    PaliGemma 2 Mix

    PaliGemma 2 mix的主要功能

    • 图像描述:生成准确且详细的图像描述,支持短文本和长文本描述。
    • 光学字符识别(OCR):识别图像中的文字内容,适用于文档数字化、历史文献存档和自动数据提取。
    • 目标检测与图像分割:能检测并定位图像中的物体,进行精确的语义分割。
    • 视觉问答(VQA):用户可以通过上传图片并提出问题,模型会分析图片并给出答案。
    • 文档理解:理解和分析文档图像内容,支持图表和图解分析。
    • 科学问题解答:能理解和回答复杂的科学问题。
    • 文本相关任务:包括文本检测、表格结构识别、分子结构识别等。

    PaliGemma 2 mix的技术原理

    • 模型架构:PaliGemma 2 Mix 由三个核心组件构成:
      • SigLIP 图像编码器:使用 SigLIP-So400m 作为图像编码器,通过对比预训练的方式将图像转换为一系列 token。编码器支持多种输入分辨率(如 224px²、448px² 和 896px²),分别生成 256、1024 和 4096 个 token。
      • Gemma-2B 语言模型:作为解码器,负责处理文本输入和生成输出。通过 SentencePiece 分词器将文本转换为 token,与图像 token 结合。
      • 线性投影层:将 SigLIP 输出的图像 token 投影到与 Gemma-2B 词汇 token 相同的维度,两者能有效融合。
    • 训练策略:PaliGemma 2 Mix 的训练分为三个阶段:
      • 阶段 1:基础多模态任务训练:将预训练的 SigLIP 和 Gemma-2B 结合,在包含 10 亿样本的多模态任务混合数据集上进行联合训练。目标是提升模型在多种任务中的迁移能力,训练分辨率为 224px²。
      • 阶段 2:逐步提高分辨率的训练:在 448px² 和 896px² 的分辨率下分别训练 5000 万和 1000 万样本。增加了高分辨率任务的权重,延长了输出序列长度,以支持复杂任务(如长文本 OCR)。
      • 阶段 3:微调到具体任务:对阶段 1 或阶段 2 的检查点进行微调,适应特定任务,如视觉问答(VQA)、文档理解、长篇描述生成等。
    • 多模态融合:PaliGemma 2 Mix 通过将图像 token 和文本 token 结合,输入到语言模型中进行自回归生成。图像 token 可以“前瞻”任务提示(前缀),更新表示,适应当前任务。

    PaliGemma 2 mix的项目地址

    PaliGemma 2 mix的应用场景

    • 文档理解:可以理解图表、图解等文档内容,支持复杂的文档分析任务。
    • 科学问题解答:PaliGemma 2 Mix 能理解和回答复杂的科学问题,适用于教育和科研领域。
    • 电商与内容生成:模型可以为商品图片自动生成描述,提升电商平台的产品列表吸引力。
    • 文本相关任务:包括文本检测、表格结构识别、分子结构识别、乐谱识别等,广泛应用于文档处理和科学研究。
  • Bito – AI编程助手,提供代码审查、聊天和自动补全功能

    Bito是什么

    Bito 是面向开发团队的AI编程助手,基于 AI 技术提升代码质量和开发效率,Bito支持 GPT-4o 和 Claude Sonnet 3.5 等先进 AI 模型,提供按需的代码审查、聊天和自动补全功能。Bito支持在 IDE 和 Git 工作流(如 GitHub、GitLab、Bitbucket)中使用。Bito 深入理解代码库,能提供精确的建议、最佳实践和安全检查,帮助初级工程师快速成长,减少代码审查中的问题。

    Bito

    Bito的主要功能

    • AI 代码审查:在代码提交前提供即时反馈,帮助发现潜在问题并优化代码质量。
    • 代码自动补全与建议:基于上下文提供高质量的代码建议,提升开发效率。
    • 交互式 AI 聊天:理解、记忆聊天上下文,回答技术问题并提供相关建议。
    • 代码模板功能:提供多种预设模板(如代码解释、生成注释、性能检查、安全检查等),支持自定义模板。
    • 多语言支持:支持 50+ 编程语言和 25+ 自然语言,适应不同开发需求。
    • 集成与兼容性:无缝集成到开发环境(如 IDE)和 Git 工作流(GitHub、GitLab、Bitbucket)。

    Bito的官网地址

    Bito的产品定价

    • 免费计划:Git中AI驱动的PR摘要,基础AI模型,每天75次AI聊天请求,每月300次AI代码补全,在命令行界面中编程的AI,支持25+种口语和50+种编程语言。
    • 10X开发者计划:每席位每月 $15,包含免费计划的所有功能,AI代码审查代理,在GitHub和GitLab PR中带有行级建议的AI摘要,深入的个人和团队代码审查分析,高级AI模型,如DeepSeek-V3、o3-mini、GPT-4o,无限的AI聊天和AI代码补全请求,每月600次高级AI请求(每增加一次请求$0.03)。
    • 团队计划:定制定价,包含10X开发者计划的所有功能,本地AI代码审查代理,集成到CI/CD管道中的AI代码审查代理,拉取请求的自定义规则,专属客户和技术支持

    Bito的应用场景

    • 代码开发:提供实时代码建议和自动补全,提升开发效率。
    • 代码审查:提前发现潜在问题,优化代码质量。
    • 技术指导:通过聊天功能解答技术问题,提供学习资源。
    • 团队协作:在 Git 工作流中共享审查结果,促进知识共享。
    • 新员工培训:帮助初级工程师快速适应团队规范,提升能力。
  • HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型

    HealthGPT是什么

    HealthGPT 是浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进的医学视觉语言模型(Med-LVLM),通过异构知识适应技术实现医学视觉理解和生成任务的统一框架。采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的“插件”中,避免任务间的冲突。HealthGPT 提供两种版本:HealthGPT-M3(38亿参数)和 HealthGPT-L14(140亿参数),分别基于 Phi-3-mini 和 Phi-4 预训练语言模型。模型引入了分层视觉感知(HVP)和三阶段学习策略(TLS),优化视觉特征的学习和任务适应能力。

    HealthGPT

    HealthGPT的主要功能

    • 医学图像分析与诊断辅助:HealthGPT 能处理多种医学图像(如X光、CT、MRI等),帮助医生解读影像结果,提供诊断建议。
    • 视觉问答:模型可以基于医学图像回答相关问题,例如解释图像中的异常情况或病变位置。
    • 医学文本理解与生成:HealthGPT 能处理和生成医学文本,例如病历总结、诊断报告等,帮助医生快速整理和记录患者信息。
    • 多模态融合:通过将视觉信息与文本信息相结合,HealthGPT 可以更全面地理解复杂的医疗场景,提供更准确的诊断和治疗建议。
    • 个性化治疗方案建议:根据患者的病史和医学图像,HealthGPT 可以生成个性化的治疗方案,辅助医生进行临床决策。

    HealthGPT的技术原理

    • 异构低秩适应(H-LoRA):HealthGPT 引入了异构低秩适应技术,将视觉理解和生成任务的学习过程分离,避免了任务间的冲突。通过引入低秩矩阵来更新权重,H-LoRA 在保持模型表达能力的同时,显著减少了需要训练的参数量。
    • 分层视觉感知(HVP):技术将视觉细节学习从视觉变换器(ViT)中分离,分别处理视觉理解和生成任务对视觉粒度的不同需求。使模型能更高效地处理复杂的医学图像数据。
    • 三阶段学习策略(TLS):HealthGPT 采用三阶段学习策略逐步训练 H-LoRA 插件,模型能快速适应多种下游医疗任务。在数据受限的情况下表现出色,能在多个指标上达到或超过现有最先进模型的性能。

    HealthGPT的项目地址

    HealthGPT的应用场景

    • 医学图像生成:HealthGPT 可以生成高质量的医学图像,例如用于超分辨率任务或图像重建,辅助医疗诊断和研究。
    • 医学教育与研究:HealthGPT 可用于医学教育,帮助学生更好地理解医学图像和诊断过程。为医学研究提供了强大的工具,支持多模态数据的分析和处理。
    • 智能健康助手:HealthGPT 可以作为智能健康助手,帮助用户查询健康数据,提供日常健康管理建议。
  • 2PR – AI驱动的LinkedIn内容创作工具

    2PR是什么

    2PR是AI驱动的LinkedIn内容创作工具,能帮助用户快速生成高质量的帖子。2PR基于AI技术,结合热门帖子的灵感和用户个人资料,生成个性化、真实且吸引人的内容。用户基于音频访谈或总结外部内容的方式,将原始想法转化为优质帖子,整个过程仅需1分钟。2PR专注于LinkedIn平台,深度优化内容适应算法,同时保持用户独特的语言风格。2PR支持博主、求职者、B2B销售专家和创始人等不同角色,助力个人品牌建设。

    2PR

    2PR的主要功能

    • 快速内容创作:基于AI技术,将内容创作时间从20-30分钟缩短至1分钟,快速生成高质量的LinkedIn帖子。
    • 个性化内容生成:根据用户的LinkedIn资料、领域、语气和目标,生成贴合用户风格的个性化帖子。
    • AI驱动的音频访谈:用户基于回答AI引导的问题或录制音频,将想法转化为吸引人的文字内容。
    • 外部内容总结:一键总结YouTube视频、文章或其他外部内容,提取关键信息并转化为可分享的帖子。
    • 热门帖子灵感库:提供热门LinkedIn帖子的灵感,帮助用户找到适合自己的创作方向。

    2PR的官网地址

    2PR的产品定价

    • 年订阅:每月$16.6,按年计费。
    • 月订阅:每月$29。
    • 会员权益:从数百万篇病毒式传播的帖子数据库中获取定制化的想法;在1分钟内创建真实、吸引人的帖子;帖子看起来和感觉上像是由人类撰写的,没有AI标记;一次性提供3种不同的帖子变体;使用OpenAI和Anthropic模型。

    2PR的应用场景

    • 博主:分享专业知识,吸引新关注者,保持内容更新频率,提升个人品牌影响力。
    • 求职者:展示技能和成就,吸引招聘人员和招聘经理的注意,增加求职机会。
    • B2B销售专家:建立信任,突出产品价值,有效培养潜在客户,促进业务合作。
    • 创始人:分享创业故事、产品动态或行业见解,吸引潜在投资者和扩大人脉网络。
    • 内容创作者:快速生成高质量的LinkedIn帖子,节省创作时间,提升内容创作效率。
  • UI2Code – AI编程工具,将设计图像转换为多种编程语言的代码

    UI2Code是什么

    UI2Code是基于先进 AI 技术的在线工具,能将 UI 设计图像快速转换为多种编程语言的代码。基于机器视觉和深度学习技术,自动识别设计中的元素,生成整洁、高效的前端代码。工具支持多种流行的框架和语言,包括 HTML、CSS、JavaScript、React、Vue、Angular、Flutter 和 Swift。

    UI2Code

    UI2Code的主要功能

    • 即时转换:将设计截图或 Figma 文件快速转换为生产级代码。
    • 多框架支持:适应不同项目需求,支持多种前端框架。
    • 节省时间:减少手动编码工作量,提高开发效率。
    • 智能处理复杂布局:确保代码质量和设计一致性。

    如何适用UI2Code

    • 访问平台:访问 UI2Code 官方网站,注册登录。
    • 上传图像:上传设计图像(支持 JPG、PNG 格式)。
    • 选择编程语言:选择目标编程语言或框架。
    • 生成代码:点击生成代码,AI 自动完成转换。
    • 调整使用:下载生成的代码并进行必要调整。

    UI2Code的应用场景

    • 设计师的快速原型设计:设计师可以快速将 UI 概念转化为交互式原型。快速分享原型,收集反馈并进行迭代。
    • 开发者简化前端开发:开发者可以跳过繁琐的手动编码过程,专注于构建复杂功能和应用程序逻辑。自动将设计规范转换为前端代码。
    • 团队的高效跨平台开发:对于需要跨多个平台(如 React、Flutter、SwiftUI 等)开发的团队,UI2Code能从单个 UI 设计生成不同框架的代码。
    • 移动应用开发:在移动应用开发中,UI2Code能快速生成 Flutter、Swift 或 Kotlin 等语言的代码,帮助团队快速构建用户界面。
    • 教育领域的编程教学:UI2Code可用于教育领域,帮助初学者直观理解界面与代码之间的对应关系,降低学习门槛。
  • KnowS – 专注于医学领域的生成式 AI 搜索引擎

    KnowS是什么

    KnowS 是专注于医学领域的生成式 AI 搜索引擎,为临床工作者、科研人员和医学学生提供高效、精准的医学知识支持。通过结合医学知识图谱和大语言模型技术,确保医学信息的精确性和可靠性。核心功能包括提问式搜索、AI 精读、AI 总结、文献精筛和专题报告生成等,能快速提供关键文献、临床建议、学术综述和双语报告。

    KnowS

    KnowS的主要功能

    • 提问式搜索:支持中文提问,快速在全球范围内搜索医学文献,在1分钟内提供关键文献及 AI 摘要。
    • AI 精读:30秒内完成跨语言文献全文精读,生成 Word 或 PPT 格式的报告。
    • AI 总结:1分钟内撰写实用的临床建议、全面的学术综述或简明的科普内容。
    • AI 精筛:一站式文献精筛与分析,支持个性化分析任务,自动匹配文献的最新影响因子(IF)。
    • 文献对话:智能定位文献关键段落,支持多轮对话提炼核心洞见,每句答案均标注出处。
    • 专题报告生成:快速获取最新医学指南、会议论文和研究成果,自动生成科研大纲和学术报告,支持中/英双语。
    • 智能诊断辅助:结合医学知识图谱和大语言模型,KnowS可以辅助医生进行精准诊断,提供可解释的诊断路径。
    • 医学内容创作与编辑:支持医学软文写作、病例报告撰写、学术问答等功能,帮助医学编辑和研究人员高效完成内容创作。
    • 具备行业优势
      • 更懂医学:基于千万医学数据训练,精准掌握医学术语和知识体系。
      • 更懂循证:实时更新权威学术库,提供前沿医学证据。
      • 更懂医生:一键生成场景化解答,无缝融入日常临床和科研工作。

    KnowS的官网地址

    KnowS的应用场景

    • 医学编辑与研究:KnowS被广泛应用于医学编辑工作,帮助用户快速找到权威文献,支持医学内容创作和学术报告撰写。
    • 临床诊断辅助:在临床场景中,KnowS通过分析病历和症状,结合知识图谱提供诊断建议,辅助医生进行更精准的诊断。
    • 医学教育与培训:提供详细的诊断推理过程和医学知识总结,有助于医学教育和培训中的案例分析。
  • AI Agents for Beginners – 微软推出面向初学者的AI Agent免费课程

    AI Agents for Beginners是什么

    《AI Agents for Beginners》是微软推出的一门面向初学者的免费课程,帮助学习者从零开始构建和理解人工智能代理(AI Agents)。课程共包含10节课,内容涵盖AI代理的基础概念、设计模式、工具使用以及多智能体系统等。每节课都配备了详细的书面教程、Python代码示例和额外的学习资源链接,方便学习者实践和巩固知识。通过这门课程,学习者可以快速掌握AI代理的核心技能,了解如何将这些技术应用于实际场景,适合对AI感兴趣但缺乏经验的初学者。

    AI Agents for Beginners

    AI Agents for Beginners的课程概述

    • 课程内容:包含 10 节课,涵盖构建 AI 智能体的基础知识,包括 AI 智能体的概念、框架、设计模式、工具使用以及多智能体系统等。
    • 课程结构:每节课都包含书面教程、Python 代码示例,以及额外的学习资源链接。
    • 多语言支持:课程内容已翻译成多种语言,包括简体中文、繁体中文、法语、日语、韩语、葡萄牙语、西班牙语和德语。

    AI Agents for Beginners的课程大纲

    • AI Agents Introduction and Use Cases
      介绍AI Agents的基本概念、定义以及在不同领域的实际应用场景,帮助初学者理解其重要性和价值。
    • Exploring AI Frameworks
      深入了解构建AI Agents时常用的框架和工具,包括它们的功能、优势及如何选择适合的框架。
    • Understanding Design Patterns
      解释AI Agents的设计模式,包括单体、微服务和无服务器架构,帮助学习者理解不同模式的适用场景。
    • Tool Usage Design Pattern
      介绍如何通过工具使用设计模式,让AI Agents能够调用外部工具和API,扩展其功能。
    • Multi-Agent Design Pattern
      探讨多智能体系统的设计模式,学习如何构建多个AI Agents协同工作的复杂系统。
    • AI Agents in Production
      讲解如何将AI Agents部署到生产环境中,包括性能优化、监控和维护等关键步骤。
    • Building AI Agents with Semantic Kernel
      通过Semantic Kernel框架,学习如何快速构建具有自然语言处理能力的AI Agents。
    • Building AI Agents with AutoGen
      使用AutoGen框架,探索如何自动化生成和优化AI Agents的代码和逻辑。
    • Advanced Topics and Best Practices
      涉及AI Agents开发中的高级主题和最佳实践,帮助学习者提升技能并避免常见问题。
    • Project and Hands-on Practice
      通过实际项目练习,将所学知识应用于构建完整的AI Agents,巩固学习成果。

    如何学习AI Agents for Beginners课程

    • GitHub 仓库:访问 AI Agents for Beginners GitHub 仓库获取课程内容。
    • 实践操作:通过 Fork 仓库运行代码示例,开始动手实践。

    AI Agents for Beginners的学习资源

    • 代码示例:课程提供了使用 Azure AI Foundry 和 GitHub Models 的代码示例,方便学习者运行和实践。
    • 框架与服务:课程使用了微软的 AI Agent 框架和工具,如 Semantic KernelAutoGen
    • 社区支持:学习者可以加入 Azure AI 社区 Discord,与其他学习者和开发者交流,获取帮助。
    • 视频教程:课程计划于 2025 年 3 月推出配套视频,进一步提升学习体验。

    AI Agents for Beginners的适用人群

    • 零基础的学习者:如果你对人工智能感兴趣,但从未接触过AI Agents或相关技术,这门课程将是一个理想的起点。从基础概念讲起,逐步引导你进入AI Agents的世界。
    • 编程新手:课程提供了详细的Python代码示例和逐步指导,适合有一定编程基础(如Python)但缺乏AI开发经验的学习者。即使没有深厚的编程功底,也能通过实践逐步掌握技能。
    • 技术爱好者:如果你对AI技术感兴趣,希望通过实际项目体验AI Agents的开发过程,这门课程将帮助你快速上手。
    • 学生和研究人员:对于计算机科学、人工智能或相关领域的学生和研究人员,这门课程可以作为学习AI Agents的入门课程,帮助你了解基础知识并为后续的深入研究打下基础。
    • 开发者和工程师:如果你是一名开发者,希望将AI技术应用于实际项目,但缺乏AI Agents的开发经验,这门课程将帮助你快速掌握相关技能,了解如何将AI Agents集成到你的项目中。
    • 非技术背景的从业者:对于希望了解AI Agents在业务中应用的非技术背景从业者,课程中的实际案例和设计模式可以帮助你理解AI Agents的潜力和应用场景。
  • Muse – 微软研究院推出的生成式AI模型

    Muse是什么

    Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏视觉效果和控制器操作,基于学习人类玩家的游戏数据(如图像和操作指令)模拟真实的游戏玩法序列。核心能力包括生成连贯一致的游戏画面、展现多样化的游戏路径以及将用户修改融入生成内容中。Muse基于WHAM Demonstrator提供交互界面,支持创意探索和迭代。微软已开源Muse的权重和样本数据,推动游戏创意生成的研究和创新,为未来的AI驱动游戏开发提供支持。

    WHAM

    Muse的主要功能

    • 生成连贯的游戏视觉和玩法:根据初始的游戏画面和控制器操作,生成长达数分钟的连贯游戏玩法序列,模拟真实的游戏动态。
    • 支持多样化的游戏路径:在相同的初始提示下,生成多种不同的游戏玩法和视觉效果,展现丰富的行为和视觉多样性。
    • 持久化用户修改:将用户对游戏画面的修改(如添加角色)融入生成的内容中,生成合理的后续玩法。
    • 创意迭代支持:基于WHAM Demonstrator界面,用户能加载初始画面、调整生成内容,并基于控制器操作引导角色,实现创意的快速迭代。

    Muse的技术原理

    • VQ-GAN:用在将游戏视觉(如游戏画面)编码为离散的表示形式。VQ-GAN基于量化的方式将图像转换为离散的标记(tokens),便于模型处理。
    • Transformer架构:作为模型的主干网络,用于预测下一步的标记。Transformer能处理离散的视觉和操作序列,捕捉它们之间的复杂关系。
    • 自回归生成:模型基于给定的初始提示(如初始游戏画面或控制器操作),逐步生成后续的视觉和操作序列。每一步的输出都依赖于前面的上下文,确保生成的序列具有连贯性和一致性。
    • 训练数据:Muse基于《Bleeding Edge》游戏的玩家操作和视觉数据进行训练。数据包括玩家的控制器操作和对应的游戏画面,模型基于学习这些数据生成新的游戏序列。

    Muse的项目地址

    Muse的应用场景

    • 游戏创意探索:快速生成游戏玩法和关卡设计,帮助开发者验证新创意。
    • 自动化游戏测试:生成多样化的测试序列,检测游戏漏洞和优化体验。
    • 内容生成:自动生成新的关卡、地图或角色动作,丰富游戏内容。
    • 玩家行为预测:模拟玩家操作,分析行为模式,优化游戏设计。
    • AI驱动体验:开发动态剧情和AI对手,提升游戏的个性化和沉浸感。