Skip to main content

Author: Chimy

MeWM – AI医学世界模型,精准模拟肿瘤演化

MeWM是什么

MeWM(Medical World Model)是创新的医学模型,由香港科技大学(广州)等机构提出,通过模拟疾病动态来辅助临床决策。由策略模型、动态模型和逆向动态模型组成。策略模型基于视觉-语言模型,根据患者状态生成潜在治疗方案;动态模型模拟疾病在不同治疗条件下的进展或消退;逆向动态模型则对模拟结果进行生存风险评估,优化治疗方案。MeWM以医学影像为输入,通过感知模块构建初始病情状态,动态模型预测未来的疾病状态,逆向动态模型评估治疗效果,策略模型生成最佳治疗方案,形成闭环反馈优化干预路径。

Medical World Model

MeWM的主要功能

  • 肿瘤演变模拟:MeWM能使用3D扩散模型模拟不同治疗方案下的肿瘤形态演变,生成逼真的术后肿瘤图像,帮助医生在术前直观地评估治疗效果。
  • 生存风险评估:通过生存分析模型,MeWM可以预测不同治疗方案下患者的预后生存风险,基于逆动力学推理出最优治疗方案。评估结果在准确性上大幅超越传统多模态大模型。
  • 临床决策优化:MeWM构建了一个从“方案生成-模拟推演-生存评估”的自动化、可视化优化循环,支持癌症介入治疗规划。能显著提升介入医生的临床决策能力,例如在肝癌动脉化疗栓塞(TACE)治疗方案选择中,将F1分数提高了13%。

MeWM的技术原理

  • 技术架构:MeWM由以下三个核心组件构成:
    • 策略模型(Policy Model):基于视觉-语言模型(如GPT-4o),从CT影像和治疗目标中生成满足临床规则的候选治疗方案组合,覆盖多种治疗药物和栓塞材料搭配。
    • 动态模型(Dynamics Model):利用3D条件扩散模型,根据不同的治疗方案模拟术后肿瘤的形态变化,生成逼真的术后肿瘤图像。
    • 逆向动态模型(Inverse Dynamics Model):对模拟生成的术后肿瘤图像进行生存风险评估,通过启发式函数计算风险值,并动态优化治疗方案,最终选择风险最低的方案作为推荐。
  • 工作流程
    • 输入与感知:以医学影像为输入,通过感知模块生成初始病情状态。
    • 模拟与评估:动态模型根据不同的治疗方案模拟术后肿瘤的形态变化,逆向动态模型对模拟结果进行生存风险评估。
    • 优化与反馈:基于评估结果,策略模型生成新的治疗方案,形成闭环反馈,不断优化干预路径。
  • 创新点
    • 生成模型:MeWM创新性地将“治疗行为”作为条件输入生成模型,模拟不同治疗方案下的肿瘤演化。
    • 对比学习:通过组合对比学习(CCL),增强生成结果的真实性和治疗敏感性。
    • 临床决策支持:在肝癌动脉化疗栓塞(TACE)治疗方案选择中,MeWM显著提升了介入医师的决策准确性,将F1分数提高了13%。

MeWM的项目地址

  • 项目官网:https://yijun-yang.github.io/MeWM/
  • Github仓库:https://github.com/scott-yjyang/MeWM
  • arXiv技术论文:https://arxiv.org/pdf/2506.02327

MeWM的应用场景

  • 术前规划与方案优化:MeWM可以为医生提供术前规划的智能助手功能。通过生成术后肿瘤图像和评估生存风险,MeWM能帮助医生优化治疗方案,选择最适合患者的药物和栓塞材料组合。
  • 作为“第二阅片医师”:MeWM有望作为“第二阅片医师”融入临床实践。能基于生成的术后CT进行生存分析评分,形成完整的“治疗模拟—效果评估—方案筛选”闭环机制,辅助医生在术前更有效地预判治疗结果。
  • 个性化治疗支持:MeWM支持个体化、数据驱动的治疗决策。可以根据患者的术前影像和治疗目标,生成多种治疗方案,通过模拟和评估选择最优方案,为精准医疗提供了有力支持。

Office-PowerPoint-MCP-Server – 基于MCP的开源PPT生成与编辑工具

Office-PowerPoint-MCP-Server是什么

Office-PowerPoint-MCP-Server 是基于 Model Context Protocol(MCP)的开源工具,专门用在演示文稿的自动化创建和编辑。工具基于 python-pptx 库实现对 PowerPoint 文件的精细操作,支持从零开始创建新演示文稿或对现有文件进行修改。用户用自然语言指令或代码调用,支持轻松添加幻灯片、填充文本、插入图片、表格和图表等元素。支持与 AI 助手(如 Claude)无缝对接,降低使用门槛,提升工作效率。Office-PowerPoint-MCP-Server适用企业报告生成、数据分析展示、定制化演示文稿等多种场景,开源特性支持开发者根据需求进行定制,进一步扩展功能。

Office-PowerPoint-MCP-Server

Office-PowerPoint-MCP-Server的主要功能

  • 完整处理Open XML演示文稿:支持对任何Open XML演示文稿(.pptx文件)及所有元素进行完整处理,包括读取、修改和保存。
  • 幻灯片操作:支持添加幻灯片、删除幻灯片、获取幻灯片信息。
  • 文本处理:填充文本占位符,例如创建带项目符号的幻灯片。添加文本框到幻灯片,调整文本字体大小和加粗。
  • 图像处理:在幻灯片中任意位置和大小添加图片。
  • 表格处理:在幻灯片中添加表格。
  • 形状处理:在幻灯片中添加自动形状(例如多边形、流程图形状等)。
  • 图表处理:在幻灯片中添加并操作柱状图、条形图、折线图和饼图。
  • 文档属性管理:支持访问和更改核心文档属性,例如标题和主题。

Office-PowerPoint-MCP-Server的技术原理

  • python-pptx 库:支持基于 python-pptx 库解析和操作 PowerPoint 文件(.pptx 格式)。基于 python-pptx 库生成新的 PowerPoint 文件或修改现有文件,保存为标准的 .pptx 格式。
  • MCP(Model Context Protocol):基于 MCP 协议与 AI 模型或其他工具进行交互。用户用自然语言指令或代码调用,将操作指令发送到服务器,服务器解析指令执行相应的操作。服务器接收到指令后,解析指令内容并调用 python-pptx 库中的相应方法,完成对 PowerPoint 文件的操作。
  • 自动化和集成:提供编程接口,支持用户基于代码批量生成和修改 PowerPoint 文件,特别适合自动化生产周期性报告。支持与 AI 助手(如 Claude)无缝对接,用户用自然语言指令完成复杂操作,降低使用门槛,提高工作效率。

Office-PowerPoint-MCP-Server项目地址

  • GitHub仓库:https://github.com/GongRzhe/Office-PowerPoint-MCP-Server

Office-PowerPoint-MCP-Server的应用场景

  • 企业报告自动化:自动生成月度、季度报告,填充数据、生成图表,节省时间,确保准确性和及时性。
  • 市场营销与品牌推广:快速创建品牌风格的演示文稿,灵活调整内容和设计,提升营销效果和品牌影响力。
  • 教育培训领域:生成标准化教学课件,灵活调整内容,提高教学质量和效率,提升在线学习体验。
  • 项目管理与团队协作:快速生成项目进度汇报和会议资料,促进团队沟通和协作,提高会议效率。
  • 个人学习与知识分享:整理学习笔记,制作知识分享和演讲演示文稿,提升学习效果和演讲吸引力。

Hailuo 02视频生成效果怎么样?实测超越可灵2.0、Veo 3

这周一,MiniMax深夜低调官宣开启MiniMax Week,没想到每天都是王炸!

第一天,他们开源了推理模型MiniMax-M1

支持全球最长上下文窗口,包括100万tokens输入、8万tokens输出。在开源模型 Open-weight Models基准测试中,MiniMax-M1多个性能指标超越 DeepSeek!

第二天,Hailuo 02视频模型上线

刷新 AA Video Arena(全球视频模型竞技场)排行榜,图生视频碾压谷歌Veo 3、快手可灵2.0。

再看官方放出的这段 “耍飞刀钻火圈、空中吊环、高空走钢丝” 的超难杂技视频:

这个光影,现实和AI谁还分得清?

 

01. Hailuo 02的突破性优势

 

在AI视频领域,效率、成本与质量就像是横亘在开发者与创作者面前的 “三座大山”。

以往做AI视频,不是氪点就能解决的问题,一个短片做下来,我都心疼我的钱包…

而这次MiniMax 更新完之后,绝对是朝着破解这些难题的方向,迈出了关键一步。

1. 成本和效率

Hailuo 02在性能大幅提升的同时,训练成本几乎没有增加,是第一梯队中最低的价格。

还有就是,不需要魔法这一点就已经是很大的效率提升和成本缩减了。

2.性能

MiniMax 全新设计的 DiT 架构,训练和推理效率各提升2.5倍,不用再一等就是好几个小时。

模型参数量暴增 3 倍,数据量提升4倍,更是彻底突破传统视频模型的性能天花板。

3. 指令理解

无论是镜头切换、光影变化,还是角色动作,Hailuo 02都能精准还原。

就算是各种复杂的指令,它的响应率也非常优秀。

总得来说,Hailuo 02就是又快、又便宜、又好用…

不过不管数据如何好看,我们还是要看看具体的使用效果怎么样,一起来实测一波。

 

02. 实测案例

 

我们打开MiniMax的视频功能,选择Hailuo 02模型。

最新升级的Hailuo 02模型最低分辨率由原来的720p提高到了768p,6秒的视频消耗25积分,价格和Hailuo 01一样。

重点是支持生成6秒1080p高清视频了,单次消耗80积分,性价比非常高。

先看看768p的效果:

case 1:现实场景复原-人物

提示词:女孩起跳,完美的完成跳水转体一周的动作,丝滑入水,水面只溅起微小一圈水花[跟随,下移]

女孩跳台跳水的现场~提示词比较简单,但是出来的效果还挺不错,各种动作都没有大幅度的变形。

虽然逐帧看,运动员身体会有一些瑕疵,但整体看还是比较流畅的。

case 2:虚拟场景

提示词:小猫举着镜头惊恐的奔跑,棕熊在身后追赶,咆哮。[跟随]

神态和表情的呈现非常不错,我居然能从一只小猫的脸上读懂它在想什么,谁能救救小猫啊啊…

case 3:虚拟主体+特效

提示词:巨龙咆哮嘶吼,激起巨大的水雾,突然巨龙猛冲过来,一口吃掉女孩,石头也在它的攻击下炸裂沉没[左移,上升]

环境:强风吹动所有轻质物体

动态:头发和衣物剧烈飘动

背景:远处天空有变化的云层和闪电

光线:变化迅速

元素:可见雨点和水雾

这里借助了一下工具里的预设词库,增强了环境、背景和画面的一些元素,氛围确实更像那么回事了。

官方还提供了很多参考,比如整体风格、镜头路径、光线效果、画面色调。

我们也可以自定义预设效果,做一些连环镜头,需要人物/场景/风格一致的时候,会非常方便。

再试试升级版1080p高清效果:

case 4:人物情绪表达

提示词:女孩强装镇定的微笑,逃避镜头一般向远处左右观望,又看向镜头,再也忍不住,低头委屈哭泣,微表情变化,影后级表演,专业镜头[固定镜头]

下撇的嘴角,微皱的眉头,Hailuo 02对微表情的把控很厉害,短短6秒钟的镜头,就挺有故事感。

连我设定的情绪转折都能很好地展现,它不仅是读懂了提示词,而是读懂了我脑子里的画面!

这情绪掌控力,已经秒杀不少演员了吧?想看大佬拿它做短剧了!

case 5:现实场景复原-动物

提示词:小松鼠直起上半身,脑袋左右张望,突然,它扔下坚果,敏捷地往上跑出屏幕[固定镜头]

松鼠的毛发看起来还是很逼真的,动作形态也跟真的松鼠无二了,提示词里一系列复杂的动作,它都完成的不错。

从松果的掉落路径来看,物理规律的遵循也做得很好。

case 6:穿越机效果

提示词:穿越机视角,俯冲低空飞行,极速穿越山洞,之后急转弯,腾空飞起。

最初的画面,可以看到山洞后有薄薄的雾气,穿过山洞之后,立马就体验到了置身云雾中的感觉。

Hailuo 02对环境的理解太顶级了!

它还给自己设计了加速和减速的过程,还挺自然的,整体的画面变化非常连贯。

case 7:特效

提示词:[固定镜头]火麒麟从天而降,以爆炸力坠落在破碎的街道上,四角触地,火焰在它身体周边蔓延,周围飞溅的碎片和火焰四起。摩天大楼坍塌,汽车

最后尝试了一下文生视频的效果,Hailuo 02的语义理解真挺牛,4分钟跑出这个效果,特效师已经看哭了…

 

03. 一些分享

 

几个月前我用Hailuo 01做武打视频教程的时候,对它的评价是:“抽象”。

而现在的Hailuo 02已经是我高攀不起的状态了,生成的效果有时候比我脑海中预想的还好。

只要遵循 “明确主体+细化场景+运动/变化(+镜头运动+美感氛围)” 的指令公式,就能得到理想的效果。

Hailuo 02的价值,不仅是“又快又便宜”。

而是让每个普通人,都能讲好自己的故事。

我相信,未来一定会是“想象力本位”的时代。

原文链接:超越可灵2.0、Veo 3,AI视频模型性价比新王来了!

乐享AI助手 – 腾讯推出的AI知识社区助手

乐享AI助手是什么

乐享AI助手是腾讯乐享平台推出的基于大模型技术的智能工具,为企业提供高效的知识管理与学习支持。能结合企业内部知识库内容,提供精准的智能问答服务,快速解答员工问题,助力知识共享与协作。AI助手支持多模态智能搜索,可精准定位视频、音频等非结构化内容的关键片段,突破传统搜索限制。具备AI辅助创作功能,能帮助撰写大纲、润色文案、生成会议纪要等,提升工作效率。在培训与考试方面,AI助手可根据课程内容自动生成考题,实时解答学员疑问,助力企业高效开展培训活动。

乐享AI助手

乐享AI助手的主要功能

  • 智能知识问答:AI助手基于企业内部知识库进行对话模型训练,能提供专业且定制化的问答服务,确保每位员工都能享受到实时、准确、高效的在线知识问答体验。
  • 多模态智能搜索:支持对视频、音频等非结构化内容的搜索,通过关键字精确定位到具体片段,突破传统搜索的局限。
  • AI辅助创作:支持撰写大纲、方案续写、会议纪要等功能,可以根据文档内容进行总结、润色、扩写等操作。
  • 智能生成考题:基于课程内容自动生成高质量考题,节省时间和人力成本,确保出题的质量和数量。
  • 智能内容分发:精准解析内容,匹配用户兴趣,实现高效的内容推荐。
  • 智能陪练:支持虚拟人对话对练,还原真实场景,助力学员提升技能水平。
  • 智能考试:支持人脸识别核身,确保考试的安全性和真实性。
  • 文化建设:提供创意运营助手,自动生成节日关怀等运营创意,助力企业文化建设。

如何使用乐享AI助手

  • 访问平台:访问腾讯乐享的官方网站 https://lexiangla.com/home,找到AI助手入口。
  • 智能知识问答:输入问题,AI助手会根据企业知识库内容提供精准答案。
  • 多模态智能搜索:上传或选择搜索需要的文件(如PPT、PDF、Word等)。在全局搜索栏输入关键词,系统会自动定位到相关内容片段。
  • AI辅助创作:在管理后台的对应模块(如课堂、活动等)中选择“AI辅助创作”功能。输入相关主题或内容,AI助手会自动生成或优化文本。
  • 智能生成考题:管理员进入课程管理页面,选择需要生成考题的课程。点击“智能生成考题”,AI助手会根据课程内容生成高质量考题。
  • 音视频素材生成AI文稿:管理员进入素材库管理页面,选择需要生成文稿的素材。点击“生成AI文稿”,选择合适的语言模型,生成后可预览和编辑。
  • 虚拟讲师智能话术对练:管理员进入AI智能陪练模块,创建陪练任务。设计问答话术,发布任务后学员可通过小程序扫码体验。

乐享AI助手的应用场景

  • 知识沉淀与管理:支持多种文件格式的上传和管理,通过多级分类、智能表格等功能系统化整合知识。同时,提供灵活的权限控制,确保知识资产的安全。
  • 数据洞察与分析:通过数据看板实时展示知识的使用情况、应用效果以及员工参与度,帮助企业精准评估知识管理的实际价值。
  • 销售知识赋能:通过AI助手快速检索和提炼销售相关知识,提升销售人员的专业素养和业绩转化。
  • 创意运营助手:自动生成节日关怀等运营创意,助力企业文化建设。
  • 内容推荐与分发:精准解析内容,匹配用户兴趣,实现高效的内容推荐。

如何优化 Prompt 获得更好的回答?一文看懂

引言

自从ChatGPT及类似大语言模型走红以来,AI的便捷性和实用性被大大放大。越来越多的人开始用AI辅助写作、搜索、办公、答疑以及创作新内容。许多初次接触AI的人发现,AI的“聪明”程度强烈依赖于提问方式。同样一台AI,有人能完成高质量的报告、代码或创意,有人却一问三不知、答非所问。本质原因就是:“What you ask is what you get.”——AI的提示(Prompt)决定了回应质量。所谓“Prompt”,就是用户与AI的交流语言、说明指令。Prompt写得好,AI有如神助;Prompt模糊、含糊,得到的回复也会大打折扣。对于初学者掌握“如何优化Prompt”,直接影响用户获得的信息和工作的效率,更是提升个人数字竞争力的关键一环。

什么是Prompt?

Prompt的概念

在AI对话或信息检索领域中,Prompt是“向AI提问的那句话或那段文字”。和人类的对话类似,AI需要通过接收到一系列输入信息判断用户需求及想要怎样的回答。举例而言:

  • 人与人对话
    • 小王:“我头痛,怎么办?”
    • 医生:“你多大年纪?发烧吗?头痛多久了?”
    • 小王:“30岁,偶尔发,没发烧。”
    • 医生:“建议你换下枕头,少熬夜……”
  • 人与AI对话
    • 用户 Prompt:“头痛怎么办?”

AI算法受到Prompt的直接影响,Prompt越清楚完整,AI“理解你”的准头可能越高。

Prompt与AI的机制简介

以ChatGPT等大语言模型为例,AI的本质其实是通过“语言预测”输出回复。举个形象的例子——AI像一个“超级填空王”,能根据历史和上下文“猜测”最合适的下一个词或句子。用户提供的Prompt是AI“推演”的起点,类似一份“考试作文题目”。如果题目清楚、具体,作文就能立得住;题目模糊或模棱两可,就容易跑题。Prompt与传统软件输入有所不同。传统软件有严格的菜单和按钮,AI能用接近自然语言的任意表达。自由度正是AI“聪明”和“易误解”并存的根源。Prompt就是用户与AI之间的“关键桥梁”。

Prompt的基本写法与常见结构

Prompt的表达方式

Prompt的写法十分灵活,能是简单问题,也能是详细、分步骤的“说明书”。常见的Prompt写法有:

  • 简单提问型
    • “什么是黑洞?”
    • 任务/命令型:
    • “请生成一份三天的上海旅游攻略。”
  • 补全型:“世界上最大的哺乳动物是……”
  • 格式约束型:“请用表格列出五个中国历史朝代及其代表人物。”
  • 情境指定型:“假设你是职业律师,请从法律角度分析我的劳动合同。”

Prompt的基本构成要素

一个清晰、优秀的Prompt包括以下元素:

  • 明确的目标或任务:“帮我写份道歉信”比“道歉信”好。
  • 需要的信息或背景说明:“我因为迟到两天发邮件道歉”比“帮我写邮件”更具体。
  • 期望输出的形式:如“列出三点”、“用800字左右”、“用代码注释”。
  • 指定角色或语气:如“请用公司总经理口吻写”。

优化前:“帮我写份道歉信。”

优化后:“我是一名公司员工,因为生病迟到了两天,现在需要给部门经理发一封道歉邮件,请用正式语气帮我写一封内容简洁的道歉信,字数不超过200字。”

 

Prompt写作常见误区

  • 含糊其词:“帮我写作文”——关于什么的?多长?
  • 缺少情景说明:“写个回复邮件”——对谁说?什么事情?
  • 没有指定角色/语气:“给客户写祝福”——正式or随意?
  • 多个需求混杂:“写信、讲道理、再来个笑话”——可分步给出清单。

Prompt优化的底层原理

Prompt如何影响AI回答的质量?

AI模型并非“懂”人类语言,只是在海量文本中“学会”统计规律。每一次输入Prompt,模型自动尝试“脑中”已有知识与经验去推测合适的回应。Prompt是模型认知的线索,越具体、明确,模型“联想”的空间约束就越强,越能对齐用户意图。

Token、上下文与信息完整性

在技术实现上,AI模型处理的不是汉字和词语,是被分割的最小单元(Token)。“人工智能”会被拆为“人工”“智能”,英语“artificial intelligence”要更细。Prompt长度有限,每加一句话会占用“对话上下文”的空间。简明、有效的信息组织结构,让AI能容易“记住重点”。

“指引性”与“场景化”的重要性

为AI指定身份、场景、目标,能减少偏题跑题,提高准确率。例如:“请以小学科学老师的身份,解释‘水的三态变化’的原理,并用小学生能听懂的话说出来。”Prompt指明身份、知识对象、难度层级、例子(小学生话语),AI更能对齐。

常用的Prompt优化方法

明确目标与输出要求

绝大多数AI小白常犯的错误是“语焉不详”。AI不像人类面试官主动追问细节,所以:

  • 目的要清楚:你要什么?文章、代码、摘要、清单……
  • 格式要详实:输出表格、分点罗列、200字以内……
  • 场景要交待:写给谁?什么职业?

示例:“假如你是一位秘书,请根据以下会议内容,整理出3点重要讨论事项,每点不超过30字,用清单格式展示。”

分步骤提问/逐步细化法

复杂任务,AI一下子难以抓住要点,很容易遗漏或回答杂乱。可采取“分步骤问答”或“拆解任务”:

  • 第一步:“请帮我制定一个学习AI的初步计划”
  • 第二步:“根据上述计划,列出每周需完成的关键任务”
  • 第三步:“针对每个任务,建议一个适合完全新手的学习资源”

示范法/例子补充法

在Prompt中写一个或多个期望的输出样例,AI会模仿结构和“对齐”输出风格。

示例:Prompt:“请用如下格式写三条生活小窍门。例如:

  • 牙刷用热水泡软,更容易清洁牙缝。
  • 用旧报纸擦玻璃,不留痕迹。
  • 微波炉加热时在食物上盖纸巾,防溅。”

角色设定法

让AI代入某种身份或视角,有助于获得专业、权威、风格化的回答。

示例:

  • “作为一名心理医生,请用温和的语言对失恋者提出三点安慰建议。”
  • “假设你是知名儿童教育专家,用故事告诉孩子不要随便拿陌生人的东西。”

输出限制与多输出法

要让AI不“啰嗦”或“发挥过度”,直接在Prompt中限定字数、格式,鼓励结构输出。

示例:

  • “请用200字以内为我写一首情诗”
  • “请用表格形式,列举中美高考最大三条区别”

附加背景和细节

AI越“靠近具体场景”,回答越具实操性。提供的详细说明越多,得到的回复越“对胃口”。

示例:“我要参加一场主题为环保的小学班会,需要一篇300字左右的发言稿,主张保护水资源。”

多角度、多轮次修正

不要希望一次Prompt得到完美答案。AI反馈后,继续补充信息或强化指令。

示例:

  • “你的回答很好,但我想要一个更幽默的风格,可以重写一遍吗?”
  • “请再增加两个使用场景。”

Prompt优化的实际应用场景

  • 日常生活:写道歉信、贺卡祝福、写作业提示,“帮我写四句生日祝福诗”、“如何礼貌拒绝朋友借钱”。
  • 办公与职场:合同草拟、会议纪要、市场分析,“以法律专业人员身份,写一份员工入职须知”、“给领导发一封请假邮件,内容简明扼要”。
  • 教育与学习:课程总结、知识点梳理、模拟试题,“请帮我用思维导图梳理中国近代史重要事件”、“英语四六级考试常考短语清单”。
  • 编程与技术:代码生成、bug修复、API用法,“用Python写一段冒泡排序,并加注释”、“帮我把SQL语句改写成MongoDB查询语言”。
  • 内容创作与翻译:新媒体文案、段子、诗歌、翻译润色,“将下列文本翻译成富有创意的英文小诗”、“用小红书风格写一条护肤产品推荐文案”。

AI小白的Prompt优化自学攻略

常规学习路径

  • 多试多练:反复用不同表达与AI交互,积累直观“经验”。
  • 研究模板:收集行业优秀Prompt模板,逐步学习背后的逻辑。
  • 注重“反馈”:不停观察AI给出的新回答,不断调整Prompt。
  • 加入社区:参与知乎、B站、小红书等AI相关社区,分享和吸收Prompt技巧。
  • 工具利用:探索各种AI提示工程工具,如promptist.github.io等。

常用Prompt优化“万能句型”

  • “请用……字以内/不少于……字,简明概括……”
  • “假如你是……(身份),请……”
  • “请重点突出……,并举至少……个例子”
  • “请用中文/英文/口语化/幽默风格表达”
  • “请用清单/表格/代码格式输出结果”
  • “请分析以下场景,并给出三种解决方案”

随着人工智能技术的飞速发展,Prompt优化正日益成为数字时代的“软技能”之一。掌握Prompt优化的技巧,让每个人都能更加顺畅地与AI协作、获得更优质和个性化的服务,激发用户用更开放、更系统、更结构化的方式去表达自己的需求和创意,把模糊的想法转化为具体可行的结果。通过有效的Prompt优化,每个人都能极大地缩短信息鸿沟,提升自身问题解决与创新的能力。

AI模型的持续迭代和Prompt工程工具的不断丰富,AI将成为人类不可或缺的“数智拍档”。Prompt优化,将在教育、工作、生活等方方面面扮演越来越重要的角色。帮助每一位读者迈出与智能时代对话的第一步,用高效、准确的Prompt让AI真正服务于个人成长和社会发展。在人机协同共创的时代,用更智慧的提问,引领更有价值的答案!

AQ – 蚂蚁推出的AI医疗健康应用

AQ是什么

AQ是蚂蚁集团推出的AI医疗健康应用。基于蚂蚁自研的Ant大模型,为用户提供健康咨询、图片解读(报告、病例、处方、药盒)、个人和家庭健康档案管理以及预约挂号、云陪诊等服务。AQ具备AI就诊咨询功能,能解答病症、用药等健康问题,提供个性化建议。应用“拍报告”功能支持智能分析图片文件,“找医生”功能能推荐本地医生提供在线问诊入口。AQ设有医疗健康智能体相关服务专区,包括医生分身、减重专区等。

AQ

AQ的主要功能

  • 健康咨询:提供AI智能问答,有智能思考、深度思考、极速模式三种方式。
  • 图片解读:支持解读报告、病例、处方、药盒等图片文件。
  • 健康档案管理:支持个人和家庭健康档案的创建与管理。
  • 医疗健康服务:提供预约挂号、云陪诊等服务。
  • AI就诊咨询:解答病症、用药等健康问题,提供个性化建议。
  • 找医生功能:推荐本地医生,提供在线问诊入口。
  • 医疗健康智能体相关服务:包括医生分身、减重专区、健康生活、自测工具等。

如何使用AQ

  • 下载与安装:安卓用户访问应用宝下载地址:https://sj.qq.com/appdetail/com.antgroup.aijk.android进行安装。
  • 注册与登录
    • 手机号注册:打开AQ应用,点击“注册”,输入手机号码,获取并填写验证码,设置密码,完成注册。
    • 支付宝账号登录:或直接使用支付宝账号登录AQ。
  • 使用主要功能
    • 健康问答:登录后默认进入聊天页面,输入或语音提出医疗健康问题,如“感冒咳嗽吃什么药好”。根据需求选择智能思考、深度思考或极速模式,获取AI的回答。
    • 图片解读:点击“拍报告”功能,拍摄或从相册上传报告、病例、处方、药盒等图片文件,AQ自动对图片进行智能分析,生成分析结果。
    • 健康档案管理:点击“健康档案”功能,创建个人或家庭成员的健康档案,填写个人信息、病史、过敏史等。
    • 医疗健康服务
      • 预约挂号:点击“预约挂号”功能,选择医院、科室、医生及就诊时间,完成挂号操作。
      • 云陪诊:在就医过程中,用云陪诊功能,获取就医提醒和解答疑问。

AQ的应用场景

  • 日常健康咨询:用户随时向AQ咨询身体不适的症状、用药指导及健康知识,获取初步的判断和建议,帮助提高健康意识和自我保健能力。
  • 就医辅助:AQ提供预约挂号、云陪诊服务,用户根据用户的症状和所在地推荐合适的医生,帮助用户更高效地就医,节省时间和精力。
  • 疾病管理:对于慢性病患者,AQ记录病情、监测指标,提醒用药和复诊,提供个性化健康管理建议;对康复期患者,提供康复指导,促进恢复健康。
  • 健康档案管理:用户在AQ上创建和管理个人及家庭健康档案,记录个人信息、病史等,应用整合医疗信息,方便查阅和就医时提供详细资料。
  • 特殊情况应对:在突发疾病或紧急情况下,AQ能快速查询急救知识和附近医院信息;对于罕见病或特殊疾病患者,提供疾病信息、治疗方法和专家推荐。

Midjourney V1 – Midjourney推出的首个AI视频生成模型

Midjourney V1是什么

Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮转变为视频。模型提供自动和手动动画设置,及高、低运动模式,用户能根据需要选择合适的模式制作视频。模型支持用户对生成的视频进行扩展,每次延长约 4 秒,总共能延长四次。Midjourney V1 的推出为用户提供探索动态内容创作的新工具。模型基础订阅费仅需 10 美元/月。Midjourney V1 目前已在Midjourney官网上线。

Midjourney V1

Midjourney V1的主要功能

  • 图像到视频的转换:用户将Midjourney生成的图像作为起始帧或从外部上传的图像,基于“Animate”按钮将其变为视频。
  • 自动与手动动画设置:提供自动动画功能,系统自动生成“运动提示”,让图像动起来;支持手动动画,用户自行描述运动方式。
  • 运动模式选择:设有“高运动”和“低运动”模式。“低运动”适合主体缓慢或有意识地移动的场景;“高运动”适合主体和镜头都大幅移动的场景。
  • 视频扩展功能:支持用户将喜欢的视频进行扩展,每次延长约4秒,总共延长四次。
  • 外部图像支持:支持用户上传外部图像作为起始帧,基于输入运动提示描述想要的运动效果,生成视频。

如何使用Midjourney V1

  • 访问Midjourney平台:访问Midjourney的官方网站,按提示完成注册和登录。
  • 选择“Image-to-Video”功能:在平台上找到“Image-to-Video”的视频制作功能入口。
  • 上传图像:在平台根据提示词生成静态图像或用已有图像,上传到Midjourney平台。
  • 选择动画模式
    • 自动动画:选择“自动”动画模式,系统会自动生成一个“运动提示”,自动让图像动起来。这种方式适合快速生成有趣的动画效果,无需用户过多干预。
    • 手动动画:选择“手动”动画模式,需要输入一个“运动提示”,详细描述你希望图像如何运动,
  • 选择运动模式
    • 低运动模式:适合主体缓慢或有意识地移动的场景。
    • 高运动模式:适合主体和镜头都大幅移动的场景。
  • 调整其他参数:根据需要调整视频的其他参数,如帧率、分辨率等(如果平台提供这些选项)。
  • 生成视频:完成上述设置后,点击“Animate”按钮开始生成视频。系统根据设置和提示词生成动态视频。
  • 扩展视频:如果对生成的视频满意,用“扩展”功能,每次延长约4秒,总共可延长四次,得到更长的视频。
  • 下载和分享:视频生成完成后,下载到本地设备,或将视频分享到社交媒体或其他平台,与他人分享你的创作成果。

Midjourney V1的应用场景

  • 内容创作与娱乐:将静态图像转化为动态视频,用在制作动画短片、广告或社交媒体内容,增加吸引力和趣味性。
  • 教育与培训:将静态教学图像转化为动态视频,帮助学生更好地理解和记忆复杂概念,提升教学效果。
  • 广告与营销:将产品图片或品牌标识转化为动态视频,用于广告宣传,吸引消费者注意力,提升品牌影响力。
  • 艺术与设计:将静态艺术作品转化为动态视频,创作独特的动态艺术作品,为艺术展览或个人创作增添活力。
  • 影视制作:为电影、电视剧制作视觉特效和动态预告片,提升影视作品的视觉冲击力和宣传效果。

LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

LinGen是什么

LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块(包含MA-branch和TE-branch),替换传统Diffusion Transformers中的二次复杂度的自注意力模块,实现在单个GPU上高效生成高分辨率、分钟级时长的视频。LinGen显著降低计算成本,保持高质量的视频输出,在视频质量和生成效率上均优于现有的先进模型,为长视频生成和实时交互式视频应用开辟新的道路。

LinGen

LinGen的主要功能

  • 高分辨率视频生成:支持生成高分辨率(如512p、1024p)的视频,满足高质量内容创作的需求。
  • 长时长视频生成:支持生成分钟级时长的视频,突破传统模型只能生成短视频(10-20秒)的限制。
  • 线性计算复杂度:基于采用线性复杂度的MATE模块,显著降低计算成本,让视频生成更加高效,适合在单个GPU上运行。
  • 高质量视频输出:生成的视频在视觉质量和文本对齐方面与现有的先进模型相当,同时保持帧间的一致性。
  • 实时交互式视频生成:LinGen为实时交互式视频生成和编辑提供可能,适用各种动态内容创作场景。

LinGen的技术原理

  • MA-branch(多尺度注意力分支)
    • 双向Mamba2模块:Mamba2是高效的线性复杂度的序列模型,基于双向设计,捕捉序列中的双向依赖关系。
    • Rotary Major Scan(RMS):基于不同的扫描方式(如空间行优先、空间列优先、时间行优先、时间列优先)重新排列3D视频token张量,增强短距离相关性,同时减少计算延迟。
    • Review Tokens:在序列处理前添加平均池化的token序列,提供对整个序列的全局概览,增强长距离相关性。
  • TE-branch(时间注意力分支):将3D视频token张量划分为小窗口,在窗口内计算自注意力,TESA能捕捉空间上相邻和时间上中等距离的token之间的相关性。窗口在不同层之间交替移动,扩大感受野并增强视频的一致性。
  • 线性复杂度:基于MATE模块的设计,LinGen的计算复杂度与生成视频中的像素数量呈线性关系,而不是传统的二次关系。这使得LinGen能够在保持高质量输出的同时,显著降低计算成本,提高生成效率。
  • 训练策略:LinGen用渐进式训练策略,先在低分辨率的文本到图像任务上进行预训练,再逐步增加视频分辨率和长度进行预训练。在文本到视频预训练阶段,结合文本-图像对进行混合训练,提高生成视频的一致性。基于在高质量视频数据集上进行微调,进一步提升生成视频的质量。

LinGen的项目地址

  • 项目官网:https://lineargen.github.io/
  • GitHub仓库:https://github.com/jha-lab/LinGen
  • arXiv技术论文:https://arxiv.org/pdf/2412.09856

LinGen的应用场景

  • 内容创作:快速生成高质量的视频内容,如广告、电影、电视剧等,显著缩短创作周期和成本。
  • 娱乐行业:生成游戏中的过场动画和背景视频,增强游戏的视觉效果和沉浸感。
  • 教育与培训:生成教育视频,如课程讲解和实验演示,提高教学的趣味性和互动性;生成培训视频,帮助员工快速理解和掌握知识,提升培训效果。
  • 广告视频:快速生成广告视频,满足不同广告场景的需求,提高广告制作的效率和效果。
  • 艺术创作:生成艺术视频,为艺术家提供新的创作工具,激发创意。

EX-4D – 字节跳动Pico团队推出的4D视频生成框架

EX-4D是什么

EX-4D是字节跳动(ByteDance)旗下Pico团队推出的新型4D视频生成框架,能从单目视频输入生成极端视角下的高质量4D视频。框架基于独特的深度防水网格(DW-Mesh)表示,显式建模可见和被遮挡区域,确保在极端相机姿态下保持几何一致性。框架用模拟遮挡掩码策略,基于单目视频生成有效的训练数据,用轻量级的LoRA基视频扩散适配器合成物理一致且时间连贯的视频。EX-4D在极端视角下的性能显著优于现有方法,为4D视频生成提供新的解决方案。

EX-4D

EX-4D的主要功能

  • 极端视角视频生成:支持生成从-90°到90°的极端视角视频,提供丰富的视角体验。
  • 几何一致性保持:基于深度防水网格(DW-Mesh)表示,确保视频在不同视角下的几何结构保持一致。
  • 遮挡处理:有效处理边界遮挡,避免因视角变化导致的视觉伪影。
  • 时间连贯性:生成的视频在时间上具有高度的连贯性,避免常见的闪烁和跳跃问题。
  • 无需多视角数据:基于模拟遮挡掩码策略,用单目视频进行训练,无需昂贵的多视角数据集。

EX-4D的技术原理

  • 深度防水网格(DW-Mesh):DW-Mesh支持建模可见表面,还能显式地建模被遮挡的边界,确保在极端视角下几何结构的一致性。为每个视角提供可靠的遮挡掩码,有效处理边界遮挡问题。
  • 模拟遮挡掩码策略:基于DW-Mesh模拟新视角下的遮挡,生成有效的训练数据。用跟踪帧间点确保时间一致性,模拟真实场景中的遮挡变化。
  • 轻量级LoRA基视频扩散适配器:将DW-Mesh中的几何信息与预训练的视频扩散模型高效结合,生成高质量视频。基于仅包含1%的可训练参数,显著降低计算需求,提高训练和推理效率。

EX-4D的项目地址

  • 项目官网:https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • GitHub仓库:https://github.com/tau-yihouxiang/EX-4D
  • arXiv技术论文:https://arxiv.org/pdf/2506.05554

EX-4D的应用场景

  • 沉浸式娱乐体验:用在体育赛事、演唱会等直播,观众能自由切换视角,增强参与感。
  • 游戏开发:生成自由视角游戏场景和过场动画,提升玩家的沉浸感和交互体验。
  • 教育与培训:创建虚拟教学环境,如虚拟实验室、手术模拟等,提高学习效果。
  • 广告与营销:制作交互式广告和虚拟展厅,让消费者全方位查看产品,提升购物体验。
  • 文化遗产保护:重现历史场景,创建虚拟博物馆,让人们多角度欣赏文物和艺术品。

VFX8 – 一站式AI制片工场,批量生成电影级分镜头

VFX8是什么

VFX8 是一站式 AI 制片工场,基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法,VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能,能批量生成电影级分镜头脚本,确保角色形象的一致性;支持全风格的影视角色设计,满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统,帮助创作者高效管理剧集的视觉元素,确保风格统一。

VFX8

VFX8的主要功能

  • 智能分镜制作:能批量生成电影级分镜头脚本,确保角色在不同镜头中的形象和动作一致性。
  • 角色形象设计:提供全风格的影视角色设计,满足从写实到卡通等不同风格的视觉创作需求。
  • 剧集管理:具备长篇连载剧集的视觉资产管理系统,方便创作者高效管理剧集的视觉元素,确保风格统一。
  • 团队协作:支持多人协作,提升制作团队的沟通和任务分配效率,适合团队项目。
  • 智能剧本:基于强大的文字大模型,辅助剧本创作,生成分镜头脚本,帮助创作者快速梳理剧本结构和镜头语言。
  • 视频生成:整合多种先进的视频生成模型,支持从脚本到视频的快速生成,满足不同场景的制作需求。

VFX8的官网地址

  • 官网地址:http://www.vfx8.com.cn/

VFX8的核心优势

  • 一站式服务:VFX8 提供从创意孵化到成片输出的全流程服务,用户无需在多个平台之间切换。
  • AI 赋能:通过 AI 技术优化制作流程,提升效率,降低成本。
  • 专业级工具:具备电影级的分镜制作、角色设计等功能,满足专业影视制作需求。
  • 团队协作:支持多人协作,适合团队项目,提升团队整体效率。

VFX8

VFX8的应用场景

  • 影视创作者:独立创作者可以用 VFX8 快速实现创意,生成高质量的影视作品。
  • 影视公司:大型影视公司可以用来高效的制作流程和团队协作功能,提升项目管理效率。
  • 剧集制作:适合长篇剧集的制作,帮助管理视觉资产,确保风格统一。