Author: Chimy

MeWM – AI医学世界模型，精准模拟肿瘤演化

Written by Chimy on June 19, 2025. Posted in AI工具, AI项目和框架.

MeWM是什么

MeWM（Medical World Model）是创新的医学模型，由香港科技大学（广州）等机构提出，通过模拟疾病动态来辅助临床决策。由策略模型、动态模型和逆向动态模型组成。策略模型基于视觉-语言模型，根据患者状态生成潜在治疗方案；动态模型模拟疾病在不同治疗条件下的进展或消退；逆向动态模型则对模拟结果进行生存风险评估，优化治疗方案。MeWM以医学影像为输入，通过感知模块构建初始病情状态，动态模型预测未来的疾病状态，逆向动态模型评估治疗效果，策略模型生成最佳治疗方案，形成闭环反馈优化干预路径。

Medical World Model

MeWM的主要功能

肿瘤演变模拟：MeWM能使用3D扩散模型模拟不同治疗方案下的肿瘤形态演变，生成逼真的术后肿瘤图像，帮助医生在术前直观地评估治疗效果。
生存风险评估：通过生存分析模型，MeWM可以预测不同治疗方案下患者的预后生存风险，基于逆动力学推理出最优治疗方案。评估结果在准确性上大幅超越传统多模态大模型。
临床决策优化：MeWM构建了一个从“方案生成-模拟推演-生存评估”的自动化、可视化优化循环，支持癌症介入治疗规划。能显著提升介入医生的临床决策能力，例如在肝癌动脉化疗栓塞（TACE）治疗方案选择中，将F1分数提高了13%。

MeWM的技术原理

技术架构：MeWM由以下三个核心组件构成：
- 策略模型（Policy Model）：基于视觉-语言模型（如GPT-4o），从CT影像和治疗目标中生成满足临床规则的候选治疗方案组合，覆盖多种治疗药物和栓塞材料搭配。
- 动态模型（Dynamics Model）：利用3D条件扩散模型，根据不同的治疗方案模拟术后肿瘤的形态变化，生成逼真的术后肿瘤图像。
- 逆向动态模型（Inverse Dynamics Model）：对模拟生成的术后肿瘤图像进行生存风险评估，通过启发式函数计算风险值，并动态优化治疗方案，最终选择风险最低的方案作为推荐。
工作流程
- 输入与感知：以医学影像为输入，通过感知模块生成初始病情状态。
- 模拟与评估：动态模型根据不同的治疗方案模拟术后肿瘤的形态变化，逆向动态模型对模拟结果进行生存风险评估。
- 优化与反馈：基于评估结果，策略模型生成新的治疗方案，形成闭环反馈，不断优化干预路径。
创新点
- 生成模型：MeWM创新性地将“治疗行为”作为条件输入生成模型，模拟不同治疗方案下的肿瘤演化。
- 对比学习：通过组合对比学习（CCL），增强生成结果的真实性和治疗敏感性。
- 临床决策支持：在肝癌动脉化疗栓塞（TACE）治疗方案选择中，MeWM显著提升了介入医师的决策准确性，将F1分数提高了13%。

MeWM的项目地址

项目官网：https://yijun-yang.github.io/MeWM/
Github仓库：https://github.com/scott-yjyang/MeWM
arXiv技术论文：https://arxiv.org/pdf/2506.02327

MeWM的应用场景

术前规划与方案优化：MeWM可以为医生提供术前规划的智能助手功能。通过生成术后肿瘤图像和评估生存风险，MeWM能帮助医生优化治疗方案，选择最适合患者的药物和栓塞材料组合。
作为“第二阅片医师”：MeWM有望作为“第二阅片医师”融入临床实践。能基于生成的术后CT进行生存分析评分，形成完整的“治疗模拟—效果评估—方案筛选”闭环机制，辅助医生在术前更有效地预判治疗结果。
个性化治疗支持：MeWM支持个体化、数据驱动的治疗决策。可以根据患者的术前影像和治疗目标，生成多种治疗方案，通过模拟和评估选择最优方案，为精准医疗提供了有力支持。

Office-PowerPoint-MCP-Server – 基于MCP的开源PPT生成与编辑工具

Written by Chimy on June 19, 2025. Posted in AI工具, AI项目和框架.

Office-PowerPoint-MCP-Server是什么

Office-PowerPoint-MCP-Server 是基于 Model Context Protocol（MCP）的开源工具，专门用在演示文稿的自动化创建和编辑。工具基于 python-pptx 库实现对 PowerPoint 文件的精细操作，支持从零开始创建新演示文稿或对现有文件进行修改。用户用自然语言指令或代码调用，支持轻松添加幻灯片、填充文本、插入图片、表格和图表等元素。支持与 AI 助手（如 Claude）无缝对接，降低使用门槛，提升工作效率。Office-PowerPoint-MCP-Server适用企业报告生成、数据分析展示、定制化演示文稿等多种场景，开源特性支持开发者根据需求进行定制，进一步扩展功能。

Office-PowerPoint-MCP-Server

Office-PowerPoint-MCP-Server的主要功能

完整处理Open XML演示文稿：支持对任何Open XML演示文稿（.pptx文件）及所有元素进行完整处理，包括读取、修改和保存。
幻灯片操作：支持添加幻灯片、删除幻灯片、获取幻灯片信息。
文本处理：填充文本占位符，例如创建带项目符号的幻灯片。添加文本框到幻灯片，调整文本字体大小和加粗。
图像处理：在幻灯片中任意位置和大小添加图片。
表格处理：在幻灯片中添加表格。
形状处理：在幻灯片中添加自动形状（例如多边形、流程图形状等）。
图表处理：在幻灯片中添加并操作柱状图、条形图、折线图和饼图。
文档属性管理：支持访问和更改核心文档属性，例如标题和主题。

Office-PowerPoint-MCP-Server的技术原理

python-pptx 库：支持基于 python-pptx 库解析和操作 PowerPoint 文件（.pptx 格式）。基于 python-pptx 库生成新的 PowerPoint 文件或修改现有文件，保存为标准的 .pptx 格式。
MCP（Model Context Protocol）：基于 MCP 协议与 AI 模型或其他工具进行交互。用户用自然语言指令或代码调用，将操作指令发送到服务器，服务器解析指令执行相应的操作。服务器接收到指令后，解析指令内容并调用 python-pptx 库中的相应方法，完成对 PowerPoint 文件的操作。
自动化和集成：提供编程接口，支持用户基于代码批量生成和修改 PowerPoint 文件，特别适合自动化生产周期性报告。支持与 AI 助手（如 Claude）无缝对接，用户用自然语言指令完成复杂操作，降低使用门槛，提高工作效率。

Office-PowerPoint-MCP-Server项目地址

GitHub仓库：https://github.com/GongRzhe/Office-PowerPoint-MCP-Server

Office-PowerPoint-MCP-Server的应用场景

企业报告自动化：自动生成月度、季度报告，填充数据、生成图表，节省时间，确保准确性和及时性。
市场营销与品牌推广：快速创建品牌风格的演示文稿，灵活调整内容和设计，提升营销效果和品牌影响力。
教育培训领域：生成标准化教学课件，灵活调整内容，提高教学质量和效率，提升在线学习体验。
项目管理与团队协作：快速生成项目进度汇报和会议资料，促进团队沟通和协作，提高会议效率。
个人学习与知识分享：整理学习笔记，制作知识分享和演讲演示文稿，提升学习效果和演讲吸引力。

Hailuo 02视频生成效果怎么样？实测超越可灵2.0、Veo 3

Written by Chimy on June 19, 2025. Posted in AI教程.

这周一，MiniMax深夜低调官宣开启MiniMax Week，没想到每天都是王炸！

第一天，他们开源了推理模型MiniMax-M1。

支持全球最长上下文窗口，包括100万tokens输入、8万tokens输出。在开源模型 Open-weight Models基准测试中，MiniMax-M1多个性能指标超越 DeepSeek！

第二天，Hailuo 02视频模型上线。

刷新 AA Video Arena（全球视频模型竞技场）排行榜，图生视频碾压谷歌Veo 3、快手可灵2.0。

再看官方放出的这段 “耍飞刀钻火圈、空中吊环、高空走钢丝” 的超难杂技视频：

这个光影，现实和AI谁还分得清？

01. Hailuo 02的突破性优势

在AI视频领域，效率、成本与质量就像是横亘在开发者与创作者面前的 “三座大山”。

以往做AI视频，不是氪点就能解决的问题，一个短片做下来，我都心疼我的钱包…

而这次MiniMax 更新完之后，绝对是朝着破解这些难题的方向，迈出了关键一步。

1. 成本和效率

Hailuo 02在性能大幅提升的同时，训练成本几乎没有增加，是第一梯队中最低的价格。

还有就是，不需要魔法这一点就已经是很大的效率提升和成本缩减了。

2.性能

MiniMax 全新设计的 DiT 架构，训练和推理效率各提升2.5倍，不用再一等就是好几个小时。

模型参数量暴增 3 倍，数据量提升4倍，更是彻底突破传统视频模型的性能天花板。

3. 指令理解

无论是镜头切换、光影变化，还是角色动作，Hailuo 02都能精准还原。

就算是各种复杂的指令，它的响应率也非常优秀。

总得来说，Hailuo 02就是又快、又便宜、又好用…

不过不管数据如何好看，我们还是要看看具体的使用效果怎么样，一起来实测一波。

02. 实测案例

我们打开MiniMax的视频功能，选择Hailuo 02模型。

最新升级的Hailuo 02模型最低分辨率由原来的720p提高到了768p，6秒的视频消耗25积分，价格和Hailuo 01一样。

重点是支持生成6秒1080p高清视频了，单次消耗80积分，性价比非常高。

先看看768p的效果：

case 1：现实场景复原-人物

提示词：女孩起跳，完美的完成跳水转体一周的动作，丝滑入水，水面只溅起微小一圈水花[跟随，下移]

女孩跳台跳水的现场~提示词比较简单，但是出来的效果还挺不错，各种动作都没有大幅度的变形。

虽然逐帧看，运动员身体会有一些瑕疵，但整体看还是比较流畅的。

case 2：虚拟场景

提示词：小猫举着镜头惊恐的奔跑，棕熊在身后追赶，咆哮。[跟随]

神态和表情的呈现非常不错，我居然能从一只小猫的脸上读懂它在想什么，谁能救救小猫啊啊…

case 3：虚拟主体+特效

提示词：巨龙咆哮嘶吼，激起巨大的水雾，突然巨龙猛冲过来，一口吃掉女孩，石头也在它的攻击下炸裂沉没[左移,上升]

环境：强风吹动所有轻质物体

动态：头发和衣物剧烈飘动

背景：远处天空有变化的云层和闪电

光线：变化迅速

元素：可见雨点和水雾

这里借助了一下工具里的预设词库，增强了环境、背景和画面的一些元素，氛围确实更像那么回事了。

官方还提供了很多参考，比如整体风格、镜头路径、光线效果、画面色调。

我们也可以自定义预设效果，做一些连环镜头，需要人物/场景/风格一致的时候，会非常方便。

再试试升级版1080p高清效果：

case 4：人物情绪表达

提示词：女孩强装镇定的微笑，逃避镜头一般向远处左右观望，又看向镜头，再也忍不住，低头委屈哭泣，微表情变化，影后级表演，专业镜头[固定镜头]

下撇的嘴角，微皱的眉头，Hailuo 02对微表情的把控很厉害，短短6秒钟的镜头，就挺有故事感。

连我设定的情绪转折都能很好地展现，它不仅是读懂了提示词，而是读懂了我脑子里的画面！

这情绪掌控力，已经秒杀不少演员了吧？想看大佬拿它做短剧了！

case 5：现实场景复原-动物

提示词：小松鼠直起上半身，脑袋左右张望，突然，它扔下坚果，敏捷地往上跑出屏幕[固定镜头]

松鼠的毛发看起来还是很逼真的，动作形态也跟真的松鼠无二了，提示词里一系列复杂的动作，它都完成的不错。

从松果的掉落路径来看，物理规律的遵循也做得很好。

case 6：穿越机效果

提示词：穿越机视角，俯冲低空飞行，极速穿越山洞，之后急转弯，腾空飞起。

最初的画面，可以看到山洞后有薄薄的雾气，穿过山洞之后，立马就体验到了置身云雾中的感觉。

Hailuo 02对环境的理解太顶级了！

它还给自己设计了加速和减速的过程，还挺自然的，整体的画面变化非常连贯。

case 7：特效

提示词：[固定镜头]火麒麟从天而降，以爆炸力坠落在破碎的街道上，四角触地，火焰在它身体周边蔓延，周围飞溅的碎片和火焰四起。摩天大楼坍塌，汽车

最后尝试了一下文生视频的效果，Hailuo 02的语义理解真挺牛，4分钟跑出这个效果，特效师已经看哭了…

03. 一些分享

几个月前我用Hailuo 01做武打视频教程的时候，对它的评价是：“抽象”。

而现在的Hailuo 02已经是我高攀不起的状态了，生成的效果有时候比我脑海中预想的还好。

只要遵循 “明确主体+细化场景+运动/变化（+镜头运动+美感氛围）” 的指令公式，就能得到理想的效果。

Hailuo 02的价值，不仅是“又快又便宜”。

而是让每个普通人，都能讲好自己的故事。

我相信，未来一定会是“想象力本位”的时代。

原文链接：超越可灵2.0、Veo 3，AI视频模型性价比新王来了！

乐享AI助手 – 腾讯推出的AI知识社区助手

Written by Chimy on June 19, 2025. Posted in AI工具.

乐享AI助手是什么

乐享AI助手是腾讯乐享平台推出的基于大模型技术的智能工具，为企业提供高效的知识管理与学习支持。能结合企业内部知识库内容，提供精准的智能问答服务，快速解答员工问题，助力知识共享与协作。AI助手支持多模态智能搜索，可精准定位视频、音频等非结构化内容的关键片段，突破传统搜索限制。具备AI辅助创作功能，能帮助撰写大纲、润色文案、生成会议纪要等，提升工作效率。在培训与考试方面，AI助手可根据课程内容自动生成考题，实时解答学员疑问，助力企业高效开展培训活动。

乐享AI助手

乐享AI助手的主要功能

智能知识问答：AI助手基于企业内部知识库进行对话模型训练，能提供专业且定制化的问答服务，确保每位员工都能享受到实时、准确、高效的在线知识问答体验。
多模态智能搜索：支持对视频、音频等非结构化内容的搜索，通过关键字精确定位到具体片段，突破传统搜索的局限。
AI辅助创作：支持撰写大纲、方案续写、会议纪要等功能，可以根据文档内容进行总结、润色、扩写等操作。
智能生成考题：基于课程内容自动生成高质量考题，节省时间和人力成本，确保出题的质量和数量。
智能内容分发：精准解析内容，匹配用户兴趣，实现高效的内容推荐。
智能陪练：支持虚拟人对话对练，还原真实场景，助力学员提升技能水平。
智能考试：支持人脸识别核身，确保考试的安全性和真实性。
文化建设：提供创意运营助手，自动生成节日关怀等运营创意，助力企业文化建设。

如何使用乐享AI助手

访问平台：访问腾讯乐享的官方网站 https://lexiangla.com/home，找到AI助手入口。
智能知识问答：输入问题，AI助手会根据企业知识库内容提供精准答案。
多模态智能搜索：上传或选择搜索需要的文件（如PPT、PDF、Word等）。在全局搜索栏输入关键词，系统会自动定位到相关内容片段。
AI辅助创作：在管理后台的对应模块（如课堂、活动等）中选择“AI辅助创作”功能。输入相关主题或内容，AI助手会自动生成或优化文本。
智能生成考题：管理员进入课程管理页面，选择需要生成考题的课程。点击“智能生成考题”，AI助手会根据课程内容生成高质量考题。
音视频素材生成AI文稿：管理员进入素材库管理页面，选择需要生成文稿的素材。点击“生成AI文稿”，选择合适的语言模型，生成后可预览和编辑。
虚拟讲师智能话术对练：管理员进入AI智能陪练模块，创建陪练任务。设计问答话术，发布任务后学员可通过小程序扫码体验。

乐享AI助手的应用场景

知识沉淀与管理：支持多种文件格式的上传和管理，通过多级分类、智能表格等功能系统化整合知识。同时，提供灵活的权限控制，确保知识资产的安全。
数据洞察与分析：通过数据看板实时展示知识的使用情况、应用效果以及员工参与度，帮助企业精准评估知识管理的实际价值。
销售知识赋能：通过AI助手快速检索和提炼销售相关知识，提升销售人员的专业素养和业绩转化。
创意运营助手：自动生成节日关怀等运营创意，助力企业文化建设。
内容推荐与分发：精准解析内容，匹配用户兴趣，实现高效的内容推荐。

如何优化 Prompt 获得更好的回答？一文看懂

Written by Chimy on June 19, 2025. Posted in AI问答.

引言

自从ChatGPT及类似大语言模型走红以来，AI的便捷性和实用性被大大放大。越来越多的人开始用AI辅助写作、搜索、办公、答疑以及创作新内容。许多初次接触AI的人发现，AI的“聪明”程度强烈依赖于提问方式。同样一台AI，有人能完成高质量的报告、代码或创意，有人却一问三不知、答非所问。本质原因就是：“What you ask is what you get.”——AI的提示（Prompt）决定了回应质量。所谓“Prompt”，就是用户与AI的交流语言、说明指令。Prompt写得好，AI有如神助；Prompt模糊、含糊，得到的回复也会大打折扣。对于初学者掌握“如何优化Prompt”，直接影响用户获得的信息和工作的效率，更是提升个人数字竞争力的关键一环。

什么是Prompt？

Prompt的概念

在AI对话或信息检索领域中，Prompt是“向AI提问的那句话或那段文字”。和人类的对话类似，AI需要通过接收到一系列输入信息判断用户需求及想要怎样的回答。举例而言：

人与人对话：
- 小王：“我头痛，怎么办？”
- 医生：“你多大年纪？发烧吗？头痛多久了？”
- 小王：“30岁，偶尔发，没发烧。”
- 医生：“建议你换下枕头，少熬夜……”
人与AI对话：
- 用户 Prompt：“头痛怎么办？”

AI算法受到Prompt的直接影响，Prompt越清楚完整，AI“理解你”的准头可能越高。

Prompt与AI的机制简介

以ChatGPT等大语言模型为例，AI的本质其实是通过“语言预测”输出回复。举个形象的例子——AI像一个“超级填空王”，能根据历史和上下文“猜测”最合适的下一个词或句子。用户提供的Prompt是AI“推演”的起点，类似一份“考试作文题目”。如果题目清楚、具体，作文就能立得住；题目模糊或模棱两可，就容易跑题。Prompt与传统软件输入有所不同。传统软件有严格的菜单和按钮，AI能用接近自然语言的任意表达。自由度正是AI“聪明”和“易误解”并存的根源。Prompt就是用户与AI之间的“关键桥梁”。

Prompt的基本写法与常见结构

Prompt的表达方式

Prompt的写法十分灵活，能是简单问题，也能是详细、分步骤的“说明书”。常见的Prompt写法有：

简单提问型：
- “什么是黑洞？”
- 任务/命令型：
- “请生成一份三天的上海旅游攻略。”
补全型：“世界上最大的哺乳动物是……”
格式约束型：“请用表格列出五个中国历史朝代及其代表人物。”
情境指定型：“假设你是职业律师，请从法律角度分析我的劳动合同。”

Prompt的基本构成要素

一个清晰、优秀的Prompt包括以下元素：

明确的目标或任务：“帮我写份道歉信”比“道歉信”好。
需要的信息或背景说明：“我因为迟到两天发邮件道歉”比“帮我写邮件”更具体。
期望输出的形式：如“列出三点”、“用800字左右”、“用代码注释”。
指定角色或语气：如“请用公司总经理口吻写”。

优化前：“帮我写份道歉信。”

优化后：“我是一名公司员工，因为生病迟到了两天，现在需要给部门经理发一封道歉邮件，请用正式语气帮我写一封内容简洁的道歉信，字数不超过200字。”

Prompt写作常见误区

含糊其词：“帮我写作文”——关于什么的？多长？
缺少情景说明：“写个回复邮件”——对谁说？什么事情？
没有指定角色/语气：“给客户写祝福”——正式or随意？
多个需求混杂：“写信、讲道理、再来个笑话”——可分步给出清单。

Prompt优化的底层原理

Prompt如何影响AI回答的质量？

AI模型并非“懂”人类语言，只是在海量文本中“学会”统计规律。每一次输入Prompt，模型自动尝试“脑中”已有知识与经验去推测合适的回应。Prompt是模型认知的线索，越具体、明确，模型“联想”的空间约束就越强，越能对齐用户意图。

Token、上下文与信息完整性

在技术实现上，AI模型处理的不是汉字和词语，是被分割的最小单元（Token）。“人工智能”会被拆为“人工”“智能”，英语“artificial intelligence”要更细。Prompt长度有限，每加一句话会占用“对话上下文”的空间。简明、有效的信息组织结构，让AI能容易“记住重点”。

“指引性”与“场景化”的重要性

为AI指定身份、场景、目标，能减少偏题跑题，提高准确率。例如：“请以小学科学老师的身份，解释‘水的三态变化’的原理，并用小学生能听懂的话说出来。”Prompt指明身份、知识对象、难度层级、例子（小学生话语），AI更能对齐。

常用的Prompt优化方法

明确目标与输出要求

绝大多数AI小白常犯的错误是“语焉不详”。AI不像人类面试官主动追问细节，所以：

目的要清楚：你要什么？文章、代码、摘要、清单……
格式要详实：输出表格、分点罗列、200字以内……
场景要交待：写给谁？什么职业？

示例：“假如你是一位秘书，请根据以下会议内容，整理出3点重要讨论事项，每点不超过30字，用清单格式展示。”

分步骤提问/逐步细化法

复杂任务，AI一下子难以抓住要点，很容易遗漏或回答杂乱。可采取“分步骤问答”或“拆解任务”：

第一步：“请帮我制定一个学习AI的初步计划”
第二步：“根据上述计划，列出每周需完成的关键任务”
第三步：“针对每个任务，建议一个适合完全新手的学习资源”

示范法/例子补充法

在Prompt中写一个或多个期望的输出样例，AI会模仿结构和“对齐”输出风格。

示例：Prompt：“请用如下格式写三条生活小窍门。例如：

牙刷用热水泡软，更容易清洁牙缝。

用旧报纸擦玻璃，不留痕迹。

微波炉加热时在食物上盖纸巾，防溅。”

角色设定法

让AI代入某种身份或视角，有助于获得专业、权威、风格化的回答。

示例：

“作为一名心理医生，请用温和的语言对失恋者提出三点安慰建议。”

“假设你是知名儿童教育专家，用故事告诉孩子不要随便拿陌生人的东西。”

输出限制与多输出法

要让AI不“啰嗦”或“发挥过度”，直接在Prompt中限定字数、格式，鼓励结构输出。

示例：

“请用200字以内为我写一首情诗”

“请用表格形式，列举中美高考最大三条区别”

附加背景和细节

AI越“靠近具体场景”，回答越具实操性。提供的详细说明越多，得到的回复越“对胃口”。

示例：“我要参加一场主题为环保的小学班会，需要一篇300字左右的发言稿，主张保护水资源。”

多角度、多轮次修正

不要希望一次Prompt得到完美答案。AI反馈后，继续补充信息或强化指令。

示例：

“你的回答很好，但我想要一个更幽默的风格，可以重写一遍吗？”

“请再增加两个使用场景。”

Prompt优化的实际应用场景

日常生活：写道歉信、贺卡祝福、写作业提示，“帮我写四句生日祝福诗”、“如何礼貌拒绝朋友借钱”。
办公与职场：合同草拟、会议纪要、市场分析，“以法律专业人员身份，写一份员工入职须知”、“给领导发一封请假邮件，内容简明扼要”。
教育与学习：课程总结、知识点梳理、模拟试题，“请帮我用思维导图梳理中国近代史重要事件”、“英语四六级考试常考短语清单”。
编程与技术：代码生成、bug修复、API用法，“用Python写一段冒泡排序，并加注释”、“帮我把SQL语句改写成MongoDB查询语言”。
内容创作与翻译：新媒体文案、段子、诗歌、翻译润色，“将下列文本翻译成富有创意的英文小诗”、“用小红书风格写一条护肤产品推荐文案”。

AI小白的Prompt优化自学攻略

常规学习路径

多试多练：反复用不同表达与AI交互，积累直观“经验”。
研究模板：收集行业优秀Prompt模板，逐步学习背后的逻辑。
注重“反馈”：不停观察AI给出的新回答，不断调整Prompt。
加入社区：参与知乎、B站、小红书等AI相关社区，分享和吸收Prompt技巧。
工具利用：探索各种AI提示工程工具，如promptist.github.io等。

常用Prompt优化“万能句型”

“请用……字以内/不少于……字，简明概括……”
“假如你是……（身份），请……”
“请重点突出……，并举至少……个例子”
“请用中文/英文/口语化/幽默风格表达”
“请用清单/表格/代码格式输出结果”
“请分析以下场景，并给出三种解决方案”

随着人工智能技术的飞速发展，Prompt优化正日益成为数字时代的“软技能”之一。掌握Prompt优化的技巧，让每个人都能更加顺畅地与AI协作、获得更优质和个性化的服务，激发用户用更开放、更系统、更结构化的方式去表达自己的需求和创意，把模糊的想法转化为具体可行的结果。通过有效的Prompt优化，每个人都能极大地缩短信息鸿沟，提升自身问题解决与创新的能力。

AI模型的持续迭代和Prompt工程工具的不断丰富，AI将成为人类不可或缺的“数智拍档”。Prompt优化，将在教育、工作、生活等方方面面扮演越来越重要的角色。帮助每一位读者迈出与智能时代对话的第一步，用高效、准确的Prompt让AI真正服务于个人成长和社会发展。在人机协同共创的时代，用更智慧的提问，引领更有价值的答案！

AQ – 蚂蚁推出的AI医疗健康应用

Written by Chimy on June 19, 2025. Posted in AI工具.

AQ是什么

AQ是蚂蚁集团推出的AI医疗健康应用。基于蚂蚁自研的Ant大模型，为用户提供健康咨询、图片解读（报告、病例、处方、药盒）、个人和家庭健康档案管理以及预约挂号、云陪诊等服务。AQ具备AI就诊咨询功能，能解答病症、用药等健康问题，提供个性化建议。应用“拍报告”功能支持智能分析图片文件，“找医生”功能能推荐本地医生提供在线问诊入口。AQ设有医疗健康智能体相关服务专区，包括医生分身、减重专区等。

AQ的主要功能

健康咨询：提供AI智能问答，有智能思考、深度思考、极速模式三种方式。
图片解读：支持解读报告、病例、处方、药盒等图片文件。
健康档案管理：支持个人和家庭健康档案的创建与管理。
医疗健康服务：提供预约挂号、云陪诊等服务。
AI就诊咨询：解答病症、用药等健康问题，提供个性化建议。
找医生功能：推荐本地医生，提供在线问诊入口。
医疗健康智能体相关服务：包括医生分身、减重专区、健康生活、自测工具等。

如何使用AQ

下载与安装：安卓用户访问应用宝下载地址：https://sj.qq.com/appdetail/com.antgroup.aijk.android进行安装。
注册与登录：
- 手机号注册：打开AQ应用，点击“注册”，输入手机号码，获取并填写验证码，设置密码，完成注册。
- 支付宝账号登录：或直接使用支付宝账号登录AQ。
使用主要功能：
- 健康问答：登录后默认进入聊天页面，输入或语音提出医疗健康问题，如“感冒咳嗽吃什么药好”。根据需求选择智能思考、深度思考或极速模式，获取AI的回答。
- 图片解读：点击“拍报告”功能，拍摄或从相册上传报告、病例、处方、药盒等图片文件，AQ自动对图片进行智能分析，生成分析结果。
- 健康档案管理：点击“健康档案”功能，创建个人或家庭成员的健康档案，填写个人信息、病史、过敏史等。
- 医疗健康服务：
  - 预约挂号：点击“预约挂号”功能，选择医院、科室、医生及就诊时间，完成挂号操作。
  - 云陪诊：在就医过程中，用云陪诊功能，获取就医提醒和解答疑问。

AQ的应用场景

日常健康咨询：用户随时向AQ咨询身体不适的症状、用药指导及健康知识，获取初步的判断和建议，帮助提高健康意识和自我保健能力。
就医辅助：AQ提供预约挂号、云陪诊服务，用户根据用户的症状和所在地推荐合适的医生，帮助用户更高效地就医，节省时间和精力。
疾病管理：对于慢性病患者，AQ记录病情、监测指标，提醒用药和复诊，提供个性化健康管理建议；对康复期患者，提供康复指导，促进恢复健康。
健康档案管理：用户在AQ上创建和管理个人及家庭健康档案，记录个人信息、病史等，应用整合医疗信息，方便查阅和就医时提供详细资料。
特殊情况应对：在突发疾病或紧急情况下，AQ能快速查询急救知识和附近医院信息；对于罕见病或特殊疾病患者，提供疾病信息、治疗方法和专家推荐。

Midjourney V1 – Midjourney推出的首个AI视频生成模型

Written by Chimy on June 19, 2025. Posted in AI工具, AI项目和框架.

Midjourney V1是什么

Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮转变为视频。模型提供自动和手动动画设置，及高、低运动模式，用户能根据需要选择合适的模式制作视频。模型支持用户对生成的视频进行扩展，每次延长约 4 秒，总共能延长四次。Midjourney V1 的推出为用户提供探索动态内容创作的新工具。模型基础订阅费仅需 10 美元/月。Midjourney V1 目前已在Midjourney官网上线。

Midjourney V1

Midjourney V1的主要功能

图像到视频的转换：用户将Midjourney生成的图像作为起始帧或从外部上传的图像，基于“Animate”按钮将其变为视频。
自动与手动动画设置：提供自动动画功能，系统自动生成“运动提示”，让图像动起来；支持手动动画，用户自行描述运动方式。
运动模式选择：设有“高运动”和“低运动”模式。“低运动”适合主体缓慢或有意识地移动的场景；“高运动”适合主体和镜头都大幅移动的场景。
视频扩展功能：支持用户将喜欢的视频进行扩展，每次延长约4秒，总共延长四次。
外部图像支持：支持用户上传外部图像作为起始帧，基于输入运动提示描述想要的运动效果，生成视频。

如何使用Midjourney V1

访问Midjourney平台：访问Midjourney的官方网站，按提示完成注册和登录。
选择“Image-to-Video”功能：在平台上找到“Image-to-Video”的视频制作功能入口。
上传图像：在平台根据提示词生成静态图像或用已有图像，上传到Midjourney平台。
选择动画模式：
- 自动动画：选择“自动”动画模式，系统会自动生成一个“运动提示”，自动让图像动起来。这种方式适合快速生成有趣的动画效果，无需用户过多干预。
- 手动动画：选择“手动”动画模式，需要输入一个“运动提示”，详细描述你希望图像如何运动，
选择运动模式：
- 低运动模式：适合主体缓慢或有意识地移动的场景。
- 高运动模式：适合主体和镜头都大幅移动的场景。
调整其他参数：根据需要调整视频的其他参数，如帧率、分辨率等（如果平台提供这些选项）。
生成视频：完成上述设置后，点击“Animate”按钮开始生成视频。系统根据设置和提示词生成动态视频。
扩展视频：如果对生成的视频满意，用“扩展”功能，每次延长约4秒，总共可延长四次，得到更长的视频。
下载和分享：视频生成完成后，下载到本地设备，或将视频分享到社交媒体或其他平台，与他人分享你的创作成果。

Midjourney V1的应用场景

内容创作与娱乐：将静态图像转化为动态视频，用在制作动画短片、广告或社交媒体内容，增加吸引力和趣味性。
教育与培训：将静态教学图像转化为动态视频，帮助学生更好地理解和记忆复杂概念，提升教学效果。
广告与营销：将产品图片或品牌标识转化为动态视频，用于广告宣传，吸引消费者注意力，提升品牌影响力。
艺术与设计：将静态艺术作品转化为动态视频，创作独特的动态艺术作品，为艺术展览或个人创作增添活力。
影视制作：为电影、电视剧制作视觉特效和动态预告片，提升影视作品的视觉冲击力和宣传效果。

LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

Written by Chimy on June 19, 2025. Posted in AI工具, AI项目和框架.

LinGen是什么

LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块（包含MA-branch和TE-branch），替换传统Diffusion Transformers中的二次复杂度的自注意力模块，实现在单个GPU上高效生成高分辨率、分钟级时长的视频。LinGen显著降低计算成本，保持高质量的视频输出，在视频质量和生成效率上均优于现有的先进模型，为长视频生成和实时交互式视频应用开辟新的道路。

LinGen

LinGen的主要功能

高分辨率视频生成：支持生成高分辨率（如512p、1024p）的视频，满足高质量内容创作的需求。
长时长视频生成：支持生成分钟级时长的视频，突破传统模型只能生成短视频（10-20秒）的限制。
线性计算复杂度：基于采用线性复杂度的MATE模块，显著降低计算成本，让视频生成更加高效，适合在单个GPU上运行。
高质量视频输出：生成的视频在视觉质量和文本对齐方面与现有的先进模型相当，同时保持帧间的一致性。
实时交互式视频生成：LinGen为实时交互式视频生成和编辑提供可能，适用各种动态内容创作场景。

LinGen的技术原理

MA-branch（多尺度注意力分支）：
- 双向Mamba2模块：Mamba2是高效的线性复杂度的序列模型，基于双向设计，捕捉序列中的双向依赖关系。
- Rotary Major Scan（RMS）：基于不同的扫描方式（如空间行优先、空间列优先、时间行优先、时间列优先）重新排列3D视频token张量，增强短距离相关性，同时减少计算延迟。
- Review Tokens：在序列处理前添加平均池化的token序列，提供对整个序列的全局概览，增强长距离相关性。
TE-branch（时间注意力分支）：将3D视频token张量划分为小窗口，在窗口内计算自注意力，TESA能捕捉空间上相邻和时间上中等距离的token之间的相关性。窗口在不同层之间交替移动，扩大感受野并增强视频的一致性。
线性复杂度：基于MATE模块的设计，LinGen的计算复杂度与生成视频中的像素数量呈线性关系，而不是传统的二次关系。这使得LinGen能够在保持高质量输出的同时，显著降低计算成本，提高生成效率。
训练策略：LinGen用渐进式训练策略，先在低分辨率的文本到图像任务上进行预训练，再逐步增加视频分辨率和长度进行预训练。在文本到视频预训练阶段，结合文本-图像对进行混合训练，提高生成视频的一致性。基于在高质量视频数据集上进行微调，进一步提升生成视频的质量。

LinGen的项目地址

项目官网：https://lineargen.github.io/
GitHub仓库：https://github.com/jha-lab/LinGen
arXiv技术论文：https://arxiv.org/pdf/2412.09856

LinGen的应用场景

内容创作：快速生成高质量的视频内容，如广告、电影、电视剧等，显著缩短创作周期和成本。
娱乐行业：生成游戏中的过场动画和背景视频，增强游戏的视觉效果和沉浸感。
教育与培训：生成教育视频，如课程讲解和实验演示，提高教学的趣味性和互动性；生成培训视频，帮助员工快速理解和掌握知识，提升培训效果。
广告视频：快速生成广告视频，满足不同广告场景的需求，提高广告制作的效率和效果。
艺术创作：生成艺术视频，为艺术家提供新的创作工具，激发创意。

EX-4D – 字节跳动Pico团队推出的4D视频生成框架

Written by Chimy on June 19, 2025. Posted in AI工具, AI项目和框架.

EX-4D是什么

EX-4D是字节跳动（ByteDance）旗下Pico团队推出的新型4D视频生成框架，能从单目视频输入生成极端视角下的高质量4D视频。框架基于独特的深度防水网格（DW-Mesh）表示，显式建模可见和被遮挡区域，确保在极端相机姿态下保持几何一致性。框架用模拟遮挡掩码策略，基于单目视频生成有效的训练数据，用轻量级的LoRA基视频扩散适配器合成物理一致且时间连贯的视频。EX-4D在极端视角下的性能显著优于现有方法，为4D视频生成提供新的解决方案。

EX-4D

EX-4D的主要功能

极端视角视频生成：支持生成从-90°到90°的极端视角视频，提供丰富的视角体验。
几何一致性保持：基于深度防水网格（DW-Mesh）表示，确保视频在不同视角下的几何结构保持一致。
遮挡处理：有效处理边界遮挡，避免因视角变化导致的视觉伪影。
时间连贯性：生成的视频在时间上具有高度的连贯性，避免常见的闪烁和跳跃问题。
无需多视角数据：基于模拟遮挡掩码策略，用单目视频进行训练，无需昂贵的多视角数据集。

EX-4D的技术原理

深度防水网格（DW-Mesh）：DW-Mesh支持建模可见表面，还能显式地建模被遮挡的边界，确保在极端视角下几何结构的一致性。为每个视角提供可靠的遮挡掩码，有效处理边界遮挡问题。
模拟遮挡掩码策略：基于DW-Mesh模拟新视角下的遮挡，生成有效的训练数据。用跟踪帧间点确保时间一致性，模拟真实场景中的遮挡变化。
轻量级LoRA基视频扩散适配器：将DW-Mesh中的几何信息与预训练的视频扩散模型高效结合，生成高质量视频。基于仅包含1%的可训练参数，显著降低计算需求，提高训练和推理效率。

EX-4D的项目地址

项目官网：https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
GitHub仓库：https://github.com/tau-yihouxiang/EX-4D
arXiv技术论文：https://arxiv.org/pdf/2506.05554

EX-4D的应用场景

沉浸式娱乐体验：用在体育赛事、演唱会等直播，观众能自由切换视角，增强参与感。
游戏开发：生成自由视角游戏场景和过场动画，提升玩家的沉浸感和交互体验。
教育与培训：创建虚拟教学环境，如虚拟实验室、手术模拟等，提高学习效果。
广告与营销：制作交互式广告和虚拟展厅，让消费者全方位查看产品，提升购物体验。
文化遗产保护：重现历史场景，创建虚拟博物馆，让人们多角度欣赏文物和艺术品。

VFX8 – 一站式AI制片工场，批量生成电影级分镜头

Written by Chimy on June 18, 2025. Posted in AI工具.

VFX8是什么

VFX8 是一站式 AI 制片工场，基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法，VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能，能批量生成电影级分镜头脚本，确保角色形象的一致性；支持全风格的影视角色设计，满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统，帮助创作者高效管理剧集的视觉元素，确保风格统一。

VFX8

VFX8的主要功能

智能分镜制作：能批量生成电影级分镜头脚本，确保角色在不同镜头中的形象和动作一致性。
角色形象设计：提供全风格的影视角色设计，满足从写实到卡通等不同风格的视觉创作需求。
剧集管理：具备长篇连载剧集的视觉资产管理系统，方便创作者高效管理剧集的视觉元素，确保风格统一。
团队协作：支持多人协作，提升制作团队的沟通和任务分配效率，适合团队项目。
智能剧本：基于强大的文字大模型，辅助剧本创作，生成分镜头脚本，帮助创作者快速梳理剧本结构和镜头语言。
视频生成：整合多种先进的视频生成模型，支持从脚本到视频的快速生成，满足不同场景的制作需求。

VFX8的官网地址

官网地址：http://www.vfx8.com.cn/

VFX8的核心优势

一站式服务：VFX8 提供从创意孵化到成片输出的全流程服务，用户无需在多个平台之间切换。
AI 赋能：通过 AI 技术优化制作流程，提升效率，降低成本。
专业级工具：具备电影级的分镜制作、角色设计等功能，满足专业影视制作需求。
团队协作：支持多人协作，适合团队项目，提升团队整体效率。

VFX8

VFX8的应用场景

影视创作者：独立创作者可以用 VFX8 快速实现创意，生成高质量的影视作品。
影视公司：大型影视公司可以用来高效的制作流程和团队协作功能，提升项目管理效率。
剧集制作：适合长篇剧集的制作，帮助管理视觉资产，确保风格统一。

Author: Chimy

MeWM是什么

MeWM的主要功能

MeWM的技术原理

MeWM的项目地址

MeWM的应用场景

Office-PowerPoint-MCP-Server是什么

Office-PowerPoint-MCP-Server的主要功能

Office-PowerPoint-MCP-Server的技术原理

Office-PowerPoint-MCP-Server项目地址

Office-PowerPoint-MCP-Server的应用场景

01. Hailuo 02的突破性优势

02. 实测案例

03. 一些分享

乐享AI助手是什么

乐享AI助手的主要功能

如何使用乐享AI助手

乐享AI助手的应用场景

引言

什么是Prompt？

Prompt的概念

Prompt与AI的机制简介

Prompt的基本写法与常见结构

Prompt的表达方式

Prompt的基本构成要素

Prompt写作常见误区

Prompt优化的底层原理

Prompt如何影响AI回答的质量？

Token、上下文与信息完整性

“指引性”与“场景化”的重要性

常用的Prompt优化方法

明确目标与输出要求

分步骤提问/逐步细化法

示范法/例子补充法

角色设定法

输出限制与多输出法

附加背景和细节

多角度、多轮次修正

Prompt优化的实际应用场景

AI小白的Prompt优化自学攻略

常规学习路径

常用Prompt优化“万能句型”

AQ是什么

AQ的主要功能

如何使用AQ

AQ的应用场景

Midjourney V1是什么

Midjourney V1的主要功能

如何使用Midjourney V1

Midjourney V1的应用场景

LinGen是什么

LinGen的主要功能

LinGen的技术原理

LinGen的项目地址

LinGen的应用场景

EX-4D是什么

EX-4D的主要功能

EX-4D的技术原理

EX-4D的项目地址

EX-4D的应用场景

VFX8是什么

VFX8的主要功能

VFX8的官网地址

VFX8的核心优势

VFX8的应用场景

免责声明