Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集

    SeniorTalk是什么

    SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据,总时长达到 55.53小时。数据采集覆盖16个省市,涵盖不同地域口音,基于两两自发对话的方式,话题涉及退休、健康、生活等,贴近真实交流场景。数据集包含多维度精细标注,如说话人信息、对话内容转写、时间戳(句子级和词级)、口音类别标签等。SeniorTalk为深入研究老年人语音信号、优化老年人语音交互系统提供宝贵支撑,推动如设备适老化、健康管理、辅助养老机器人等相关产业的发展。

    SeniorTalk

    SeniorTalk的主要功能

    • 语音识别:提升超高龄老年人语音识别的准确率,助力开发更精准的语音识别系统,方便老年人使用语音交互。
    • 说话人验证:支持说话人验证技术研究,确保语音交互的安全性和可靠性。
    • 说话人分离:提供多说话人的对话数据,助力说话人分离技术研究,帮助在复杂环境中准确识别不同说话人的语音。
    • 语音编辑:提供自然对话数据,支持语音编辑技术研究,改善语音合成和编辑效果。
    • 健康监测与辅助交流:分析超高龄老年人语音特征,支持健康监测和辅助交流技术研究,为养老和健康管理提供数据支撑。

    SeniorTalk的技术原理

    • 数据采集:基于两两自发对话的方式,模拟真实交流场景,确保语音数据的自然性和真实性。用多种智能手机(包括安卓和苹果设备)进行录音,确保数据的多样性和适用性。遵循严格的法律和伦理规范,确保数据采集过程合法、安全,保护参与者的隐私。
    • 数据标注:包括说话人信息(如年龄、性别、地域、设备等)、对话内容转写、时间戳(句子级和词级)、口音类别标签等。基于人工标注和校对,确保数据的准确性和完整性。
    • 数据处理:基于16kHz采样率的WAV文件格式,确保音频质量。将数据集分为训练集、验证集和测试集,支持不同研究任务的需求。
    • 技术应用:基于Transformer、Conformer、E-Branchformer等先进模型进行训练,提升语音识别的性能。应用X-vector、ResNet-TDNN、ECAPA-TDNN等模型,进行说话人验证和分离的研究。用CampNet、EditSpeech、A3T等方法,研究语音编辑技术,改善语音合成的效果。

    SeniorTalk的项目地址

    SeniorTalk的应用场景

    • 智能养老系统:基于语音指令控制家电、查询信息,提升老年人生活便利性;实时监测语音健康状况并预警。
    • 辅助交流设备:帮助有语言障碍的老年人自然表达,准确识别多人对话中的特定语音指令。
    • 健康管理平台:分析语音特征评估健康状况,提供语音交互的健康咨询和提醒功能。
    • 智能语音助手:优化语音助手在老年用户中的表现,提供更自然、易理解的语音反馈。
    • 适老化产品研发:支持开发适合老年人的智能设备,确保语音交互功能适应老年人的使用习惯。
  • Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型

    Step-R1-V-Mini是什么

    Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视觉推理领域表现突出,同时在数学、代码和文本推理方面也处于第一梯队。采用多模态联合强化学习,基于 PPO 策略在图像空间引入可验证奖励机制,提升泛化性和鲁棒性。通过多模态合成数据训练,有效解决了训练中的跷跷板问题。

    Step-R1-V-Mini

    Step-R1-V-Mini的主要功能

    • 多模态输入与输出:支持图文输入与文字输出,能处理图像和文字信息,以文字形式输出推理结果,具备良好的指令遵循和通用能力。
    • 高精度图像感知与推理:能高精度感知图像并完成复杂推理任务,例如通过图像识别特定地点、分析美食图片并生成详细菜谱等。在 MathVision 视觉推理榜单中位列国内第一。
    • 数学问题求解:能构建合理的推理链,对复杂数学问题进行规划和逐步求解,包括奥数难题和几何题目。
    • 逻辑推理分析:自主尝试多种解题思路,自我反问以确保枚举出所有良好解决方案,在交卷前检查有无遗漏。
    • 复杂算法题解答:能正确解答 LeetCode 技术平台上难度评级为“Hard”的算法题。
    • 代码逻辑构建:逐步分析用户需求和意图,构建代码逻辑,在代码写作中穿插对当前代码片段的分析和验证。
    • 文学创作:深入理解用户表达需求,分析创作主题、文学题材等要求,赋予事物人类情感层面的象征意义,增加个性化、创新的表达风格。

    Step-R1-V-Mini的技术原理

    • 多模态联合强化学习:Step-R1-V-Mini 基于 PPO(Proximal Policy Optimization)策略的强化学习方法。PPO 是一种 On-Policy 算法,通过在线生成样本实时更新模型。在图像空间,模型引入了可验证奖励机制(verifiable reward),解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误。相比传统的 DPO(Direct Preference Optimization)等方法,PPO 在处理图像空间的复杂链路时更具泛化性和鲁棒性。
    • 高质量多模态数据合成:由于多模态数据的反馈信号相对难以获得,Step-R1-V-Mini 设计了大量基于环境反馈的多模态数据合成链路。通过合成可规模化训练的多模态推理数据,结合基于 PPO 的强化学习训练,模型能同步提升文本和视觉的推理能力。有效避免了训练中的“跷跷板”问题,即不同模态能力此消彼长的问题。
    • 冷启动与多阶段强化学习:Step-R1-V-Mini 的训练过程还涉及冷启动和多阶段强化学习。首先,通过收集高质量的冷启动数据(如 CoT 数据)对基础模型进行微调,得到初始模型。然后,基于模型进行大规模的强化学习训练,使其涌现推理能力。接着,使用训练后的模型生成高质量的 SFT 数据,混合其他领域的数据,再次进行 SFT 训练。最后,使用所有领域的数据进行最终的强化学习,得到最终的模型。

    如何使用Step-R1-V-Mini

    • 访问阶跃AI网页端:Step-R1-V-Mini 已正式上线阶跃AI,可以访问官方网站直接选择模型进行推理任务。
    • 调用API接口:对于开发者或企业用户,Step-R1-V-Mini 在阶跃星辰开放平台提供了API接口,可以通过访问阶跃星辰开放平台获取详细的API文档和调用方法。
    • 视觉推理:用户可以上传图像并输入相关问题,模型能高精度感知图像并完成复杂推理任务,例如识别图像中的地点、物体数量计算、菜谱识别等。
    • 数学与逻辑推理:输入数学问题或逻辑推理题目,模型能构建合理的推理链并逐步求解。

    Step-R1-V-Mini的应用场景

    • 图像识别与分析:能高精度感知图像并完成复杂推理任务。模型可以迅速识别图中元素,结合颜色、物体等信息,综合判断出地点为温布利体育场,给出对战双方的可能信息。
    • 物体数量计算:输入一张含有不同形状、不同颜色、不同位置的物体摆放图,模型能逐一识别并进行逻辑推理,最终得出剩余物体的数量。
    • 菜谱识别:输入一张美食图,模型能精准识别菜品和蘸料,详细列出具体用量。
    • 多模态数融合:能处理包含文本和图像的多模态数据,生成综合的推理结果。
    • 跨模态推理:将图像转换为形式化的文本描述,使语言模型能够精确地处理和推理图像。
  • MagicColor – 香港科技大学推出的多实例线稿图着色框架

    MagicColor是什么

    MagicColor 是香港科技大学推出的多实例线稿图着色框架,支持高效地为线稿图添加色彩。MagicColor基于自监督训练策略和实例引导模块,解决多实例数据不足的问题,实现精准的实例级色彩控制。与传统方法相比,MagicColor 能在单次前向传播中完成多实例线稿图的着色,大幅提高着色效率,适用于动画制作和数字艺术创作等领域。

    MagicColor

    MagicColor的主要功能

    • 多实例线稿图着色:MagicColor能同时处理多个实例的草图着色任务,为每个实例分配准确的颜色。
    • 自动化着色:自动将线稿图转换为色彩丰富的图像。
    • 参考图像驱动:用户提供参考图像,MagicColor根据参考图像的色彩和风格为草图着色,确保输出图像与参考图像在视觉上保持一致。
    • 实例级控制:精确控制每个实例的颜色,在复杂的多实例场景中保持细节和色彩的准确性。
    • 边缘增强:模型在着色时关注图像的边缘和高频区域,提高着色的准确性和视觉质量。

    MagicColor的技术原理

    • 扩散模型基础:MagicColor基于预训练的扩散模型,基于扩散模型强大的生成能力和语义一致性保持能力,将草图转换为彩色图像。
    • 自监督训练策略:为解决多实例训练数据不足的问题,MagicColor用两阶段自监督训练策略。第一阶段用单参考图像进行训练,第二阶段基于随机融合、缩放等操作生成多实例数据,进一步优化模型的多实例着色能力。
    • 实例引导模块:模块提取参考图像的实例特征,与草图对齐,实现精准的实例级色彩控制。用 DINOv2 提取的特征和 ROI 对齐技术,确保每个实例的颜色准确传递到目标草图中。
    • 边缘损失与色彩匹配:为提高着色的视觉质量,MagicColor引入边缘损失函数,让模型关注图像的边缘和结构细节。基于色彩匹配技术,模型在参考图像和目标草图之间建立像素级的对应关系,确保色彩的准确传递。
    • 双 UNet 架构:MagicColor结合两个 UNet 架构,一个用在处理参考图像,另一个用在生成最终的彩色图像。让模型更好地融合参考图像的色彩信息和草图的结构信息,生成高质量的着色结果。

    MagicColor的项目地址

    MagicColor的应用场景

    • 动画制作:快速为多角色草图着色,提升制作效率,保持色彩风格一致。
    • 数字艺术创作:快速实现草图色彩化,激发创意,生成多种色彩版本。
    • 游戏开发:快速生成角色和场景色彩版本,提升开发效率,生成风格化资产。
    • 教育与培训:作为教学工具,帮助学生快速理解色彩理论,提升色彩运用能力。
    • 广告与媒体:快速生成高质量彩色草图,满足广告设计需求,提升视觉吸引力和品牌一致性。
  • ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集

    ChildMandarin是什么

    ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音数据,来自397名儿童,覆盖中国22个省级行政区,性别分布均衡。数据用智能手机录制,确保高质量音频。ChildMandarin核心特点是自然真实交互,用家长引导式对话采集方式,模拟自然交流场景。数据集填补了低幼儿童语音研究的空白,推动儿童语音识别、语言发展研究及智能语音交互系统的发展。

    ChildMandarin

    ChildMandarin的主要功能

    • 语音识别:为自动语音识别(ASR)模型提供大量3-5岁儿童的自然语音数据,提升儿童语音识别的准确性和鲁棒性。
    • 说话人验证:支持说话人验证(SV)任务,帮助识别和区分不同儿童的声音,用在儿童身份认证等场景。
    • 语言研究:为儿童语言发展研究提供数据支持,助力开发儿童语言学习工具和互动教育系统。

    ChildMandarin的技术原理

    • 数据采集:用家长引导式对话的方式,模拟自然交流场景,确保语音数据的真实性和自然性。数据采集覆盖中国22个省级行政区,确保不同地域口音的多样性。用智能手机(Android和iPhone)进行录音,确保音频质量高,采样率为16kHz,精度为16位。
    • 数据标注:由专业转录人员进行手动标注,包括儿童的发音、停顿、重复等自然语言现象。标注说话人的年龄、性别、出生地、录音设备、口音等级等信息。
    • 模型训练和评估:用多种ASR模型(如Transformer、Conformer、Paraformer)进行训练和评估,基于CTC、AED、RNN-T等技术。对预训练模型(如HuBERT、Whisper)进行微调,用在大规模数据上学习到的特征,提升儿童语音识别的性能。用说话人嵌入提取模型(如x-vector、ECAPA-TDNN、ResNet-TDNN)进行说话人验证任务,评估模型在儿童语音上的表现。
    • 数据集设计:数据集分为训练集、验证集和测试集,确保模型训练和评估的科学性和有效性。基于多样化的数据采集和标注,确保数据集能够覆盖不同年龄段、性别、地域和口音的儿童语音。

    ChildMandarin的项目地址

    ChildMandarin的应用场景

    • 儿童语言学习工具:开发智能语音辅助工具,帮助儿童学习语言发音、词汇和语法,提升语言能力。
    • 互动教育系统:为儿童教育软件和互动学习平台提供语音交互功能,让学习过程更加生动有趣。
    • 智能玩具开发:增强智能玩具的语音识别能力,更好地理解儿童的语音指令,提升互动体验。
    • 语音助手优化:改进语音助手(如智能音箱、手机助手)对儿童语音的识别和响应,更适合儿童使用。
    • 儿童健康管理:监测儿童的语言发展和健康状况,为早期干预提供支持。
  • SkyReels-A2 – 昆仑万维推出的可控视频生成框架

    SkyReels-A2是什么

    SkyReels-A2是昆仑万维推出的可控视频生成框架,支持根据文本提示将任意视觉元素(如人物、物体、背景)组合成合成视频,严格保持与每个元素的参考图像的一致性。基于设计全面的数据管道构建用在模型训练的提示、参考、视频三元组,推出新颖的图像文本联合嵌入模型。SkyReels-A2优化了推理管道的速度和输出稳定性,引入基准A2 Bench用在系统评估。

    SkyReels-A2

    SkyReels-A2的主要功能

    • 多元素组合:将任意视觉元素(如人物、物体、背景等)组合成合成视频,严格保持与每个元素的参考图像的一致性。
    • 文本驱动生成:根据文本提示生成视频,用户基于文字描述精确控制视频的内容和风格。
    • 高质量视频输出:生成的视频具有高分辨率和高质量,满足多种应用场景的需求。
    • 实时交互:支持用户在生成过程中进行实时交互,调整生成参数获得更符合需求的视频结果。

    SkyReels-A2的技术原理

    • 扩散模型:SkyReels-A2用扩散模型的特性,将噪声逐步转化为高质量的视频内容。模型基于去噪过程,将随机噪声逐步转化为目标视频,用文本和图像提示引导生成过程。
    • 图像-文本联合嵌入模型:SkyReels-A2设计新颖的图像-文本联合嵌入模型,将参考图像和文本提示嵌入到共同的特征空间中。基于双分支结构,分别提取参考图像的空间特征和语义特征,注入到扩散模型的生成过程中。空间特征基于3D VAE(变分自编码器)提取,确保局部细节的保留,语义特征基于CLIP模型提取,确保全局语义的一致性。
    • 数据管道:构建全面的数据管道,用在生成高质量的文本、参考图像、视频三元组。数据管道包括视频预处理、关键帧分割、多专家视频字幕生成、视觉元素提取等步骤,确保生成的训练数据能够有效支持模型学习。
    • 优化的推理管道:为提高生成速度和稳定性,SkyReels-A2对推理管道进行优化。基于UniPC多步调度策略,结合并行化处理技术(如Context Parallel、CFG Parallel和VAE Parallel),显著提高模型的推理效率。基于模型量化和参数级卸载策略,降低GPU内存消耗,支持在消费级显卡上运行。
    • 评估基准A2 Bench:SkyReels-A2引入基准A2 Bench,用在系统评估元素到视频(E2V)任务的性能。A2 Bench从多个维度(如组成一致性、视觉质量、文本对齐等)进行评估,确保模型在不同场景下的表现满足实际应用需求。

    SkyReels-A2的项目地址

    SkyReels-A2的应用场景

    • 戏剧与影视制作:快速生成虚拟场景和角色视频,降低拍摄成本。
    • 虚拟电商:生成产品展示和虚拟试穿视频,提升购物体验。
    • 音乐视频创作:根据音乐内容生成创意视频,无需复杂拍摄。
    • 广告与营销:生成个性化广告和品牌宣传视频,增强吸引力。
    • 教育与培训:生成虚拟教学场景和技能演示视频,提升教学效果。
  • ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

    ACTalker是什么

    ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

    ACTalker

    ACTalker的主要功能

    • 多信号控制与单信号控制:ACTalker 支持多信号控制和单信号控制,能用音频、表情等多种信号来驱动说话人头部视频的生成。
    • 自然协调的视频生成:通过 Mamba 结构,使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记,确保受控视频在时间和空间上的自然协调。
    • 高质量的视频生成:实验结果表明,ACTalker 能生成自然、逼真的面部视频,在多信号控制下,Mamba 层能无缝整合多种驱动模态,无冲突地生成视频。

    ACTalker的技术原理

    • 并行 Mamba 结构:ACTalker 采用并行 Mamba 结构,包含多个分支,每个分支利用单独的驱动信号(如音频、表情等)来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程,互不干扰,实现多信号控制。
    • 门控机制:在所有分支中应用了门控机制,在训练时随机开启或关闭,在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式,支持在不同情况下选择使用单一信号或多种信号进行驱动。
    • 掩码丢弃策略(Mask-Drop):ACTalker 引入了掩码丢弃策略,支持每个驱动信号独立控制其对应的面部区域。在训练过程中,策略通过随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,提高生成内容的质量,防止控制冲突。
    • 状态空间建模(SSM):为了确保受控视频在时间和空间上的自然协调,ACTalker 采用了状态空间建模(SSM)。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记,实现自然的面部动作协调。
    • 视频扩散模型基础:ACTalker 基于视频扩散模型进行构建,在去噪过程中引入多分支控制模块。每个 Mamba 分支处理特定模态信号,通过门控机制动态调整各模态影响权重。

    ACTalker的项目地址

    ACTalker的应用场景

    • 虚拟主播:ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动,提升观众的观看体验。
    • 远程会议:在远程会议中,ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题,能让参会者在视频信号不佳时,通过音频和表情信号生成自然的面部视频,增强远程交流的真实感。
    • 在线教育:在线教育场景中,教师可以用 ACTalker 生成自然的说话头视频,通过音频和表情信号的控制,使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。
    • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。
    • 娱乐与游戏:在娱乐和游戏领域,ACTalker 可以为角色生成自然的说话头视频,增强角色的表现力和代入感。
  • Awesome MCP Servers – 开源的MCP资源聚合平台,覆盖多个垂直领域

    Awesome MCP Servers是什么

    Awesome MCP Servers 是开源项目,汇集各种基于 Model Context Protocol (MCP) 的服务器。Awesome MCP Servers 整理超过 3000 个 MCP 服务器,覆盖浏览器自动化、金融、游戏、安全、科研等20多个垂直领域,支持本地和云服务部署。MCP服务器主要为 AI 大模型提供丰富的外部数据访问和工具调用能力。Awesome MCP Servers 为开发者提供丰富的资源,推动 AI 与外部系统交互的标准化和便捷性。

    Awesome MCP Servers

    Awesome MCP Servers的主要功能

    • 资源集成:基于 MCP 协议,使 AI 模型连接到各种外部资源,如文件系统、数据库、云服务等,扩展功能。
    • 多领域支持:覆盖浏览器自动化、金融、游戏、安全、科研等多个领域,提供丰富的服务器实现。
    • 开发支持:支持多种编程语言(如 Python、TypeScript、Go 等),提供开发框架(如 FastMCP)和工具,简化开发过程。
    • 社区与生态:基于 GitHub、Discord、Reddit 等平台提供社区支持,和详细的教程和文档,帮助开发者快速上手。

    Awesome MCP Servers的部分MCP

    • 浏览器自动化:MCP-Playwright 提供浏览器自动化能力,让 AI 大模型在真实浏览器环境中导航网页、执行点击/输入操作、截取屏幕截图及运行 JavaScript。
    • 管理 Notion:notion_mcp 连接 AI 大模型与 Notion 平台,支持自动化页面管理、内容同步、模板生成等。
    • 金融:coinmarket-mcp-server 基于 Coinmarket API 获取加密货币的行情数据,包括价格、市值、交易量等。
    • 游戏:mcp-unity为 Unity3D 游戏引擎提供集成,支持游戏开发中的编辑、运行、调试和场景管理等功能。
    • 搜索 :arxiv-mcp-server 支持 AI 模型基于编程接口搜索 arXiv 学术论文库中的论文、下载内容,进行深度分析(如摘要提炼、方法评估和结果解读),同时支持本地存储加速访问。
    • 安全:dnstwist MCP Server基于 dnstwist 工具检测域名拼写错误、钓鱼网站等安全问题。
    • 位置服务:mcp-server-google-maps 集成 Google Maps 服务,提供位置服务、路线规划和地点详情查询。
    • 版本控制 :mcp-server-git 直接操作 Git 仓库,包括读取、搜索和分析本地仓库。
    • 社交:vrchat-mcp 与VRChat API交互的MCP服务器,支持获取VRChat的好友、世界、化身等信息。

    如何使用Awesome MCP Servers

    • 选择合适的 MCP 服务器
      • 浏览 Awesome MCP Servers 列表:访问 Awesome MCP Servers 的 GitHub 仓库。浏览不同类别的 MCP 服务器实现。根据需求选择合适的服务器。
      • 查看服务器的详细信息:点击感兴趣的服务器链接,进入 GitHub 仓库地址。阅读 README.md 文件,了解服务器的功能、安装步骤、使用方法和示例代码。检查服务器的图例标记(如编程语言、部署环境、支持的操作系统等),确保符合技术栈和部署需求。
    • 安装和配置 MCP 服务器
      • 克隆仓库:在本地开发环境中,克隆所选 MCP 服务器的 GitHub 仓库。例如:
    git clone https://github.com/executeautomation/mcp-playwright.git
    cd mcp-playwright
      • 安装依赖:根据 README.md 文件中的说明,安装所需的依赖项。例如,对于 mcp-playwright
    npm install
      • 配置服务器:如果需要,配置服务器的参数,例如连接到外部服务的 API 密钥、数据库地址等。
    • 启动 MCP 服务器
      • 运行服务器:根据 README.md 文件中的说明,启动 MCP 服务器。例如:
    npm start
      • 验证服务器运行状态
        • 访问服务器的文档页面(通常在 localhost:8080/docs),查看 API 文档和示例请求。
        • 发送测试请求,确保服务器正常运行。
    • 集成到 AI 模型或应用程序
      • 选择客户端工具:选择适合使用的 AI 模型或应用程序的客户端工具。
      • 安装客户端工具
    npm install @mcp-langchain-ts-client
      • 编写集成代码:在 AI 模型或应用程序中,编写代码调用 MCP 服务器。
    import { MCPClient } from '@mcp-langchain-ts-client';
    
    const client = new MCPClient('http://localhost:8080');
    
    async function fetchData() {
      const result = await client.call('playwright.fetch', {
        url: 'https://example.com',
        action: 'click',
        selector: '#some-button',
      });
      console.log(result);
    }
    
    fetchData();
      • 测试和调试:运行代码,确保 AI 模型能够通过 MCP 服务器成功调用外部资源。根据需要调整代码和服务器配置,优化性能和功能。

    Awesome MCP Servers的项目地址

    Awesome MCP Servers的应用场景

    • 自动化任务:基于浏览器自动化工具,自动完成网页导航、数据抓取等任务,提高工作效率。
    • 金融数据:基于金融领域的 MCP 服务器,AI 实时获取金融市场数据,辅助投资决策。
    • 游戏开发:在游戏开发中,用 MCP 服务器与游戏引擎集成,AI 辅助设计、测试和优化游戏。
    • 安全检测:基于安全领域的 MCP 服务器(如 mcp-dnstwist),AI 检测域名拼写错误和钓鱼网站,增强网络安全。
    • 科研研究:在科研领域,用 MCP 服务器连接学术论文库,AI 快速搜索和分析学术论文,加速研究进程。
  • AnimeGamer – 腾讯联合香港城市大学推出的动漫生活模拟系统

    AnimeGamer是什么

    AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉浸于动态游戏世界中。玩家能操控如《悬崖上的金鱼姬》中的宗介等角色,与游戏世界互动。游戏支持生成具有上下文一致性的动态动画镜头(视频)及角色状态(如体力、社交和娱乐值)的更新。相比传统方法,AnimeGamer 在角色一致性、语义一致性和动作控制等方面表现出色,为玩家带来沉浸式的动漫游戏体验。

    AnimeGamer

    AnimeGame的主要功能

    • 角色扮演与互动:玩家扮演动漫角色,如《悬崖上的金鱼姬》的宗介,与游戏世界互动,让不同动漫的角色相遇互动。
    • 动态动画生成:根据玩家指令,实时生成动态动画镜头(视频),展现角色动作和场景变化,且动画具有上下文一致性和动态性。
    • 角色状态更新:根据角色行为和互动,动态更新角色的体力、社交和娱乐值,反映角色在游戏世界中的状态变化。
    • 多轮对话交互:支持玩家基于自然语言进行多轮对话,模型基于历史上下文生成一致的游戏状态,提供连贯的游戏体验。
    • 自定义游戏内容:支持玩家自定义喜欢的角色和场景。

    AnimeGame的技术原理

    • 多模态大语言模型:AnimeGamer 基于多模态大语言模型(MLLM),理解和生成包含文本和视觉信息的多模态数据。
    • 动作感知多模态表示:游戏将动画镜头分解为视觉参考、动作描述和动作强度三个部分,基于编码器将信息整合为多模态表示。基于视频扩散模型解码为高质量的动态视频,确保生成的动画镜头具有上下文一致性和动态性。
    • 视频扩散模型:视频扩散模型(如 CogVideoX)作为动画镜头的解码器,将多模态表示解码为动态视频。引入动作强度作为额外的条件,控制生成视频中的动作幅度,让动画更加自然和真实。
    • 上下文一致性:将历史动画镜头的多模态表示作为上下文输入,模型能预测后续的游戏状态,确保生成的动画镜头在上下文中保持一致,对于维持游戏的连贯性和沉浸感至关重要。
    • 角色状态管理:游戏基于 MLLM 预测角色的体力、社交和娱乐值的更新,状态更新反映角色在游戏世界中的行为和互动。角色状态的动态更新增加游戏的真实感和互动性。

    AnimeGame的项目地址

    AnimeGame的应用场景

    • 个性化娱乐:玩家可选择喜欢的动漫角色和场景,基于语言指令体验专属冒险故事。
    • 创意激发:为创作者提供灵感,生成角色互动和新剧情。
    • 教育辅助:帮助学生学习语言表达和逻辑思维。
    • 社交互动:玩家与朋友共同创造和分享动漫冒险故事。
    • 游戏开发:助力开发者快速生成游戏内容,降低开发成本。
  • OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

    OmniCam是什么

    OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容。 通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。

    OmniCam

    OmniCam的主要功能

    • 多模态输入支持:用户可以提供文本或视频作为轨迹参考,以及图像或视频作为内容参考,实现对摄像机运动的精确控制。
    • 高质量视频生成:基于大型语言模型和视频扩散模型,生成时空一致的高质量视频。
    • 灵活的摄像机控制
      • 支持帧级控制,可设置操作的起始和结束帧。
      • 支持任意方向的复合运动、相机拉近和推远,移动和旋转到任意角度。
      • 支持速度控制,为快速剪辑提供基础。
      • 支持多种操作的无缝连接,支持长序列操作,允许连续执行多个指令。
      • 支持常见的特效如相机旋转。
    • 数据集支持:引入了 OmniTr 数据集,是首个针对多模态相机控制的大型数据集,为模型训练提供了坚实的基础。

    OmniCam的技术原理

    • 轨迹规划:用户输入文本或视频后,OmniCam 首先将这些输入转化为离散运动表示,将复杂的指令拆解成一个个简单的动作。通过精准的轨迹规划算法,计算出每一帧画面中相机的具体位置和姿态,为后续的生成做好准备。具体来说,算法将相机运动围绕物体中心建模为球面运动,计算出轨迹上每一点的空间位置,转换为相机外参序列。
    • 内容渲染:结合用户提供的内容参考(图像或视频)以及规划好的相机轨迹,OmniCam 运用先进的 3D 重建技术,渲染出初始视角的视频帧,在渲染过程中,会使用点云、相机内参和外参等信息,通过特定算法优化相机内参,完成视频帧的渲染。
    • 细节完善:在渲染过程中,OmniCam 的扩散模型会基于自身的先验知识,对视频帧进行细节补充,填补那些空白区域,最终生成出完整、精美的视频。
    • 大规模模型训练:以 Llama3.1 为骨干网络进行微调,训练大规模模型。
    • 视频扩散模型训练:对视频扩散模型进行训练。
    • 强化学习微调:冻结下游视频生成模型,将其作为奖励模型,利用 PPO 算法对轨迹大模型进行微调,以优化模型性能。

    OmniCam的项目地址

    OmniCam的应用场景

    • 影视制作:OmniCam 可以快速生成复杂的镜头运动,帮助导演和制片人节省大量设计和拍摄镜头的时间与精力,提高制作效率,实现更多创意想法。
    • 广告宣传:广告商可以用 OmniCam 根据不同宣传需求快速调整镜头角度和运动轨迹,制作出更具吸引力的广告视频,吸引消费者的目光。
    • 教育与培训:OmniCam 能生成生动形象的教学视频,将复杂的概念变得简单易懂。学生通过观看这些视频,可以更好地理解和掌握知识,提高学习效果。
    • 智能安防:OmniCam 可以用于城市治安监控、交通管理、应急指挥等场景,实现多部门视频资源整合与联动。
  • Quasar Alpha – 支持百万 token 上下文的免费 AI 模型

    Quasar Alpha是什么

    Quasar Alpha 是支持 100 万 token 的超大上下文窗口的预发布版 AI 模型,可处理超长文本和复杂文档。代码生成能力出色,生成速度快,延迟低,指令遵循能力强,支持联网功能和多模态功能,安全性也有所增强。目前在 OpenRouter 上完全免费提供使用,有请求次数限制。

    Quasar Alpha

    Quasar Alpha的主要功能

    • 超大上下文窗口:拥有 100 万 token 的上下文窗口,能处理超长文本和复杂文档。
    • 代码生成能力:专为代码生成优化,可快速生成高质量代码,适用于多种编程语言。
    • 高速与低延迟:生成速度平均每秒 136 个 token,延迟仅为 0.5 秒,性能出色。
    • 指令遵循能力:在指令遵循方面表现优异,优于 Claude 3.5 Sonnet 和 Gemini Pro 2.5。
    • 联网功能:支持联网搜索,通过附加 :online 标识,AI 可先搜索再返回结果,增强回答的可信度。
    • 多模态功能:支持图像处理等多模态功能,应用范围更广。

    Quasar Alpha的项目地址

    Quasar Alpha的应用场景

    • 代码生成与开发辅助:Quasar Alpha 在代码生成方面表现出色,能帮助开发者快速生成高质量的代码。支持多种编程语言,可以创建完整的网站、交互式地图、模拟和动画等。
    • 长上下文任务处理:Quasar Alpha 能处理复杂的长文本任务,如法律文件分析、学术研究、技术文档编写等。
    • 创意写作与内容创作:内容创作者可以用 Quasar Alpha 获取灵感和建议,提升创作效率。
    • 多模态应用:Quasar Alpha 支持多模态功能,能处理图像、文本等多种类型的数据。
    • 智能问答与知识检索:Quasar Alpha 可以作为智能问答系统的核心,提供准确的知识检索和信息提炼。能结合联网功能,通过搜索获取最新信息生成回答。