Author: Chimy

  • RF-DETR – Roboflow推出的实时目标检测模型

    RF-DETR是什么

    RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,性能优于现有的目标检测模型。RF-DETR结合LW-DETR与预训练的DINOv2主干,具备强大的领域适应性。RF-DETR支持多分辨率训练,根据需要在精度和延迟间灵活权衡。RF-DETR提供预训练检查点,方便用户基于迁移学习在自定义数据集上进行微调。

    RF-DETR-website

    RF-DETR的主要功能

    • 高精度实时检测:在COCO数据集上达到60+的平均精度均值(mAP),保持实时性(25+ FPS),适用于对速度和精度要求较高的场景。
    • 强大的领域适应性:适应各种不同的领域和数据集,包括但不限于航拍图像、工业场景、自然环境等。
    • 灵活的分辨率选择:支持多分辨率训练和运行,用户根据实际需求在精度和延迟之间进行权衡。
    • 便捷的微调和部署:提供预训练的检查点,用户基于检查点在自定义数据集上进行微调,快速适应特定任务。

    RF-DETR的技术原理

    • Transformer架构:RF-DETR属于DETR(Detection Transformer)家族,基于Transformer架构进行目标检测。与传统的基于CNN的目标检测模型(如YOLO)相比,Transformer能更好地捕捉图像中的长距离依赖关系和全局上下文信息,提高检测精度。
    • 预训练的DINOv2主干:模型结合预训练的DINOv2主干网络。DINOv2是强大的视觉表示学习模型,基于在大规模数据集上进行自监督预训练,学习到丰富的图像特征。将预训练的特征应用到RF-DETR中,让模型在面对新领域和小数据集时具有适应能力和泛化能力。
    • 单尺度特征提取:与Deformable DETR的多尺度自注意力机制不同,RF-DETR从单尺度主干中提取图像特征图。简化模型结构,降低计算复杂度,保持较高的检测性能,有助于实现实时性。
    • 多分辨率训练:RF-DETR在多个分辨率上进行训练,让模型在运行时根据不同的应用场景选择合适的分辨率。高分辨率提高检测精度,低分辨率则减少延迟,用户根据实际需求灵活调整,无需重新训练模型,实现精度与延迟的动态平衡。
    • 优化的后处理策略:在评估模型性能时,RF-DETR基于优化的非极大值抑制(NMS)策略,确保在考虑NMS延迟的情况下,模型的总延迟(Total Latency)保持在较低水平,真实地反映模型在实际应用中的运行效率。

    RF-DETR的项目地址

    RF-DETR的应用场景

    • 安防监控:实时检测监控视频中的人员、车辆等,提升安防效率。
    • 自动驾驶:检测道路目标,为自动驾驶提供决策依据。
    • 工业检测:用在生产线上的质量检测,提高生产效率。
    • 无人机监测:实时检测地面目标,支持农业、环保等领域。
    • 智能零售:分析顾客行为,管理商品库存,提升运营效率。
  • HitPaw Univd – 多功能AI视频转换工具,高速转换、无损压缩

    HitPaw Univd是什么

    HitPaw Univd 是功能强大的人工智能驱动的多功能视频转换工具。支持将视频和音频文件转换为1000多种格式,涵盖主流编解码器,满足不同设备和平台的需求。无损转换技术可确保音视频质量不受损,特别适合处理高保真音乐文件。 内置了Tettime编辑器,用户可以在转换前后轻松剪辑、裁剪、添加字幕或调整音量等。

    HitPaw Univd

    HitPaw Univd的主要功能

    • AI驱动视频转换:智能优化视频转换与压缩,120 倍速转换,提升画质与效率。
    • 支持多种格式:可将视频和音频文件转换为1000多种格式,包括MP4、MOV、AVI、VOB、MKV等,支持高级编解码器VP9、ProRes和Opus。
    • 无损转换:在不损失质量的情况下转换Apple Music、Spotify、Deezer或Tidal服务的音乐文件。支持 1000+ 视频、音频、DVD、图片格式转换
    • AI 画质修复:智能增强低清视频,提升清晰度和细节,让老旧视频焕然一新。
    • 视频下载:支持从10000多个网站下载视频、电影和音乐,包括YouTube、Bilibili、Facebook、Instagram等。
    • 内置编辑器:提供Tettime编辑器,可在转换之前或之后编辑视频。
    • AI工具:包括语音转文字、AI模糊面部、背景噪声消除器、人声消除器等功能。
    • 无损压缩:智能压缩大视频文件,保持原始画质,适应电子邮件或网络传输,支持批量压缩视频。
    • DVD和蓝光转换:可将自制DVD和蓝光转换为1000多种媒体格式,或将视频转换为DVD光盘、ISO文件或文件夹。

    HitPaw Univd的官网地址

    HitPaw Univd的产品定价

    • 1月订阅:590新台币,适合短期需求用户,灵活方便。
    • 1年订阅:1190新台币,长期用户更划算,性价比高。
    • 永久订阅:1990新台币,适合长期使用,终身享受所有功能和更新。

    如何使用HitPaw Univd

    • 安装启动:下载安装HitPaw Univd,安装完成后启动程序,进入操作界面。
    • 添加视频:点击“添加视频”按钮,或直接将视频文件拖拽到程序界面中。
    • 选择输出格式:在输出格式选项中,选择目标格式(如MP4、AVI、MOV等),点击“全部转换”。
    • 完成转换:等待转换完成,转换时间取决于视频的长度和大小。完成后,可在目标文件夹中找到转换后的文件。

    HitPaw Univd的应用场景

    • 视频格式转换:HitPaw Univd 可以轻松将视频转换为支持播放的格式。
    • 音乐转换:将Apple Music、Spotify等平台的音乐转换为常见格式,以便在其他设备上播放。
    • 无损音频提取:从视频中提取音频,并保持高质量输出,适合需要提取背景音乐或制作音频素材的用户。
    • 制作教学材料:教师可以使用HitPaw Univd 将教学视频转换为适合不同设备的格式,或者对视频进行编辑,添加注释和字幕,以提高教学效果。
  • 如何用DeepSeek生成课堂互动小游戏,一键制作英语单词卡片

    前天凌晨,DeepSeek V3模型升级了一波,版本号到了DeepSeek-V3-0324。

    最新模型的测评结果显示,新版本的V3模型有更强的编程与技术能力,前端代码生成质量接近行业标杆Claude 3.7水平。

    有很多朋友都在疑问,现在AI这么强了,为什么我找不到一个合适的使用场景。

    没关系,我找到了自然会分享给大家~

    最近看到一个特别有意思的AI用法,用DeepSeek辅助学习

    这个像消消乐一样的小游戏,我们通过点击屏幕将单词和其对应的中文意思匹配、消除,在这样的记忆过程中可以获得即时反馈,学习的趣味性大大增强! 

    这样的小游戏用DeepSeek一句话就能生成,而且还可以拓展超多使用方向。

    接下来,我们一起试试DeepSeek在学习场景中的实际应用。掌握这些技巧,让你的学习效率提升百倍!

    01

    小试牛刀

    做一个游戏自己玩

    比如,我们想做一个闪记卡片,帮助我们背单词。此时我们就要找一个能编程的大模型。比较适合的就是刚更新的DeepSeek-V3-0324。

    接入平台我选择的是问小白,它的RAG交叉验证和DeepSeek配合的相当不错,响应速度非常快。

    我们首先做一个闪记卡片程序,把要背的单词通过图片形式上传,然后输入提示词:

    • 识别图中的单词,同时给出每个词的释义和例句,然后帮我生成单词Flash Card的互动页面,辅助单词记忆。
    • 1.界面要求精美直观,单词卡片可以3D翻转,卡片下面有一个随机切换下一次的按钮。
    • 2.每次点击”随机下一个”按钮时,卡片会直接显示正面。
    • 3.交换按钮要能正常使用,布局合理,不要有重叠重合。
    • 4.所有单词都要包含其中,一次生成完,不可省略。

    DeepSeek V3的回答没有推理过程,发送需求后,问小白几乎是1秒响应,就开始库库干活,不到1分钟就生成了一套代码,不得不说真的太效率了!

    在回答的最后,附上了这段代码的功能和使用方法的说明。

    我们按照它的提示,新建一个文本文档。点击代码框右上角的复制按钮,把整段代码粘贴进文本文档保存,把文件名后缀“.txt”修改为“.html”。

    双击文件,就可以在浏览器中打开这个程序。

    在这个界面能直接互动,辅助单词记忆。

    不得不说,问小白接入的DeepSeek-V3-0324太聪明了,一下就能理解我的全部需求,生成页面看起来又简洁又美观,使用起来也很流畅,太牛了!

    更让我惊喜的是,它的长上下文记忆已经扩展到了128K,我每次提出需求时,它都会参考之前的内容再回答我当前的问题。

    比如,我们继续指令它:

    • 根据以上单词,生成【你正在复习考试/四级】级别的英语单词4选1中短句填空题,并且输出成可通过点选交互的HTML格式,供用户复习测试使用。
    • 1.每道题的正确答案不一定是我们给出的单词,能强化单词记忆即可。
    • 2.HTML界面UI设计要有鲜明的色块和交互设计感。
    • 3.把答案和解析放到每道题目卡片的翻转页,完成答题后,有单独的Check Answer键触发翻转页面,并用中文给我每道题的解析。
    • 4.每道题的4个选项显示在题目下方。

    我们打开它生成的单词测试题界面。做完每道题就能立即检查答案,解析就在题目卡片的下方,非常贴心。

    我们继续给它上点难度:

    • 给以上背单词程序增加夜间模式切换按钮,并重新输出一个完整的html程序,保证功能都能正常使用

    我们可以通过按钮,随时切换页面的模式,让我们在学习时,眼部更舒适。

    我们也可以让AI给我们的学习效果进行点评并给出建议:

    • 做完一整套题后,给到我们评分跟学习建议。

    经过以上这些步骤,我们就学会了从零搭建一个定制化的背单词程序,是不是很简单?

    02

    专业搜索

    问小白技术不简单

    上面这些便利只是针对于成年人的自学,我知道有很多家长有时候面对自己家里的孩子不会的题时也会非常头疼,这个问题问小白也能简单解决。

    比如,我们给它输入一道高中英语题,它不仅仅是给出答案,也会给出具体的解题思路。

    有了问小白,即使遇到不擅长的内容,我们也能轻松给孩子做辅导。
    我们可以让问小白根据孩子的学习进度,做学习规划。比如,输入:

    • 系统讲解高分英语四级作文的结构,并提供一些常见高分句型和模板。此外,给我几个热门英语四级写作题目,并附上详细的范文解析

    我们可以打开问小白的联网搜索,选择专业搜索。

    问小白直接整理100+篇网页内容,结合多模态、多领域的高质量知识库内容,给出的回答又快又有深度。

    在Chinese SimpleQA评测中,问小白 DeepSeek R1 以91.60%的F-score 成绩显著领先,一度成为中文RAG技术标杆。

    Chinese SimpleQA评测结果

    03

    互动课程

    问小白V3也可以

    问小白也能帮我们开发一些课堂的新玩法,比如,在课堂上设计一个小游戏,提升学生与知识的互动性。

    我们可以在问小白中输入以下提示词:

    • 请设计一个游戏,标题为Word Challenge,标题摆放在屏幕最上方居中的位置,页面背景颜色清新自然。屏幕平均分为左右两个界面,左边背景是淡黄色,右边则是淡绿色,左边界面中显示9个单词,左边界面中显示分别显示这9个单词的中文意思,顺序打乱但不重复,左右两边界面里的内容都整齐均匀地排列。设计一个start按钮,start按钮在页面下方。点击start按钮之后游戏开始。单词的列表为:China、teacher、student、boy、girl、women、man、long、fat
    • 1.界面要求精美直观,布局合理,不要有重叠重合。
    • 2.点击左边的单词后,再点击右边对应的中文释义,配对成功它们就会消失。
    • 3.整个环节设置得分机制,单词和释义配对成功可以加一分,反之不得分也不扣分。
    • 4.在一次配对错误后游戏结束,显示本次总得分。

    在它输出内容之后,我们就得到了最开始的消消乐小游戏。而且它不仅做到了游戏界面的优化,还加入了很多动态的效果,让整个小游戏看起来简洁又美观。

    04

    小白研报

    问小白内测深度研究

    最近,我发现问小白有一个Pro版本的联网搜索功能正在搞内测。

    小白研报模式中,大模型会根据我们的需求,搜集、整理大量的专业资料,直接输出成一个可视化页面。

    不仅有专业输出能力,这个可视化网页的布局更是能帮你一眼厘清重点。

    几个场景用下来,真的实实在在感受到问小白最一流的大模型和最一流的专业搜索能力的强大。

    更绝的是,这么顶级的配置,所有人都能完全免费、不限量使用。

    如果你也在学习中遇到了问题,快去试试问小白吧。

    问小白官网:问小白

    本文实例参考:

    单词闪卡和测试题https://www.wenxiaobai.com/share/chat/6cdc29ff-44ef-4453-8903-a90416ba9be6

    学习规划https://www.wenxiaobai.com/share/chat/d4802c02-e398-4f65-ad87-cd4012f6790c

    Word Challenge小游戏https://www.wenxiaobai.com/share/chat/1fa44062-5d72-4c84-8933-b2a860c8f55e

    原文链接DeepSeek-V3更新炸场,我连夜做了3个互动小游戏

  • 清华大学《DeepSeek政务应用场景与解决方案最新版》(PDF文件)- AI教程资料

    《DeepSeek政务应用场景与解决方案最新版》是清华大学新闻与传播学院新媒体研究中心和人工智能学院推出的针对政务数字化转型的全面方案,基于AI技术提升政务服务的智能化水平。方案涵盖政务数字化转型的三个阶段:电子政务、互联网+政务、AI+政务,每个阶段有特定的核心任务和目标。在电子政务阶段,重点在于基于IT化实现政务流程的初步数字化;互联网+政务阶段用平台化为突破,推动跨部门协同与在线服务整合;AI+政务阶段用智能化为标志,基于AI驱动决策与服务的深度变革。基于公文自动拟制、合同协议智能审查、行政执法智能辅助、就业指导智能推荐等具体解决方案,DeepSeek能显著提升政务工作的效率和质量,实现政务服务的智能化、精准化和便捷化。

    deepseek-government-affairs

    获取《DeepSeek政务应用场景与解决方案最新版》 PDF原文件,扫码关注回复: 20250326

    人工智能+政务应用场景

    • AI应用到政务工作的四大方向:智能政务办公、智能城市治理、智能民生服务、智能辅助决策。
    • 公文处理:基于垂直领域知识增强、多模态智能处理、全参数本地化部署和分布式政务协同,实现深度训练和全链驱动,提升公文处理的智能化水平和安全性。
    • 行政审批:基于政策知识检索、命名实体生成、全流程优化引擎和案例推理模型,实现精准识别和极速通办,提升行政效率和服务质量。

    deepseek-government-affairs

    • 司法行政:基于法律文书智能分类、法律知识图谱检索、全域司法智能协同平台和司法决策辅助生成,实现司法行政全流程数字化升级和智能化推演
    • 城市治理:基于多模态数据融合分析、联邦学习与动态博弈模型、图神经网络、智能协同决策系统,实现数据护城和纳什均衡的目标。
    • 便民服务:基于云链融合和语义穿透,覆盖出生、教育、养老三大阶段,提供一站式便捷服务。
    • 数据安全:基于分层架构和智能隔离实现数据安全。

    deepseek-government-affairs

    DeepSeek+政务解决方案

    • 技术方案:概述技术方案,包括混合部署方案、本地知识库、模型微调等,展示技术在政务中的应用。
    • 本地部署的必要性:讨论本地部署的必要性,包括数据主权、个性化需求、独立运行、资源效率和自主控制等方面。
    • 本地部署架构图:提供本地部署的架构图,展示系统的整体结构和各部分的功能。

    deepseek-government-affairs

    • 解决方案一:公文写作。介绍公文写作的解决方案,包括公文自动拟制、合规审查、信息摘要和格式规范。
    • 解决方案二:合同协议智能审查。描述合同协议智能审查的解决方案,包括合同上传与解析、智能审查流程、审查报告生成和数据管理。
    • 解决方案三:行政执法。介绍行政执法的解决方案,包括一线执法人员面临的困境、AI智能体的核心价值和应用场景。

    deepseek-government-affairs

    • 解决方案四:就业指导。描述就业指导的解决方案,包括人社部门就业指导的困境、AI的核心价值和应用场景。
    • 风险及对策:讨论在实施过程中可能遇到的风险及其对策,包括伦理法律风险、数据安全风险和可信度风险。
    • 落地大四步法:包括规划期、建设期、验证期和扩展期,展示项目的实施步骤。

    deepseek-government-affairs

    人工智能+政务未来发展

    • 职业替代:探讨职业替代的逻辑,分析AI能力范围内外的职业发展情况。
    • AIGC与空间智能:介绍AIGC与空间智能的关系,展示其在三维空间和时间中的应用。
    • 空间智能:展示空间智能的应用场景,包括线上政务元宇宙VR大厅。

    deepseek-government-affairs

    • AIGC与具身智能:探讨AIGC与具身智能的关系,展示其在物体感知和交互中的应用。
    • 人形机器人:展示人形机器人的应用场景,包括政务机器人。
    • 人机共生:介绍人机共生在复杂任务中的自动化工作流,展示AIGC技术与自动化流程的结合。

    deepseek-government-affairs

    获取《DeepSeek政务应用场景与解决方案最新版》 PDF原文件,扫码关注回复: 20250326

  • ima知识号 – ima 推出的知识库发布和管理平台

    ima知识号是什么

    ima知识号是腾讯旗下ima推出的全新功能,为知识库创作者提供集中发布和管理知识库的平台。ima知识号配备数据分析工具,创作者能直观地查看知识库的数量、参与人数等数据。ima为用户提供30G的个人云存储空间,方便知识库的管理和发布。

    ima知识号

    ima知识号的主要功能

    • 发布和管理:发布和管理知识库。
    • 数据分析:查看知识库相关数据,包括知识库的数量和参与人数。当知识库加入人数超500人时,支持查看单个知识库的访问次数、问答次数及数据趋势。
    • 云存储空间:ima为用户提供30G的个人云存储空间,方便用户存储和管理知识库。

    如何使用ima知识号

    • 申请账号:访问ima,如果没有发布过知识库,在发布知识库时找到知识号的申请入口。如果已经发布过知识库,在个人中心找到知识号入口。按照提示填写相关信息,完成账号申请。
    • 发布知识库
      • 进入知识广场:通过知识号入口进入知识广场。
      • 创建知识库:在知识广场中创建新的知识库,填写相关内容,包括标题、描述、知识内容等。
      • 发布:完成内容编辑后,将知识库展示在知识广场上。
    • 管理知识库
      • 个人中心管理:进入个人中心,找到知识号管理页面。
      • 编辑与更新:对已发布的知识库进行编辑、更新或删除操作。
      • 查看数据:查看知识库的相关数据,如参与人数、访问次数等。
    • 优化与推广:根据数据分析工具提供的信息,了解用户行为,优化知识库的内容和问答设置。

    ima知识号的应用场景

    • 企业知识管理:企业存储和分享内部资料,提升工作效率,优化管理策略。
    • 教育培训:教育者发布教学资源,学生获取学习资料,教师根据数据调整教学。
    • 社区运营:社区分享活动信息和生活贴士,增强社区凝聚力,优化服务。
    • 个人知识分享:个人创作者分享专业知识或生活经验,提升内容质量。
    • 项目协作:项目团队记录项目信息,保持信息同步,提高协作效率。
  • Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型

    Cosmos-Reason1是什么

    Cosmos-Reason1 是 NVIDIA 推出的系列多模态大型语言模型,基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。模型基于视觉输入感知世界,经过长链思考后生成自然语言响应,涵盖解释性见解和具身决策(如下一步行动)。训练分为四个阶段:视觉预训练、通用监督微调、物理 AI 微调和强化学习。Cosmos-Reason1基于精心策划的数据和强化学习,在物理常识和具身推理基准测试中表现出色。

    Cosmos-Reason1

    Cosmos-Reason1的主要功能

    • 物理常识理解:理解物理世界的基本知识,如空间、时间和基础物理定律,判断事件的合理性。
    • 具身推理:基于物理常识,为具身代理(如机器人、自动驾驶车辆)生成合理的决策和行动规划。
    • 长链思考:基于长链思考(chain-of-thought reasoning)生成详细的推理过程,提升决策的透明度和可解释性。
    • 多模态输入处理:支持视频输入,结合视觉信息和语言指令进行推理,生成自然语言响应。

    Cosmos-Reason1的技术原理

    • 层次化本体论:定义物理常识的层次化本体论,涵盖空间、时间和基础物理三个主要类别,进一步细分为16个子类别。
    • 二维本体论:为具身推理设计二维本体论,涵盖五种具身代理的四种关键推理能力。
    • 多模态架构:基于解码器仅多模态架构,输入视频基于视觉编码器处理后,与文本标记嵌入对齐,输入到LLM中。
    • 模型四个训练阶段
      • 视觉预训练:对视觉和文本模态进行对齐。
      • 通用监督微调(SFT):提升模型在通用视觉语言任务中的表现。
      • 物理AI SFT:用专门的数据增强物理常识和具身推理能力。
      • 物理AI强化学习(RL):基于规则化奖励进一步优化模型的推理能力。
    • 强化学习:设计基于多选题的规则化奖励机制,基于强化学习提升模型在物理常识和具身推理任务中的表现。

    Cosmos-Reason1的项目地址

    Cosmos-Reason1的应用场景

    • 机器人操作:帮助机器人理解任务目标,生成操作计划,完成抓取、组装等复杂动作。
    • 自动驾驶:处理道路视频,预测交通动态,生成安全驾驶决策,如避让和变道。
    • 智能监控:实时监测视频中的异常行为,如人员跌倒或设备故障,及时发出警报。
    • 虚拟现实(VR)/增强现实(AR):根据虚拟环境输入,生成交互响应,提升用户沉浸感。
    • 教育与培训:基于视频讲解物理现象或操作流程,辅助教学和职业技能培训。
  • Qwen2.5-Omni – 阿里开源的端到端多模态模型

    Qwen2.5-Omni是什么

    Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5-Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持流式文本生成与自然语音合成输出,能实现实时语音和视频聊天。Qwen2.5-Omni用独特的 Thinker-Talker 架构,Thinker 负责处理和理解多模态输入,生成高级表示和文本,Talker 将表示和文本转化为流畅的语音输出。模型在多模态任务(如 OmniBench)中达到最新水平,全维度远超Google的Gemini-1.5-Pro等同类模型。在单模态任务(如语音识别、翻译、音频理解等)中表现出色。Qwen2.5-Omni在Qwen Chat上提供免费体验,模型现已开源,支持开发者和企业免费下载商用,在手机等终端智能硬件上部署运行。

    Qwen2.5-Omni

    Qwen2.5-Omni的主要功能

    • 文本处理:理解、处理各种文本输入,包括自然语言对话、指令、长文本等,支持多种语言。
    • 图像识别:支持识别和理解图像内容。
    • 音频处理:具备语音识别能力,将语音转换为文本,能理解语音指令,生成自然流畅的语音输出。
    • 视频理解:支持处理视频输入,同步分析视频中的视觉和音频信息,实现视频内容理解、视频问答等功能。
    • 实时语音和视频聊天:支持实时处理语音和视频流,实现流畅的语音和视频聊天功能。

    Qwen2.5-Omni的技术原理

    • Thinker-Talker 架构:基于Thinker-Talker 架构,将模型分为两个主要部分,Thinker作为模型的“大脑”,负责处理和理解输入的文本、音频和视频等多模态信息,生成高级语义表示和对应的文本输出。Talker作为模型的“嘴巴”,负责将 Thinker 生成的高级表示和文本转化为流畅的语音输出。
    • 时间对齐多模态位置嵌入(TMRoPE):为同步视频输入的时间戳与音频,Qwen2.5-Omni 推出新的位置嵌入方法 TMRoPE(Time-aligned Multimodal RoPE)。将音频和视频帧用交错的方式组织,确保视频序列的时间顺序。TMRoPE 将多模态输入的三维位置信息(时间、高度、宽度)编码到模型中,基于分解原始旋转嵌入为时间、高度和宽度三个分量实现。文本输入用相同的 ID,TMRoPE 与一维 RoPE 功能等效。音频输入将每个 40ms 的音频帧用相同的 ID,引入绝对时间位置编码。图像输入将每个视觉标记的时间 ID 保持不变,高度和宽度的 ID 根据标记在图像中的位置分配。视频输入用音频和视频帧的时间 ID 交替排列,确保时间对齐。
    • 流式处理和实时响应:基于块状处理方法,将长序列的多模态数据分解为小块,分别处理,减少处理延迟。模型引入滑动窗口机制,限制当前标记的上下文范围,进一步优化流式生成的效率。音频和视频编码器用块状注意力机制,将音频和视频数据分块处理,每块处理时间约为 2 秒。流式语音生成用 Flow-Matching 和 BigVGAN 模型,将生成的音频标记逐块转换为波形,支持实时语音输出。
    • Qwen2.5-Omni 的三个训练阶段
      • 第一阶段:固定语言模型参数,仅训练视觉和音频编码器,用大量的音频-文本和图像-文本对数据,增强模型对多模态信息的理解。
      • 第二阶段:解冻所有参数,用更广泛的数据进行训练,包括图像、视频、音频和文本的混合数据,进一步提升模型对多模态信息的综合理解能力。
      • 第三阶段:基于长序列数据(32k)进行训练,增强模型对复杂长序列数据的理解能力。

    Qwen2.5-Omni的项目地址

    Qwen2.5-Omni的模型性能

    • 多模态任务:在 OmniBench 等多模态任务中达到先进水平。
    • 单模态任务:在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和 subjective naturalness)等多个领域表现优异。

    Qwen2.5-Omni-

    Qwen2.5-Omni的应用场景

    • 智能客服 :基于语音和文本交互,为用户提供实时的咨询和解答服务。
    • 虚拟助手 :作为个人虚拟助手,帮助用户完成各种任务,如日程管理、信息查询、提醒等。
    • 教育领域 :用于在线教育,提供语音讲解、互动问答、作业辅导等功能。
    • 娱乐领域 :在游戏、视频等领域,提供语音交互、角色配音、内容推荐等功能,增强用户的参与感和沉浸感,提供更丰富的娱乐体验。
    • 智能办公 :辅助办公,如语音会议记录生成高质量的会议记录和笔记,提高工作效率。
  • Product AnyShoot – TopView AI 推出的AI电商产品视频生成工具

    Product AnyShoot是什么

    Product AnyShoot 是 TopView AI 推出的 AI 电商产品视频生成工具。通过人工智能技术,用户只需上传产品图片选择模板,快速生成逼真的产品展示视频,无需拍摄,节省时间和成本。工具支持多种产品类别,如家纺、服饰、眼镜、家具等,提供超过5000种预制模板,支持自定义修改。生成的视频高还原度,细节与原始图片高度一致,几分钟内即可完成。

    Product AnyShoot

    Product AnyShoot的主要功能

    • 快速生成产品视频:用户只需上传产品图片,选择合适的模板,可在几分钟内生成高质量的产品展示视频,无需复杂的拍摄和后期制作。
    • 智能产品适配:通过 AI 技术,产品可以无缝地放置在各种虚拟场景中,自动调整大小、角度和光影效果,确保产品展示自然逼真。
    • 丰富的模板库:提供超过5000种预制模板,涵盖多种产品类别和展示场景,如家居、服装、饰品等,用户还可以根据需求自定义模板。
    • 高还原度展示:生成的视频在颜色、纹理和形状上高度还原产品原貌,避免失真,确保消费者看到的产品效果与实物一致。
    • 多场景适配:支持多种展示场景,包括室内、室外、特写、全景等,满足不同产品和营销需求。
    • 一键分享与下载:生成的视频可以一键下载或直接分享到社交媒体、电商平台等,方便快捷。

    Product AnyShoot的官网地址

    Product AnyShoot的应用场景

    • 服装与配饰:商家可以将服装、鞋子、配饰等产品图片上传,生成模特试穿、佩戴的视频,直观展示产品效果,提升用户体验,减少退货率。
    • 家居用品:将沙发、灯具、装饰品等家居产品置于客厅、卧室等场景中,让消费者感受产品在实际环境中的效果。
    • 社交媒体营销:生成的视频可直接用于社交媒体平台,如抖音、小红书等,快速吸引用户关注,提升品牌曝光度。
    • 电商平台推广:在电商平台的产品详情页用工具生成产品视频,能更生动地展示产品特点,提高转化率。
    • 设计方案展示:品牌设计师可以用工具快速调整设计方案,将产品图片与不同场景结合,展示多种设计风格,满足不同市场需求。
  • 清华大学《DeepSeek政务应用场景与解决方案最新版》(PDF文件)- AI教程资料

    《DeepSeek政务应用场景与解决方案最新版》是清华大学新闻与传播学院新媒体研究中心和人工智能学院推出的针对政务数字化转型的全面方案,基于AI技术提升政务服务的智能化水平。方案涵盖政务数字化转型的三个阶段:电子政务、互联网+政务、AI+政务,每个阶段有特定的核心任务和目标。在电子政务阶段,重点在于基于IT化实现政务流程的初步数字化;互联网+政务阶段用平台化为突破,推动跨部门协同与在线服务整合;AI+政务阶段用智能化为标志,基于AI驱动决策与服务的深度变革。基于公文自动拟制、合同协议智能审查、行政执法智能辅助、就业指导智能推荐等具体解决方案,DeepSeek能显著提升政务工作的效率和质量,实现政务服务的智能化、精准化和便捷化。

    deepseek-government-affairs

    获取《DeepSeek政务应用场景与解决方案最新版》 PDF原文件,扫码关注回复: 20250326

    人工智能+政务应用场景

    • AI应用到政务工作的四大方向:智能政务办公、智能城市治理、智能民生服务、智能辅助决策。
    • 公文处理:基于垂直领域知识增强、多模态智能处理、全参数本地化部署和分布式政务协同,实现深度训练和全链驱动,提升公文处理的智能化水平和安全性。
    • 行政审批:基于政策知识检索、命名实体生成、全流程优化引擎和案例推理模型,实现精准识别和极速通办,提升行政效率和服务质量。

    deepseek-government-affairs

    • 司法行政:基于法律文书智能分类、法律知识图谱检索、全域司法智能协同平台和司法决策辅助生成,实现司法行政全流程数字化升级和智能化推演
    • 城市治理:基于多模态数据融合分析、联邦学习与动态博弈模型、图神经网络、智能协同决策系统,实现数据护城和纳什均衡的目标。
    • 便民服务:基于云链融合和语义穿透,覆盖出生、教育、养老三大阶段,提供一站式便捷服务。
    • 数据安全:基于分层架构和智能隔离实现数据安全。

    deepseek-government-affairs

    DeepSeek+政务解决方案

    • 技术方案:概述技术方案,包括混合部署方案、本地知识库、模型微调等,展示技术在政务中的应用。
    • 本地部署的必要性:讨论本地部署的必要性,包括数据主权、个性化需求、独立运行、资源效率和自主控制等方面。
    • 本地部署架构图:提供本地部署的架构图,展示系统的整体结构和各部分的功能。

    deepseek-government-affairs

    • 解决方案一:公文写作。介绍公文写作的解决方案,包括公文自动拟制、合规审查、信息摘要和格式规范。
    • 解决方案二:合同协议智能审查。描述合同协议智能审查的解决方案,包括合同上传与解析、智能审查流程、审查报告生成和数据管理。
    • 解决方案三:行政执法。介绍行政执法的解决方案,包括一线执法人员面临的困境、AI智能体的核心价值和应用场景。

    deepseek-government-affairs

    • 解决方案四:就业指导。描述就业指导的解决方案,包括人社部门就业指导的困境、AI的核心价值和应用场景。
    • 风险及对策:讨论在实施过程中可能遇到的风险及其对策,包括伦理法律风险、数据安全风险和可信度风险。
    • 落地大四步法:包括规划期、建设期、验证期和扩展期,展示项目的实施步骤。

    deepseek-government-affairs

    人工智能+政务未来发展

    • 职业替代:探讨职业替代的逻辑,分析AI能力范围内外的职业发展情况。
    • AIGC与空间智能:介绍AIGC与空间智能的关系,展示其在三维空间和时间中的应用。
    • 空间智能:展示空间智能的应用场景,包括线上政务元宇宙VR大厅。

    deepseek-government-affairs

    • AIGC与具身智能:探讨AIGC与具身智能的关系,展示其在物体感知和交互中的应用。
    • 人形机器人:展示人形机器人的应用场景,包括政务机器人。
    • 人机共生:介绍人机共生在复杂任务中的自动化工作流,展示AIGC技术与自动化流程的结合。

    deepseek-government-affairs

    获取《DeepSeek政务应用场景与解决方案最新版》 PDF原文件,扫码关注回复: 20250326

  • 居然设计家 – 居然之家联合阿里推出的AI家装设计平台

    居然设计家是什么

    居然设计家(Homestyler)是居然之家和阿里巴巴联合打造的全球顶尖AI家装设计平台。基于AI、3D、VR及大数据等技术,为家装设计师和DIY客户提供便捷的在线设计工具,为家居商家提供数字化解决方案。 支持百万级精准户型库、智能设计、自由建模、全屋定制、海量模型素材、流畅渲染体验等。用户只需输入简单描述,AI设计助手能快速生成个性化设计方案。居然设计家支持OpenUSD格式,实现多工具协同和实时渲染,大大提升了设计效率。

    design-shejijia

    居然设计家的主要功能

    • 画户型:拥有百万级精准户型库,即搜即用,户型图纸AI识别一键生成。
    • 自由多层:具备强大的自由建模引擎和丰富造型功能,支持多层及户外造型。
    • 全屋硬装设计:独立硬装模块,提供专业硬装建模能力,方便用户进行精彩创作。
    • 全屋定制功能:支持全屋智能定制化,橱柜、衣柜设计个性化,风格搭配智能化。
    • 海量模型素材:提供丰富多样的优质模型、商品模型、仿真模型等。
    • 智能搭配和导出:设计零门槛,支持软装搭配、施工图纸、报价清单一键生成。
    • 流畅渲染体验:专业渲染功能,可呈现最佳效果。
    • AI智能设计能力:通过文字交互实现设计可视化。
    • AI设计助手(Home Copilot):用户只需与AI对话,表达风格偏好、空间尺寸等基本要求,系统可快速生成个性化设计方案。可以通过互动,随时修改设计方案。
    • AI建模师(AI Modeler):具备“图片生成3D模型”与“文字生成3D模型”两大核心功能,颠覆了传统3D建模流程,为全球家装家居行业注入智能化新动能。
    • 跨平台协作:依托OpenUSD,打造了跨平台协作引擎。设计师可使用3ds Max、VRay等工具创作的材质与模型,经Omniverse平台转换为OpenUSD材质,存储在云端资源中心,不同角色可并行编辑同一项目。

    如何使用居然设计家

    • 访问平台:访问居然设计家的官方网站
    • 上传户型图:点击首页的【3D设计工具】,上传自己家的户型图。
    • 选择风格:从灵感库中选择喜欢的风格,点击一键应用。
    • AI生成方案:与AI设计助手(Home Copilot)对话,表达风格偏好、空间尺寸等基本要求,快速生成个性化设计方案。
    • 局部修改:如果对生成的方案不满意,可以随时通过互动修改设计方案,例如更改硬装材质、调整家具位置,或者拍照生成家具模型应用在设计方案中。
    • 渲染与分享:点击渲染功能,等待效果图出图后,可以预览设计效果,分享给朋友或设计师。

    居然设计家的应用场景

    • 消费者 DIY 设计场景:消费者可以用居然设计家的AI设计工具进行DIY设计。通过自然语言描述自己的需求,快速生成多个设计方案。消费者可以在平台上直接购买设计方案中的商品,实现“所想即所见、所见即所得”。
    • 智能装修场景:设计师可以用居然设计家的AI工具生成整体设计方案,直接使用设计软件中的商品模型。
    • 智能导购场景:经销商销售人员可以用居然设计家的设计软件,将商品模型拖动到业主的真实户型中进行场景化展示,增强用户体验,促进销售转化。
    • 电商平台及跨境电商场景:设计师和消费者可以在居然设计家平台上用商品模型进行设计,直接推动品牌销售,拓展海外市场。
    • 家居设计与施工管理:居然设计家为设计师提供效果图、施工图、预算一体化的3D家装设计工具。施工队可以通过平台获取派单,实现家装过程的自动化管理和监控。