Category: AI项目和框架

  • FireCrawl – 开源 AI 网络爬虫工具,擅长处理动态网页内容、自动爬取网站及子页面

    FireCrawl是什么

    FireCrawl是开源的AI爬虫工具,专门用在Web数据提取,转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力,支持动态网页内容处理,提供智能爬取状态管理和多样的输出格式。FireCrawl集成了LLM Extract功能,用大型语言模型快速完成数据提取,适用于大模型训练、检索增强生成(RAG)、数据驱动开发项目等多种场景。

    FireCrawl

    FireCrawl的主要功能

    • 爬取:自动爬取网站及其所有可访问的子页面,将内容转换为LLM就绪格式。
    • 抓取:抓取单个URL的内容,用Markdown、结构化数据等格式提供。
    • 映射:输入网站URL,快速获取网站上的所有链接。
    • LLM提取:从抓取的页面中提取结构化数据。
    • 批量抓取:同时抓取多个URL。
    • 网页交互:在抓取内容之前,对网页执行点击、滚动、输入等操作。
    • 搜索:搜索网络,获取最相关的结果,抓取页面内容。

    FireCrawl的技术原理

    • 网页爬取:用网络爬虫技术,根据提供的URL递归访问网站页面。
    • 内容解析:解析网页的HTML内容,提取所需数据。
    • LLM就绪格式:将提取的内容转换成适合大型语言模型处理的格式,如Markdown或结构化数据。
    • 动态内容处理:处理JavaScript渲染的动态内容,确保能抓取由用户交互生成的数据。
    • 反反爬虫技术:用代理、自定义头部等技术绕过网站的反爬虫机制。
    • 数据提取与结构化:基于自然语言处理技术,从非结构化的网页内容中提取结构化数据。

    FireCrawl的项目地址

    FireCrawl的应用场景

    • 数据集成:将网站数据集成到企业的数据仓库或数据湖中,用在分析和业务智能。
    • 内容迁移:将网站内容迁移到新的平台或系统,例如从旧的CMS迁移到新的CMS。
    • SEO分析:分析网站内容和结构,优化搜索引擎排名。
    • 竞争对手分析:抓取竞争对手的网站数据,进行市场分析和策略规划。
    • 产品研究:从多个网站抓取产品信息,进行价格比较和市场趋势分析。
  • Psi R0 – 灵初智能推出的端到端具身模型

    Psi R0是什么

    Psi R0是灵初智能发布的首个基于强化学习的端到端具身模型。支持双灵巧手协同进行复杂操作,能够将多个技能串联混训,生成具有推理能力的智能体,完成并闭环长程灵巧操作任务。Psi R0能实现跨物品、跨场景级别的泛化,具备较强的泛化能力和较高的鲁棒性。

    Psi R0的主要功能

    • 双灵巧手协同操作:Psi R0支持双灵巧手协同进行复杂操作,能完成多步骤的长程灵巧任务。
    • 多技能串联混训:模型能将多个技能串联混训,生成具有推理能力的智能体,完成并闭环长程灵巧操作任务。
    • 跨物品、跨场景泛化:Psi R0能实现跨物品、跨场景级别的泛化,具有较强的泛化能力和较高的鲁棒性。
    • 基于仿真数据训练:Psi R0使用海量仿真数据训练出双手操作的智能体,通过双向训练框架串联多技能,在业界率先完成开放环境中的长程任务。
    • 解决奖励函数设计难题:该技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,解决了奖励函数难设计的问题。
    • 后训练阶段优化:在后训练阶段,通过少量高质量真机数据对齐,进一步提升长程任务的成功率。
    • 自主切换技能能力:双向训练框架中的转移可行性函数能够微调技能以提高串联的成功率与泛化性,同时赋予模型自主切换技能的能力,在遭遇操作失败时能够迅速调整策略,确保高成功率。

    Psi R0的技术原理

    • 强化学习(RL):Psi R0是一个基于强化学习的端到端具身模型,使用海量仿真数据训练出双手操作的智能体。
    • 技能训练框架:这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,解决了奖励函数难设计的问题。

    Psi R0的应用场景

    • 电商场景:Psi R0能应用于电商行业中的商品打包作业,涉及到对上万件商品进行抓取、扫码、放置和塑料袋打结等多个操作。Psi R0能使用双灵巧手流畅地完成这一系列动作,在客户现场取代一个完整的工位。
    • 工厂产线组装:在制造业中,Psi R0可以用于工厂产线的组装工作,完成复杂的长程任务作业,如部件的抓取、组装和放置等。
    • 服务业拣货打包:Psi R0也适用于服务业中的拣货和打包任务,能处理长程任务作业,如抓取、扫码、放置等。
    • 家居环境清洁整理:Psi R0还可以在家居环境中进行清洁和整理工作,处理日常的家务任务。
  • DeepSeek Engineer – 开源AI编程助手,处理用户对话生成结构化JSON

    DeepSeek Engineer是什么

    DeepSeek Engineer 是集成DeepSeek API 的AI编程助手,基于命令行界面让用户能读取本地文件、创建新文件及实时对现有文件进行差异编辑。DeepSeek Engineer用 Pydantic 进行类型安全的文件操作,遵循系统提示确保所有回应都以 JSON 格式输出,同时支持文件的创建和编辑。DeepSeek Engineer 能帮助开发者在对话中引用文件内容,生成代码或提出差异编辑建议。

    DeepSeek Engineer

    DeepSeek Engineer的主要功能

    • DeepSeek 客户端配置:自动配置 API 客户端使用 DeepSeek 服务,并连接到环境变量中指定的 DeepSeek 端点。
    • 数据模型:基于 Pydantic 进行类型安全的文件操作,包括创建或更新文件、在现有文件中替换特定片段、结构化聊天响应和潜在的文件操作。
    • 系统提示:通过全面的系统提示引导对话,确保所有回复都遵循 JSON 输出格式,并包含文件创建或编辑的指令。
    • 辅助函数:提供读取本地文件、创建或覆盖文件、展示文件变更差异表、对现有文件应用片段级修改等功能。
    • “/add” 命令:支持用户输入命令快速读取文件内容,将其作为系统消息插入对话中,便于助手参考文件内容进行进一步讨论、代码生成或差异提案。

    DeepSeek Engineer的技术原理

    • API 集成:集成 DeepSeek API,让用户用命令行与 DeepSeek 服务进行交互。
    • 环境变量:用环境变量指定 DeepSeek 服务的端点,让配置更加灵活和安全。
    • Pydantic 数据模型:基于Pydantic 库定义和验证数据模型,确保文件操作的类型安全和数据一致性。
    • 系统提示(system_PROMPT):用预设的系统提示引导对话,确保输出的格式和内容符合预期,同时指导用户如何与系统交互。
    • 文件操作函数:实现一系列辅助函数处理文件的读取、创建、编辑和差异展示,函数封装了文件系统操作的复杂性,提供简洁的接口。
    • 对话管理:基于维护一个对话历史列表跟踪用户和助手之间的交互,让对话上下文得以保持,便于后续的处理和回复。

    DeepSeek Engineer的项目地址

    DeepSeek Engineer的应用场景

    • 代码审查与改进:开发者审查代码,获取改进建议,或自动修复代码中的问题。
    • 文档自动化生成:分析代码和对话内容,自动生成技术文档,如API文档、用户手册等。
    • 实时代码协作:在团队项目中,开发者实时共享和编辑代码,DeepSeek Engineer能协助管理代码变更和合并请求。
    • 教育与学习:作为教学工具,帮助学生理解代码结构和编程概念,或作为编程练习的自动评分系统。
    • 自动化测试:用DeepSeek Engineer生成测试用例,或分析测试结果,提高软件测试的效率和覆盖率。
  • GraphAgent – 港大联合港科大开源的智能图形语言助手

    GraphAgent是什么

    GraphAgent是香港大学和香港科技大学(广州)联合推出的智能图形语言助手,能处理现实世界中结构化(如图连接)和非结构化(如文本、视觉信息)格式的数据,数据包含复杂关系和相互依赖性,能用知识图谱展示。GraphAgent包括三个关键组件:图生成代理构建知识图谱,任务规划代理解释用户查询并制定任务,任务执行代理执行任务、自动化工具匹配。GraphAgent整合语言模型与图语言模型,揭示数据间复杂的关系和语义依赖性,在多种图相关任务上展示有效性。

    GraphAgent

    GraphAgent的主要功能

    • 图生成:自动构建知识图谱,反映复杂的语义依赖关系,从文本中提取实体节点和关系。
    • 任务规划:解释用户查询,将用户的需求转化为具体的预测或生成任务,规划执行策略。
    • 任务执行:执行规划好的任务,包括自动化工具匹配和调用,响应用户查询。
    • 自然语言交互:支持用户用自然语言与系统交互,无需专业知识即可分析图数据。
    • 预测分析:支持基于图的预测任务,如节点分类和链接预测。

    GraphAgent的技术原理

    • 异构图表示:用异构图表示结构化和非结构化数据,捕捉实体间的关系。
    • 图神经网络:图神经网络作为图Tokenizer,将图结构信息编码为嵌入表示。
    • 大型语言模型:结合预训练的大型语言模型来理解和生成自然语言,与图结构信息结合。
    • 代理架构:设计一个多代理系统,每个代理负责处理不同的任务,如生成、规划和执行。
    • 图-指令对齐:基于图-指令匹配任务训练大型语言模型,更好地理解和处理图结构数据。

    GraphAgent的项目地址

    GraphAgent的应用场景

    • 学术网络分析:基于构建学术文献的引用关系图谱,帮助研究人员发现领域内的重要论文和研究趋势。
    • 电子商务推荐:在电商平台中,分析用户购买和浏览行为,提供个性化的商品推荐。
    • 金融风险管理:用在构建金融交易网络,识别潜在的风险和欺诈行为,辅助决策。
    • 社交网络分析:分析社交网络中的连接和互动,揭示社区结构和影响力节点。
    • 内容推荐系统:根据用户的历史行为和偏好,推荐感兴趣的新闻文章或视频内容。
  • AgiBot World – 智元机器人开源的百万真机数据集

    AgiBot World是什么

    AgiBot World是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。数据集包含八十余种日常技能,覆盖家居、餐饮、工业等五大核心场景,数据规模和质量远超谷歌的Open X-Embodiment。基于智元自建的数据采集工厂和实验基地,通过8个摄像头和6个自由度的灵巧手等高级硬件配置,实现了全域真实场景的高质量数据采集。

    AgiBot World的主要功能

    • 多样化任务覆盖:AgiBot World数据集收录了八十余种日常生活中的多样化技能,从基础操作如抓取、放置、推、拉,到更复杂的动作如搅拌、折叠、熨烫等,几乎涵盖了日常生活所需的绝大多数动作需求。
    • 全域真实场景:数据集诞生于智元机器人自建的大规模数据采集工厂与应用实验基地,空间总面积超过4000平方米,包含三千多种真实物品,复刻了家居、餐饮、工业、商超和办公五大核心场景,为机器人提供了一个高度真实的生产生活环境。
    • 全能硬件平台:数据集采集所依托的机器人平台配备了8个摄像头环绕式布局,能够实时全方位感知周围环境的动态变化。机器人还具备6个主动自由度的灵巧手,能够完成熨衣服等多种复杂操作。全身最高32个自由度,末端六维力传感器和高精度视触觉传感器的配备,让机器人在面对精细操作任务时能够有条不紊。
    • 全程质量把控:智元机器人在AgiBot World的采集过程中采取了多级质量把控和全程人工在环的策略,从采集员的专业培训,到采集过程中的严格管理,再到数据的筛选、审核和标注,每一个环节都经过了精心设计和严格把控。
    • 数据集内容:AgiBot World收录了八十余种日常生活中的多样化技能,从基础操作如抓取、放置、推、拉,到复杂动作如搅拌、折叠、熨烫等,几乎涵盖了人类日常生活所需的绝大多数动作需求。
    • 开源计划:智元机器人计划陆续开源千万仿真数据,以支持更泛化和更通用的大模型训练;将发布具身基座大模型,可支持模型微调;发布全套工具链,实现采集、训练和评测闭环。

    AgiBot World的项目地址

    AgiBot World的应用场景

    • 家居场景:AgiBot World再现了人类真实住宅布局,包括卧室、客厅、厨房、卫生间等核心空间。在这些场景中,机器人可以执行家务清洁、物品整理和厨房任务等。
    • 餐饮场景:数据集中包含了餐饮相关的任务,如厨房中的搅拌、折叠等动作,以及可能的餐厅服务任务。
    • 工业场景:模拟分拣与物流自动化,复刻工业仓库与生产线,包括分拣系统、打包设备、传输带等。这有助于训练机器人实现物料分拣、包装打包、物流搬运等任务。
    • 商超场景:高度还原超市货架布局与收银区设计,包含生鲜、日用、冷冻等多个品类区域。这有助于训练机器人模拟物品上架、货物盘点、顾客引导、无人结算等。
    • 办公场景:涵盖了办公环境中可能需要机器人执行的任务,如文件整理、物品递送等。
  • StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

    StereoCrafter是什么

    StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。StereoCrafter用预训练的稳定视频扩散模型作为基础,针对立体视频修复任务进行微调,适应不同长度和分辨率的视频输入。StereoCrafter的开发,提升视频内容的沉浸感,为数字媒体的未来发展提供新的可能性。

    StereoCrafter

    StereoCrafter的主要功能

    • 2D到3D视频转换:将单目2D视频转换为沉浸式立体3D视频,适用于多种显示设备,如3D眼镜和Apple Vision Pro。
    • 高保真度生成:用深度学习技术,确保生成的视频具有高质量和一致性,满足现代3D显示设备的需求。
    • 深度估计:基于先进的深度估计方法,获取输入视频的深度信息,为后续处理提供基础。
    • 视频splatting:用深度图进行视频变形,生成右视图并提取遮挡掩码,处理视频中的遮挡区域。
    • 立体视频修复:填补变形后视频中的空缺区域,确保最终生成的立体视频完整且自然。

    StereoCrafter的技术原理

    • 深度估计:基于先进的深度估计模型(如DepthCrafter)从输入的单目视频中提取深度图。
    • 视频splatting:基于深度图,将左视图视频变形为右视图,生成遮挡掩码,处理视频中的遮挡情况。
    • 立体视频修复:用生成的遮挡掩码,基于立体视频修复技术填补变形后视频中的空缺区域,生成最终的右视图视频。
    • 数据处理流水线:构建高质量的数据集支持模型训练,确保生成结果的高保真度和一致性。

    StereoCrafter的项目地址

    StereoCrafter的应用场景

    • 影视制作:在电影和电视剧制作中,将传统的2D视频素材转换为立体3D版本,为观众提供更沉浸的观看体验,增强视觉效果。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,将单目视频转换为适合VR头显和AR设备的3D内容,提升用户的沉浸感和互动性。
    • 游戏开发:游戏开发者将2D游戏视频或动画转换为3D版本,丰富游戏的视觉表现,吸引更多玩家。
    • 在线教育:在在线教育平台中,将教学视频转换为3D格式,让学习内容更具吸引力,帮助学生更好地理解复杂概念。
    • 广告与市场营销:品牌将广告视频转换为立体3D,提升广告的视觉冲击力和吸引力,增强消费者的记忆和购买意愿。
  • Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型

    Large Motion Model是什么

    Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型相媲美的性能。模型基于整合不同模态、格式和任务的数据集创建全面的MotionVerse数据集,采用创新的ArtAttention机制和预训练策略,实现对身体部位的精确控制和广泛的知识泛化。LMM在处理未见任务时展现出强大的泛化能力,为未来大型运动模型的研究提供新视角。

    Large Motion Model

    Large Motion Model的主要功能

    • 多任务运动生成:能执行多种运动生成任务,如文本到运动、音乐到舞蹈、动作到运动等。
    • 数据集整合:创建MotionVerse数据集,基于整合不同模态、格式和任务的数据集,实现统一的运动表示。
    • 精确控制:采用ArtAttention机制,支持对不同身体部位进行精确控制,提高运动生成的精细度。
    • 泛化能力:展现出强大的泛化能力,在多种未见任务上进行有效的运动生成。
    • 多模态输入处理:同时处理多种模态输入,如文本、音乐、视频等,生成相应的运动输出。

    Large Motion Model的技术原理

    • 统一数据集(MotionVerse):基于统一的数据集MotionVerse,数据集包含多种任务和模态的运动数据,基于TOMATO表示法统一不同格式的运动数据。
    • Diffusion Transformer骨干网络:基于Transformer架构的Diffusion模型,用去噪扩散概率模型(DDPM)进行高质量的运动序列生成。
    • ArtAttention机制:设计一种新颖的注意力机制ArtAttention,机制结合身体部位感知建模,支持模型对不同身体部位进行独立的控制和学习。
    • 预训练策略:采用随机帧率和多种掩码技术的预训练策略,增强模型对不同数据源的学习能力和泛化能力。
    • 零样本学习:采用零样本方法生成长序列运动,让模型在没有额外样本的情况下生成运动。

    Large Motion Model的项目地址

    Large Motion Model的应用场景

    • 动画和游戏制作:生成逼真的角色动画,减少手动动画制作的时间和成本,提高动画制作的效率。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成与用户动作相匹配的虚拟角色动作,提升沉浸感。
    • 电影和视频制作:生成电影中的特殊效果,如模拟复杂的打斗场景或舞蹈动作,提高制作效率。
    • 运动分析和训练:分析运动员的动作,提供训练建议,或生成标准动作模板。
    • 机器人技术:教导机器人执行复杂的人类动作,提高机器人在服务、医疗或工业领域的应用能力。
  • VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试

    VideoPhy是什么

    VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中生成视频,进行人类及自动评估。研究发现,即使是最佳模型,也仅有39.6%的视频能同时遵循文本提示和物理法则。VideoPhy强调视频生成模型在模拟物理世界方面的局限性,推出自动评估工具VideoCon-Physics,支持未来模型的可靠评估。

    VideoPhy的主要功能

    • 评估视频生成模型的物理常识: 测试文本到视频(text-to-video)生成模型是否能生成符合物理常识的视频内容。
    • 提供标准化测试集: 包含688个经过人类验证的描述性字幕(captions),涉及固体-固体、固体-流体和流体-流体之间的物理互动,用在生成视频并进行评估。
    • 人类评估与自动评估: VideoPhy结合人类评估和自动评估工具VideoCon-Physics,评估视频的语义一致性和物理常识。
    • 模型性能比较: 比较不同模型在VideoPhy数据集上的表现,确定哪些模型在遵循物理法则方面表现更好。
    • 促进模型改进: 揭示现有模型在模拟物理世界方面的不足,推动研究者开发出更符合物理常识的视频生成模型。

    VideoPhy的技术原理

    • 数据集构建: VideoPhy的数据集基于三阶段的流程构建,包括使用大型语言模型生成候选字幕、人类验证字幕的质量及标注视频生成的难度。
    • 视频生成: 用不同的文本到视频生成模型,根据VideoPhy数据集中的字幕生成视频。
    • 人类评估: 基于亚马逊机械土耳其(Amazon Mechanical Turk)上的人工评估者对生成的视频进行语义一致性和物理常识的评分。
    • 自动评估模型: 推出VideoCon-Physics,基于VIDEOCON视频-语言模型的自动评估器,用微调评估生成视频的语义一致性和物理常识。
    • 性能指标: 用二元反馈(0或1)评估视频的语义一致性(Semantic Adherence, SA)和物理常识(Physical Commonsense, PC)。

    VideoPhy的项目地址

    VideoPhy的应用场景

    • 视频生成模型开发与测试:开发和测试新的文本到视频生成模型,确保生成符合物理常识的视频内容。
    • 计算机视觉研究:在计算机视觉领域,用在研究和改进视频理解算法,特别是在涉及物理交互和动态场景理解方面。
    • 教育与培训:在教育领域,作为教学工具,帮助学生理解物理现象和视频内容的生成过程。
    • 娱乐产业:在电影、游戏和虚拟现实制作中,生成更加真实和符合物理规则的动态场景。
    • 自动化内容生成:为新闻、体育和其他媒体内容的自动化生成提供技术支持,提高内容的质量和真实性。
  • DynamicControl – 腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架

    DynamicControl是什么

    DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型(MLLM)推理能力的文本生成图像(T2I)任务新框架。DynamicControl通过自适应地选择不同条件,实现了动态多控制对齐,显著增强了图像生成的可控性,同时保持了图像质量和图像文本对齐。架构支持多种控制信号的动态组合,能根据条件的重要性和内部关系自适应选择不同数量和类型的条件,优化了生成更接近源图像的图像。

    DynamicControl的主要功能

    • 动态条件组合:DynamicControl支持不同控制信号的动态组合,支持自适应选择不同数量和类型的条件,实现更可靠和详细的图像合成。
    • 条件评估器:集成多模态大型语言模型(MLLM)来构建高效的条件评估器,根据双循环控制器的分数排名优化条件的排序。
    • 增强可控性:实验结果显示,DynamicControl大大增强了可控性,不会牺牲图像质量或图像文本对齐。
    • 解决多条件问题:框架解决了现有方法中处理多条件效率低下或使用固定数量条件的局限性,提供了一个更全面的方法来管理多种条件。

    DynamicControl的技术原理

    • 双循环控制器(Double-Cycle Controller):DynamicControl首先使用双循环控制器为所有输入条件生成初始的真实分数排序。控制器通过预先训练的条件生成模型和判别模型为每个给定的图像条件和文本提示生成图像,从生成的图像中提取相应的图像条件。这个过程中,双循环控制器评估提取条件和输入条件之间的相似性,以及与源图像的像素级相似性,从而给出组合分数排名。
    • 多模态大语言模型(MLLM):DynamicControl集成了多模态大型语言模型(如LLaVA)来构建一个高效的条件评估器。评估器将各种条件和可提示的指令作为输入,使用双循环控制器的分数排名优化条件的最佳排序。
    • 多控制适配器(Multi-Control Adapter):DynamicControl提出了一种新颖而高效的多控制适配器,可以自适应地选择不同的条件,实现动态多控制对齐。适配器从动态视觉条件中学习特征图,并将它们集成以调制ControlNet,增强对生成图像的控制。
    • 动态条件选择:DynamicControl支持不同控制信号的动态组合,支持自适应选择不同数量和类型的条件。确保训练能根据各种数据输入的独特需求和细微差别进行量身定制,提高模型的有效性和效率。
    • 自适应机制:DynamicControl的自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突,在训练过程中的使用取决于每个数据集的具体特征。

    DynamicControl的项目地址

    DynamicControl的应用场景

    • 艺术创作:DynamicControl可以用于艺术创作中,帮助艺术家根据特定的视觉需求生成图像,例如生成具有特定风格或元素的艺术作品。
    • 游戏设计:在游戏设计领域,DynamicControl可以用于快速生成游戏背景、角色或道具的概念图,提高设计效率。
    • 广告制作:广告行业可以用DynamicControl生成吸引人的广告图像,根据广告文案和视觉需求定制图像内容。
    • 个性化内容生成:随着AI绘画和写作工具的普及,DynamicControl可以满足用户对个性化和定制化内容的需求,提供更符合个人偏好的视觉内容。
  • 琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本

    琅琊是什么

    琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1.0版本,专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海洋科学知识,能实现对全球海洋状态变量的中短期高精度预报。“琅琊”1.0版本可以一次性预报未来1至7天的温度、盐度、海流等关键指标,空间分辨率达到1/12°,时间分辨率为24小时,显著提升了全球海洋预报的准确性与可靠性。

    琅琊

    琅琊的主要功能

    • 中短期高精度预报:模型能实现对全球海洋状态变量的中短期高精度预报,包括温度、盐度、海流等关键指标。
    • 全球覆盖与高分辨率:模型具备全球覆盖能力,空间分辨率达到1/12°,时间分辨率为24小时,提升了全球海洋预报的准确性与可靠性。
    • 多日连续预报:能一次性预报未来1至7天的海洋状态变量,为海洋科学研究和实际应用提供连续的数据支持。
    • 复杂海洋现象预报:研发团队计划在未来的2.0版本中引入对台风、降水、海浪、海冰等海洋现象的预报,进一步提升对海洋灾害等复杂海洋现象的预报能力。

    琅琊的技术原理

    • 人工智能与海洋科学的融合:“琅琊”模型深度融合了海洋科学的专业知识与前沿的人工智能算法。使模型能基于先进的人工智能技术来实现对海洋状态变量的精准预报。
    • 高精度预报能力:“琅琊”1.0版本已实现对全球海洋状态变量的中短期高精度预报,能一次性预测未来1至7天的温度、盐度、海流等关键指标。
    • 高分辨率:模型的空间分辨率达到了1/12°,时间分辨率为24小时,全球海洋预报领域是一次重大的技术突破,显著提高了预报的准确性和可靠性。
    • 数据驱动的模型架构:模型基于Ocean-Specific Transformer的模型架构,设计了ocean-land掩码机制排除陆地区域干扰,设计ocean-specific block捕捉海洋环境的固有特性。
    • 多源数据融合技术:通过GLORYS12再分析数据、ERA5再分析数据、SST卫星观测数据对大模型进行训练,在浮标观测数据和卫星观测数据上进行测试,并在海流、温度、盐度、温/盐廓线等方面进行总体测评。

    琅琊的应用场景

    • 海洋环境安全保障:通过精准预报海洋状态变量,如温度、盐度、海流等,为海上航行安全提供重要数据支持,降低海上事故风险。
    • 全球气候变化应对:模型能够提供关于海洋状态变量的连续数据,帮助科学家更好地理解和预测全球气候变化趋势。
    • 海洋资源开发:通过对海洋环境的深入理解和预报,可以更有效地开发和利用海洋资源,如渔业资源和矿产资源。
    • 海洋防灾减灾:模型能够预测台风、降水、海浪、海冰等海洋现象,为沿海地区应对极端天气事件提供预警信息,减少自然灾害带来的损失。
    • 科学研究:为海洋科学研究提供更精细的数据支持,推动海洋科学领域的研究进展。