Author: Chimy

  • Firefly Image Model 4 – Adobe 推出的图像生成模型

    Firefly Image Model 4是什么

    Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 Firefly 图像模型,支持生成逼真的图像,提供更高的分辨率(最高可达2K)和更精细的创意控制。模型支持用户调整生成图像的结构、风格、相机角度和缩放比例,快速探索和迭代创意概念。Firefly Image Model 4 Ultra是 Firefly Image Model 4 的增强版本,专为渲染复杂场景和细节而设计,适合需要极高精度和复杂结构的项目。两款模型目前在 Adobe Firefly网页应用上线。

    Firefly Image Model 4

    Firefly Image Model 4的主要功能

    • 快速生成高质量图像:最高支持生成2K分辨率的图像。
    • 精准控制图像细节:支持更精准地控制图像的风格、尺寸和相机角度。
    • 处理复杂场景与细小结构:Firefly Image Model 4 Ultra擅长处理复杂的场景和细小的结构,带来更高水平的细节与真实感。

    Firefly Image Model 4的技术原理

    • 基于深度学习的生成模型:基于深度学习的生成模型,生成对抗网络(GAN)或扩散模型(Diffusion Model)架构。模型基于大量的图像数据进行训练,学习图像的特征和模式,生成新的图像。
    • 生成对抗网络(GAN):由生成器和判别器组成。生成器负责生成图像,判别器负责判断生成的图像是真实的还是假的。基于不断对抗训练,生成器能生成越来越逼真的图像。
    • 扩散模型(Diffusion Model):基于逐步去除噪声生成图像。模型从随机噪声开始,逐步学习如何将噪声转化为有意义的图像内容。
    • 图像的生成能力:模型基于自然语言处理(NLP)技术理解文本内容,转化为图像生成的指导信息。用户基于详细的文本描述指定图像的内容、风格、场景等。支持用参考图像引导生成过程。用户上传一张或多张参考图像,模型学习参考图像的风格和特征,应用到生成的图像中。

    Firefly Image Model 4的项目地址

    Firefly Image Model 4的应用场景

    • 创意设计:快速生成概念图像,帮助设计师快速探索创意。
    • 广告营销:生成高质量视觉素材,满足广告和营销需求。
    • 艺术创作:为艺术家提供灵感,生成风格多样的艺术作品。
    • 产品设计:快速生成产品视觉效果和包装设计。
    • 影视制作:生成背景图像和特效素材,助力视频制作。
  • 11个免费的AI浏览器插件,学习和工作必备AI插件

    在当今数字化浪潮席卷全球的时代,人工智能技术正融入我们生活的方方面面,浏览器作为我们日常获取信息、进行社交互动和开展线上活动的核心工具,也迎来了与 AI 深度融合的全新变革。本文将介绍11个免费的AI浏览器插件,当你在看英文文章的时候,遇到不认识的单词,直接点一下插件,能秒出翻译;或者你在找资料的时候,能帮你快速整理出重点,省时又省力。像给浏览器装上了“智能大脑”,用起来超方便!

    1. 豆包浏览器插件

    豆包浏览器插件是字节跳动推出的AI智能助手浏览器插件,通过AI技术提升用户的浏览器使用体验。具有多种实用功能,包括AI问答、内容总结、翻译、智能搜索、一键收藏等。用户可以通过划词翻译、对话框提问等方式快速获取信息,对网页、文献、视频等内容进行智能总结和翻译。提供创意写作辅助、文本到图像转换、邮件撰写辅助等功能。

    豆包浏览器插件

    🚀功能亮点

    • AI问答与对话:用户可在浏览器中随时提问,豆包会即时回答并提供建议。
    • 内容总结与提取:能快速总结网页、文献、视频等内容,提取关键信息。
    • 翻译功能:支持划词翻译和全文翻译,覆盖多种语言,提供自定义翻译配置,如显示原文、译文下划线等。
    • 智能搜索:优化搜索结果,自动整理信息,提供更精准的搜索体验。
    • 一键收藏:用户可快速收藏网页、PDF、视频等内容,在豆包收藏夹中统一管理。
    • AI伴读:辅助阅读英文文献等资料,提供全文翻译和提问功能。
    • 创意写作辅助:提供文章开头、段落续写、总结等写作辅助功能,激发创意。
    • 文本到图像转换:将文本内容转换为图像,增加信息的表达形式。
    • 邮件撰写辅助:帮助用户快速撰写邮件,提供模板和建议。
    • 侧边栏面板:点击浮窗菜单按钮即可打开侧边栏面板,自动根据当前页面进行对话。
    • 头像浮窗菜单按钮:提供“翻译此页面”和“总结此页面”功能。
    • AI划词工具栏:集成AI搜索、解释、翻译和复制等实用快捷工具,用户可对划词工具栏的外观进行个性化定制,可以自定义工具栏技能。
    • 不同场景使用技能:可分别为“阅读网站时”和“编辑文本时”指定不同的技能列表。
    • 翻译功能增加自定义配置:用户可以更加灵活地对当前页面进行翻译,支持配置包括“显示原文”“总是翻译此页面”“译文显示下划线”“翻译服务”“翻译目标语言”等。
    • 划词工具栏支持增加技能:可以将豆包官方的一些技能添加到划词工具栏。
    • 翻译和总结支持语音朗读:在划词工具栏的“翻译”和“总结”功能中,支持语音朗读。
    • 在线视频总结和对话:支持在线视频总结和对话,总结完成后,可自动定位到视频具体位置。

    🌐支持浏览器

    • Chrome浏览器:用户可以通过访问豆包官网下载插件,然后按照官方教程进行安装。
    • Microsoft Edge浏览器:支持安装使用,用户可以点击“获取”并“添加扩展”到Edge。
    • Safari浏览器:在App Store中下载Safari浏览器豆包插件,安装后需在Safari扩展菜单中进行相关设置。
    • Firefox浏览器:豆包插件也支持Firefox浏览器。

    2. AutoGLM沉思

    AutoGLM沉思是智谱AI推出的免费AI智能体。突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越。智能体能模拟人类的思维过程,完成从数据检索、分析到生成报告的全流程工作。可通过智谱清言官网下载桌面客户端或浏览器插件,输入问题或任务指令后,AutoGLM沉思将自动执行任务并生成详细报告。

    autoglm-research

    🚀功能亮点

    • 深度研究与操作兼备:能自主规划任务、调用浏览器访问网页,完成数据检索、分析及报告生成等复杂流程。
    • 多模态交互:支持文本、图像混合处理,模拟人类操作GUI(如点击、输入)。能识别和提取图片中的文字信息,在处理复杂任务时尤为重要。
    • 强大的技术支撑基于智谱自主研发的全栈大模型技术,融合了GLM-4的通用能力、GLM-Z1的反思能力、GLM-Z1-Rumination的沉思能力,以及AutoGLM的自动执行能力。
    • 免费且不限量:目前通过智谱清言客户端或浏览器插件免费使用。
    • 突破数据孤岛:能访问小红书、微信公众号等数据孤岛,获取更全面的信息。

    🌐支持浏览器

    • Chrome浏览器:用户可以在Chrome扩展商店中搜索“清言插件”安装。
    • Edge浏览器:用户可以在Edge扩展商店中搜索“清言插件”安装。

    3. 沉浸式翻译

    沉浸式翻译是创新的网页翻译插件,让用户在阅读外文内容时获得更自然、流畅的体验。通过智能上下文翻译技术,结合语境优化翻译结果,避免了传统翻译工具常见的生硬直译问题。具备双语对照模式,让用户可以同时看到原文和译文,方便对比学习和理解。沉浸式翻译工具支持实时划词翻译和网页全文翻译功能,用户只需选中或划过文本,可即时获得翻译结果,无需离开当前页面。支持多种翻译引擎,如谷歌、DeepL等,用户可以根据自己的需求选择不同的引擎,适应不同的翻译场景和对翻译质量的要求。

    沉浸式翻译

    🚀功能亮点

    • 双语对照翻译:在保留原文格式的基础上,将译文显示在原文的下方,达到真正的「沉浸式」翻译体验。一段原文,一段译文,译文的排版与原文一致,方便用户检验翻译准确性,提升阅读效率。
    • 智能上下文翻译:基于先进的AI算法,如BERT、Transformer等,翻译结果更符合上下文,避免生硬的逐词翻译。对于专业术语、俚语或文化背景内容,能提供更贴切的表达。
    • 多种显示模式:提供段落对照、鼠标悬停、纯译文、输入框翻译等多种显示模式。用户可以根据不同的阅读和交互需求进行选择。
    • 多格式文档翻译:支持翻译网页、PDF文档、电子书(EPUB格式)以及字幕文件。在翻译PDF和EPUB文档时,会尽力保持文档原有的格式和布局。翻译完成后,用户可以选择将结果下载为保留原文和译文的双语对照版本,或只包含译文的纯译文版本。
    • 丰富的翻译引擎选择:支持包括Google、DeepL、OpenAI(ChatGPT)以及众多中国本土引擎在内的十几种翻译服务。用户可以根据自己的需求选择不同的翻译引擎,适应不同的翻译场景和对翻译质量的要求。
    • 跨平台支持:覆盖主流桌面浏览器及部分移动端浏览器,如Chrome、Firefox、Edge、Safari等,以及iOS、Android设备和桌面操作系统如macOS和Windows,使用场景广泛。
    • 个性化设置:用户可自定义翻译语言、字体大小、显示模式等。提供“重点翻译”功能,可选择仅翻译特定段落或区域。
    • 离线模式与API支持:基础翻译功能支持离线使用(需预下载语言包)。高级用户可接入DeepL、Google Translate等第三方API,增强翻译质量。

    🌐支持浏览器

    • Google Chrome:用户可在Chrome网上应用店中搜索“沉浸式翻译”,点击“添加到Chrome”按钮并按提示完成安装。
    • Microsoft Edge:访问Edge浏览器的扩展商店,点击“获取”按钮并按提示完成安装。
    • Mozilla Firefox:在Firefox的扩展商店中搜索“沉浸式翻译”,点击“添加到Firefox”按钮并按提示授权安装。
    • Safari:对于macOS用户,需在苹果App Store商店安装,首次安装后要在Safari浏览器的“管理扩展”中启用沉浸式翻译扩展,并授予其“始终允许访问所有网站”的权限。

    4. Monica

    Monica是多功能AI助手,基于先进AI模型(如GPT-4、Claude等),浏览器插件版本支持Chrome和Edge浏览器。安装插件后,可通过快捷键(如Ctrl+M)快速唤醒Monica,支持聊天、写作、翻译、网页内容处理等功能。Monica可以对网页中的文本进行翻译、改写、总结,能为PDF文件提供摘要和翻译。

    🚀功能亮点

    • 个性化记忆:Monica会根据用户的背景和使用习惯调整服务,支持自动学习和记忆建议,让回答更贴合用户需求。
    • 写作辅助:提供80多个写作模板,支持多种格式、语气选择,可生成商业计划书、学术论文、邮件等,能润色、改写内容。
    • 翻译功能:支持多语言文本和PDF翻译,涵盖多种语言,确保专业术语准确。
    • 网页内容处理:可快速翻译、改写网页文本,提取长文主要内容,帮助用户高效获取信息。
    • PDF工具:具备文本识别、PDF转PNG/WORD/PPT等功能,能扫描简历并分析问题。
    • 图表生成:能根据用户要求生成思维导图、流程图等,支持联网搜索和文件上传。
    • 图像处理:支持AI绘图,提供去除背景、移除物体等图片操作,操作便捷。
    • 多语言与语音交互:支持22种语言版本,涵盖小语种,可将语音转化为文字并翻译。
    • 数据分析:可分析Excel数据,生成统计报告及多种可视化图表。
    • 文档分析:支持上传多种格式文件,进行智能问答,快速提取关键信息。

    🌐支持浏览器

    • Chrome浏览器:用户可以在Chrome扩展商店中搜索“Monica”并安装。
    • Edge浏览器:用户可以在Edge扩展商店中搜索“Monica”并安装。
    • Safari浏览器:用户可以通过Monica官网下载扩展包手动安装。

    5. 星火插件

    星火插件是科大讯飞推出的基于星火大模型的浏览器扩展工具。极小的内存占用兼容Chrome、Edge等主流浏览器,集成了AI划词、翻译、朗读、智能换肤、一键收藏、全局总结等多种实用功能。用户可以通过划词搜索、翻译、解释等功能快速获取信息,能将感兴趣的内容一键收藏至星火个人空间,方便后续整理和管理。

    xinghuoplugin

    🚀功能亮点

    • 划词搜索与翻译:用户划选网页上的文本,插件可即时提供搜索结果、翻译和解释,支持多种语言,帮助用户快速理解内容。
    • 网页内容总结:能对整个网页内容进行分析,生成精准的文章摘要,帮助用户快速把握文章核心。
    • 继续提问:在获取初步信息后,用户可点击“继续提问”,进一步与插件交流,获取更详尽和精准的答案。
    • 一键收藏:支持用户一键收藏感兴趣的内容,同步至星火个人空间,方便后续整理和创作,构建个人知识库。
    • 一键朗读:支持多种语言的朗读服务,用户可以在阅读时边听边看,提高阅读效率和语言学习效果。

    🌐支持浏览器

    • Chrome浏览器:用户可以通过Chrome浏览器扩展程序商店搜索“讯飞星火”进行一键安装。
    • Edge浏览器:同样兼容Edge浏览器,能为用户提供高效的网页阅读和信息检索体验。

    6. Kimi浏览器插件

    Kimi浏览器插件是月之暗面推出的AI工具,提升用户的网页浏览体验。用户可以划选网页上的文字,插件会提供基于上下文的解释,帮助用户更好地理解术语、名字或句子。 帮助用户快速总结全文内容,同时支持进一步的答疑和讨论。 用户可以通过快捷键(Mac为Command + K,Windows为Alt + K)快速召唤Kimi,进行即时互动。 访问Kimi官网或浏览器扩展商店,搜索下载Kimi浏览器插件。

    Kimi

    🚀功能亮点

    • 智能文本解释:用户可以划选网页上的文字,插件会提供基于上下文的解释,帮助用户更好地理解术语、名字或句子。
    • 全文内容总结:点击插件图标,Kimi能快速总结网页的全文内容,节省用户的阅读时间,提高信息获取效率。
    • 悬浮按钮对话:提供了悬浮按钮,用户可以通过点击这个按钮,随时与Kimi进行对话,获取信息或解决问题。
    • 侧边栏模式:在写文档或创作时,Kimi插件可以以侧边栏的形式存在,支持持续对话和边写边搜,提高创作效率。
    • 快捷键召唤:用户可以通过快捷键(Mac为Command + K,Windows为Alt + K)快速召唤Kimi,进行即时互动。

    🌐支持浏览器

    • Chrome浏览器:访问Kimi官网,点击“下载Kimi浏览器助手”按钮,然后点击“立即安装”,按照提示操作即可。
    • Edge浏览器:访问Kimi官网,点击“立即安装”,会自动跳转到微软商店,点击“安装”即可。
    • Firefox浏览器:访问Kimi官网,点击“立即安装”,下载插件压缩包后,解压并拖拽到Firefox扩展管理页面完成安装。

    7. YouTube Dubbing

    YouTube Dubbing 是 AI 浏览器插件,帮助用户无障碍观看外语视频。通过智能同步配音和 AI 字幕技术,将视频内容翻译成用户熟悉的语言并直接播放,消除了语言障碍。插件支持一键翻译播放,兼容多浏览器和多终端,支持英语、韩语、日语等多种语言的互相转换,提供多种语音风格选择。

    YouTube Dubbing

    🚀功能亮点

    • 智能配音:精准且全程同步,可随时暂停、调节倍速或拖动进度条,系统会即时适配,接近母语般的观看体验。
    • AI 字幕:通过 AI 生成并缓存字幕,若视频在超过 40 万条字幕库中,可即时观看。
    • 全球语言支持:从广泛使用的国际语言到各地区方言,力求覆盖几乎所有语言。
    • 多种音色选择:支持男声、女声及多种地区口音,不同国家有专属的语音支持。
    • 说话人识别(会员功能):自动识别视频中的多个说话人,在插件界面为不同说话人手动分配不同声音,营造更具沉浸感的观影体验。
    • 保留背景音(会员功能):配音时同步保留原始背景声音,提供更逼真、身临其境的视听氛围。
    • 网页文本转语音:可将网页中选中的文本转化为语音播放,随时随地解放双眼,自由获取信息。

    🌐支持浏览器

    • Chrome 类浏览器:包括 Chrome、Edge 等。
    • Firefox
    • Safari(含 iOS 版)。

    8. 通义浏览器插件

    通义浏览器插件是阿里通义推出的全能办公与学习AI助手。具备实时语音识别、字幕翻译、智能总结等功能,可将语音快速转为文字并生成要点总结,适用于会议、网课等场景。支持网页和PDF内容的快速总结、划词翻译与解读,帮助用户高效整理信息。

    tongyiliulanqichajian

    🚀功能亮点

    • 实时语音识别:能将语音快速转换成文字,适用于会议、网课等需要记录语音内容的场景,方便用户及时获取和整理信息。
    • AI字幕翻译:为视频或音频内容提供实时翻译的字幕,支持多种语言,帮助用户跨越语言障碍,更好地理解内容。
    • 智能总结:自动提取关键信息,生成内容概要,让用户能快速把握重点,节省时间和精力。
    • 网页和PDF内容总结:快速提取和总结网页或PDF文档的主要内容,帮助用户在短时间内了解文档的核心信息。
    • 划选解读:用户可以划选网页或PDF中的文本段落,插件会提供翻译、解读、对话等功能,方便用户对特定内容进行深入了解。
    • 翻译问答:对选定的文本进行翻译,回答相关问题,提升用户对内容的理解。

    🌐支持浏览器

    • Chrome浏览器:通过访问Chrome应用商店或通义官网提供的链接进行安装。
    • Edge浏览器:可以在Edge的网站中找到并安装该插件。

    9. 心流

    心流是阿里巴巴推出的基于星辰大模型的AI搜索助手,通过智能技术提升用户的知识获取效率。心流插件常驻浏览器侧边栏,用户可以随时唤醒来解答问题、总结网页内容或获取创作灵感。例如,在阅读长篇文章时,用户可以快速让心流总结文章要点,节省阅读时间。支持通用问答、学术问答、长文本分析等多种功能。学术问答功能集成了近3000万篇学术论文资源,覆盖Nature、IEEE、ArXiv等权威期刊,能帮助研究人员和学生快速理解和分析论文内容。

    心流

    🚀功能亮点

    • 实时回答问题:用户在浏览网页时遇到问题,可随时唤醒心流插件,自然语言提问,快速给出准确、清晰的答案。
    • 网页内容总结:能对当前浏览的长篇文章进行快速总结,提炼关键信息,帮助用户快速把握文章核心内容。
    • 多模式搜索:支持普通模式和学术模式切换,学术模式下可精准检索学术论文等长文本资料,满足不同场景下的搜索需求。
    • 长文本精读与泛读:支持长文本的泛读和精读两种模式,泛读模式帮助用户快速了解文章大意,精读模式则注重细节理解,确保信息吸收的全面性。
    • 论文大纲梳理:可自动梳理论文大纲,提供段落总结、智能翻译、名词解释等功能,帮助用户快速把握论文的核心观点和结构框架。
    • 写作灵感与建议:为用户提供写作灵感和建议,包括写作框架建议、智能填充文本内容、自动引用参考文献等,减轻写作负担,提升创作效率。
    • 内容创作辅助:支持生成播客内容,将文字答案转化为双人对话模式的播客,使内容更生动,适合不想阅读文字的用户。
    • 个性化推荐:根据用户的搜索历史、阅读习惯和偏好,智能推荐相关领域的最新研究动态、热门论文、专业书籍等资源。

    🌐支持浏览器

    • Google Chrome:支持Chrome浏览器,可以通过Chrome Web Store下载并安装。
    • Microsoft Edge:支持Microsoft Edge浏览器,可以在Edge Addons商店中找到并安装心流插件。

    10. TwinMind

    TwinMind 是 AI 驱动的智能侧边栏助手,主要功能包括实时音频转录、浏览器标签页内容理解以及写作辅助。能理解用户在浏览器中看到和听到的内容,支持跨标签页的信息整合,可比较多个标签页的信息并生成总结。TwinMind 提供基于上下文的写作辅助,能自动生成邮件、消息和报告等,一键插入浏览器的文本字段。

    TwinMind

    🚀功能亮点

    • 实时转录:在会议和对话中实时转录音频,提供即时笔记和行动项。在会议中提供下一步说话的建议和对讨论问题的即时回答。
    • 多标签页分析:能理解多个浏览器标签页、PDF 和 YouTube 视频的内容,用户可以提问获得即时上下文答案。
    • 跨标签页比较:询问所有浏览器标签页中的网站信息,比较多个标签页的信息,总结 YouTube 视频、网站或 PDF 文件。
    • 搜索和添加上下文:用户能从浏览器标签页中搜索网络、添加上下文,获得最新的 AI 模型提供的个性化答案。
    • 智能文本生成:基于上下文自动生成电子邮件、消息、报告等文本内容。生成的文本可以一键插入浏览器的任何文本字段中。

    🌐支持浏览器

    • 主要支持Chrome浏览器。

    11. 有挂

    有挂是AI浏览器插件,支持用户通过自然语言对话对网页进行编程和自定义修改。用户无需编程基础,只需输入简单指令,如“将背景颜色改为蓝色”或“在页面上模拟一个烟花”,插件就会自动调用AI模型来实时修改网页。

    yougua

    yougua

    🚀功能亮点

    • 自然语言指令:用户可以通过简单的自然语言输入来指示插件如何修改网页内容。
    • 个性化定制:用户可以根据自己的喜好对网页进行各种个性化设置,如改变背景颜色、添加图片、调整字体样式等。
    • 跨平台调整:支持不同类型的网站进行个性化设置,不局限于单一网页。
    • 自动化任务:根据用户指令,自动执行某些网页调整操作,不需要用户每次手动干预。

    🌐支持浏览器

    • Chrome浏览器:用户可以在Chrome Web Store中搜索安装该插件。
    • Edge浏览器:支持安装使用。
    • Arc浏览器:支持该插件。
  • 12个免费AI办公工具,Office办公智能化时代来了!

    在快节奏的现代职场中,时间就是金钱,效率就是生命。面对堆积如山的文件、复杂的数据分析以及繁杂的沟通协调,传统办公方式往往让我们疲于奔命。随着人工智能技术的飞速发展,AI办公工具应运而生,本文将介绍12个免费的AI办公工具,基于强大的自动化、智能化功能,为工作带来便捷与高效。无论是文案撰写、数据分析,还是图像设计、项目管理,成为我们得力的助手,重塑我们的工作方式。

    1. 办公小浣熊

    办公小浣熊是商汤科技推出的AI办公助手,将AI大模型能力与文档编辑、数据分析场景深度结合,为用户提供一站式创作、分析和知识管理平台。核心功能围绕“浣熊三步法(PAW)”展开,即规划(Plan)、分析(Analyze)、写作(Write),覆盖工作和学习的多个方面。用户可以通过对话式的交互,完成资料的检索收集、文档的撰写编辑、数据的处理分析等任务。办公小浣熊支持搭建个人线上知识库,方便用户进行文档、数据、代码的管理与检索。具备多模态能力,能分析各类型文档和图片,提供更全面的办公支持。

    办公小浣熊

    💡功能详情

    • 浣熊三步法(PAW)
      • 规划(Plan):基于联网检索和推理能力,帮助用户高效分解任务,制定执行计划。
      • 分析(Analyze):支持复杂的数据分析、处理和可视化展示,无需编程技能完成数据清洗、趋势预测和可视化。
      • 写作(Write):快速生成高质量的文章、报告、邮件等文档,提供智能校对和创意辅助。
    • 个人知识库管理支持构建专属知识库,整合笔记、文档和数据,实现快速检索和个性化生成,保障数据隐私。
    • 信息检索提供联网搜索能力,快速整理最新资料并一键插入文档。
    • 文档处理:支持将对话信息转换为文档,实现无缝编辑。
    • 数据可视化支持生成多种可视化图表,如时序图、双Y轴图等,帮助用户直观呈现数据分析结果。
    • 多模态支持能分析多种类型的文档和图片,提供更全面的办公支持。
    • AI文本能力提供翻译、找灵感、扩写、纠错等功能,帮助用户快速完成写作任务。

    🌐官网地址办公小浣熊

    2. 飞书多维表格

    飞书多维表格是飞书推出的表格形态的 AI 工作流搭建工具,支持批量化的AI创作与分析任务。支持多人实时编辑和批注讨论,提供丰富的字段类型和视图,满足多样化数据管理需求。飞书多维表格集成DeepSeek R1满血版模型,支持用户在表格中新建AI字段捷径,基于AI模型完成批量写作、分析等任务,大幅提升工作效率。支持自动化能力,用户设置触发条件和执行操作,实现任务自动分配、提醒等操作,工作流支持实现“条件分支”等更加复杂的逻辑,适合多节点的复杂流程,有效提升工作流的效率和便捷性。

    飞书多维表格

    💡功能详情

    • 实时协作:多人同时编辑,实时同步更新,支持评论、@提到团队成员,方便讨论和任务分配。
    • 个性化定制:提供丰富的字段、视图、仪表盘和插件,用户根据业务需求灵活搭建定制化的业务系统。
    • 自动化能力:基于自动化流程,自动执行任务,如发送消息通知,解放人力,提升工作效率。
    • 多种视图:支持表格视图、看板视图、日历视图、甘特视图、画册视图和表单视图,方便用户用不同方式展示数据。
    • 智能问答:通过多维表格智能问答,对多维表格的数据进行问答,也可以对多维表格的使用方式进行问答。
    • 数据分组与筛选:按任意字段设置分组,支持多个分组条件,及数据筛选和排序功能。
    • 复杂工作流:在自动化流程的基础上,实现更复杂的逻辑,如条件分支,适合多节点的复杂流程。

    🌐官网地址飞书多维表格

    3. 苏打办公

    苏打办公是360公司推出的一站式AI办公工具,为用户提供多种实用功能。集成PDF阅读、转换、合并拆分,图片识别文字,图片转PDF等功能。提供丰富的模板资源,如PPT、Word、Excel模板等,帮助用户快速制作专业文档。苏打办公支持多人实时在线协作编辑文档,适合团队合作使用。AI技术应用广泛,包括图片编辑、视频处理等智能化服务。

    💡功能详情

    • PDF工具集:提供PDF阅读、转换(如PDF转Word、PDF转PPT)、合并、拆分及添加水印等功能。
    • 文档转换:支持多种文件格式的转换,例如Word转PDF、PPT转Word等。
    • 图片处理:包括图片裁剪、尺寸调整、无损放大、图片变清晰以及AI智能抠图、图片美化等功能。
    • 视频编辑:提供视频剪辑、格式转换、智能抠像和去水印等功能。
    • AI辅助工具:基于AI技术提供人像美颜、视频变身、AI辅助设计、智能推荐等功能。
    • 设计工具:包括艺术字设计、海报制作、Logo设计等,帮助用户快速生成创意内容。
    • 实时协作与文件管理:支持多人实时在线协作编辑文档,提供云存储功能,方便团队成员共享文件和管理项目。
    • 模板服务:提供丰富的PPT、Word、Excel模板,帮助用户快速创建专业文档。

    🌐官网地址苏打办公

    4. OfficeAI助手

    OfficeAI助手是免费的智能AI办公工具,专为Microsoft Office和WPS用户设计,提升办公效率。通过WordAI和ExcelAI插件,帮助用户快速完成繁琐任务,如撰写周报、整理会议纪要、选择Excel公式等。具备智能校对、AI排版、文生图、翻译等功能,支持多种AI大模型引擎,如文心一言、ChatGLM等。

    OfficeAI

    💡功能详情

    • WordAI插件功能
      • AI写作:支持文案生成、文章润色、工作总结、会议纪要生成等功能,帮助用户快速撰写和优化文档。
      • 智能校对:自动检测并修正错别字和拼写错误,提升文档质量。
      • AI排版:一键智能分析文档结构并自动排版,提升文档美观度。
      • AI绘画:根据文字描述生成图片,支持简单插画和特定风格的图像。
      • 翻译与提取:支持多语言翻译和从图片中提取文字。
    • ExcelAI插件功能
      • 公式辅助:自动推荐并生成合适的公式,简化复杂计算。
      • 数据分析:支持求和、平均值、最大值等统计操作,并能生成图表。
      • 表格操作:包括批量插入图片、清理重复数据、提取不重复数据等。
      • 格式化数据:支持数字格式化、自动换行与对齐等操作。
    • 其他功能
      • 日常对话与问题解答:通过主程序解答办公相关问题。
      • 本地部署支持:支持基于APIKEY或本地模型进行私有化部署。
      • 多语言支持:支持简体中文、繁体中文和英文。
      • 跨平台兼容:兼容Windows 7及以上系统,支持Office 2013及以上版本和WPS。

    🌐官网地址OfficeAI助手

    5. Chatbox AI

    Chatbox AI 是开源的跨平台 AI 客户端应用和智能助手,支持 Windows、Mac、Linux、iOS、Android 和网页版。集成了多种先进的语言模型,如 ChatGPT、DeepSeek、Claude、Google Gemini Pro 等,支持本地模型(如 Llama2、Mistral 等)。Chatbox AI 提供丰富的功能,包括本地数据存储、图像生成(Dall-E-3)、代码高亮、Markdown 和 LaTeX 支持、多语言交互、团队协作等。

    Chatbox AI

    💡功能详情

    • 多语言对话:支持多种语言的交互,包括中文、英文、日文等。
    • 文档和图片交互:用户可以上传文档、图片或代码文件,Chatbox AI 能理解内容并提供智能响应。
    • 代码辅助功能:支持代码生成、预览、语法高亮、代码审查、重构、调试等,帮助开发者提高效率。
    • 实时联网搜索:通过联网搜索获取最新信息,确保回答的时效性。
    • 图像生成:支持使用 DALL-E-3 等工具将文字描述转化为图像。
    • 数据本地存储:所有数据和对话历史均存储在本地设备上,确保隐私。
    • 团队协作功能:支持共享 OpenAI API 资源,方便团队成员协作。
    • 多平台支持:可在 Windows、Mac、Linux、iOS、Android 和网页端使用。
    • 学术写作支持:支持 Markdown 和 LaTeX 格式化,适合学术写作和复杂公式处理。
    • 可视化图表生成:能生成图表以辅助理解复杂数据。

    🌐官网地址Chatbox AI

    6. 灵办AI

    灵办AI是AIPURE推出的全能型AI助手,提升用户的工作与学习效率。集成了多种功能,包括翻译、对话、写作、AI搜索、AI阅读、文案改写和代码生成/纠正等。灵办AI支持超过60种语言的翻译,提供网页翻译、双语对照等功能。写作功能能生成各类文案,如公文、论文、营销文案等。具备AI对话、信息获取、阅读总结和笔记记录等功能。用户无需切换多个工具,可完成多种任务。

    灵办AI

    💡功能详情

    • AI对话:支持实时联网对话,能解答多领域问题,包括数学计算、代码修正、生活咨询等。
    • 智能翻译:支持超过60种语言的翻译,涵盖网页、PDF、论文等文档的翻译,提供双语对照。
    • AI写作:可高效生成各类文案,如公文、论文、营销文案、社交媒体内容等,满足不同场景的写作需求。
    • AI阅读:快速总结网页、PDF、Word、PPT、TXT等文件的关键要点,帮助用户高效获取信息。
    • 信息获取:提供无广告的快速搜索功能,帮助用户快速获取全网信息。
    • 文案改写:支持对文本进行优化和改写,提升文案质量。
    • 代码生成与纠正:辅助编程工作,提供代码生成建议和错误纠正。
    • 笔记功能:在阅读或对话过程中记录重要信息,方便用户整理和查阅。
    • AI绘图:支持简单的AI辅助绘图,帮助用户完成设计草图或艺术创作。

    🌐官网地址灵办AI

    7. Monica

    Monica是全能型AI助手,集成了GPT-4、Claude 3.5、Gemini等先进AI模型。支持多平台使用,包括浏览器插件、桌面应用和移动应用,覆盖Chrome、Edge、Windows、Mac、iOS和Android等环境。功能包括AI聊天、内容摘要、写作与翻译、图像与视频处理以及文档与数据处理。提供80多个写作模板,支持生成邮件、文章、营销文案等,具备多语言翻译功能。Monica能增强搜索引擎功能,快速总结网页和视频内容。

    💡功能详情

    • AI聊天与搜索:Monica支持与多种AI模型进行对话,提供实时信息和联网搜索功能,通过智能筛选关键词快速找到用户所需的信息。
    • 内容摘要与处理
      • 提供网页、PDF、图片和视频的摘要功能,帮助用户快速提取关键信息。
      • 支持YouTube视频摘要,标注关键时刻并生成简洁的内容概述。
    • 写作与翻译
      • 内置多种写作模板,支持生成邮件、周报、营销文案等,提供语法纠错和内容优化功能。
      • 支持多语言翻译,覆盖120多种语言,适用于网页、PDF和文本翻译。
    • 图像与视频处理
      • 提供AI图像生成、背景移除、物体移除、图像放大等功能。
      • 支持文生视频和图生视频,集成多种视频生成模型。
    • 文档与数据处理
      • 支持PDF文件的问答、翻译、重写和总结,能将PDF转换为可编辑的Word、PPT等格式。
      • 提供数据分析功能,自动生成SQL语句、Python脚本和可视化图表。
    • 智能工具栏与自定义功能
      • 提供智能工具栏,用户可以通过快捷键快速调用翻译、总结、改写等功能。
      • 支持自定义Agent,用户可以根据需求配置专属的AI工具。

    🌐官网地址Monica

    8. WPS灵犀

    WPS灵犀是金山办公推出的智能办公助手,通过多种AI功能提升用户的办公效率。支持智能写作、PPT生成、数据分析、文档阅读与总结等功能。用户可以通过输入主题或关键词,灵犀自动生成文档内容、PPT大纲或数据分析图表。WPS灵犀支持全网搜索,帮助用户快速获取信息。具备文档校对、智能排版等功能,帮助用户优化文档质量。WPS灵犀已接入DeepSeek R1,进一步提升了AI生成能力和办公智能化水平。

    wps

    💡功能详情

    • 智能写作与内容创作:WPS灵犀能根据用户输入的主题或关键词快速生成文章、报告、邮件等文本内容,提供写作建议和润色功能。可以根据文档内容自动生成摘要,帮助用户快速把握要点。
    • PPT生成与演示辅助:用户可以将文档内容直接转换为PPT演示文稿,灵犀会根据内容自动生成幻灯片布局和设计建议,帮助用户快速制作专业演示。
    • 数据分析与可视化:在WPS表格中,灵犀可以自动识别数据模式,推荐合适的图表类型,帮助用户进行数据预测和可视化分析。
    • 文档阅读与校对:灵犀能阅读文档提取关键信息,帮助用户快速理解文档内容。支持智能校对,检查语法和拼写错误并提供修改建议。
    • 全网搜索与信息整理:用户可以通过灵犀搜索全网资料,快速获取所需信息,对网页内容进行摘要提取。
    • 语音输入与交互:灵犀支持语音输入功能,用户可以通过语音指令快速生成文字内容。
    • 智能排版与设计:灵犀可以根据文档类型和内容自动调整格式,优化排版效果,更加美观和专业。
    • 多语言翻译:灵犀支持多语言文档翻译,帮助用户快速处理国际交流和多语言文档。

    🌐官网地址WPS灵犀

    9. 小易AI

    小易AI是易企秀推出的AI办公工具,提升用户在办公及创作场景下的效率和质量。集成了多种功能,包括AI文案生成、AI绘画、AI特效字制作、AI长页生成、AI问卷和AI答题等。用户可以通过输入文本描述或选择相关功能,快速生成吸引人的文案、智能生成图片、制作特效字,一键生成营销落地长页。小易AI支持智能排版和丰富的素材库,方便用户快速调用。

    小易AI

    💡功能详情

    • AI文案生成:根据用户输入的场景和信息,自动生成吸引人的文案,用户可以预览和编辑生成的文案,用于营销材料。
    • AI绘画:采用“AI生成+正版素材智能推荐”双引擎驱动模型,用户通过描述画面内容即可生成图片,可进行“一键抠图”和“一键美化”等二次创作。
    • AI特效字:用户输入文字内容、选择字体并描述特效后,AI自动生成特效字,适用于标题、广告语等,增加视觉冲击力。
    • AI长页:支持一键生成营销落地长页,用户选择场景、输入活动信息并选择页面风格后,可快速生成长页。
    • AI问卷:AI问卷功能可自动生成完整的问卷并生成“问卷作品”,方便开展线上调研。
    • AI答题:AI答题能生成答题试卷及答案解析。
    • 智能排版与素材库:提供智能排版功能,可根据内容自动调整布局,包含丰富的图片和模板资源,方便用户快速创作。
    • 数字人功能:用户输入文案或上传音频后,可生成唇形语音同步、动作流畅的真人口播视频,适用于新闻播报、虚拟主播等场景。

    🌐官网地址小易AI

    10. 夸克

    夸克是阿里巴巴推出的AI智能搜索应用,基于先进的AI引擎,集搜索、网盘、文档创作、视频总结等功能于一体。核心功能包括智能搜索,能快速整理全网内容并生成优质回答;AI总结功能可高效提炼文件、网页和视频内容,支持生成摘要、思维导图和PPT;夸克提供6T超大网盘空间,支持多端同步和不限速下载。

    💡功能详情

    • AI智能搜索:夸克通过AI大模型技术,提供智能回答和精准搜索直达功能。用户在搜索框输入问题后,AI能快速生成优质答案。
    • AI写作与创作:夸克支持多种文案类型的生成,如策划方案、新闻稿等。用户只需输入主题和要求,可快速生成高质量文案。能一键生成PPT框架,提供多种风格选择。
    • AI学习助手:夸克提供拍照搜题、题目分步骤讲解和知识点总结等功能,覆盖小学、初中语数英等学科,帮助学生和家长更好地理解和学习。
    • AI文件与视频处理:夸克支持对文件和视频的智能总结,能生成摘要、思维导图,支持将提取的内容导出为多种格式。提供AI扫描功能,可识别文稿、黑板和投影内容。
    • 夸克网盘:提供6T超大空间,支持多端同步和高速下载,方便用户存储和管理文件。
    • AI助手与工具:夸克配备桌面AI助手,支持划词翻译、润色等功能。提供AI简历助手、AI字幕生成等实用工具。

    🌐官网地址夸克

    11. 熊猫办公

    熊猫办公是集创意设计模板和AI办公功能于一体的平台。提供丰富的PPT、Word、Excel模板,免抠元素、视频素材、字体和音效等资源,覆盖多种工作和学习场景。熊猫办公结合AI技术,支持内容自动生成、智能推荐等功能,帮助用户快速完成文档制作。在线协作功能支持多人实时编辑文档,提升团队协作效率。

    tukuppt

    💡主要功能

    • 丰富的模板资源:提供PPT、Word、Excel等多种办公模板,涵盖商务报告、学术演示、简历制作、财务报表等场景,满足不同用户需求。
    • AI智能功能
      • AI写作:支持多场景文档创作,可快速生成初稿并优化已有内容,支持个性化定制。
      • AIPPT:能够根据用户输入的主题快速生成PPT框架,并提供内容填充建议。
    • 素材库:提供高质量的图片、图标、音乐等设计元素,增强文档的视觉效果。
    • 在线协作:支持多人实时在线编辑文档,可灵活设置编辑权限,提升团队协作效率。
    • 智能推荐:基于用户行为和内容时效性,精准推荐模板和设计元素。
    • 多设备支持与云同步:支持手机、平板、电脑等多种设备,文件实时同步,方便随时随地办公。

    🌐官网地址熊猫办公

    12. 腾讯文档智能助手

    腾讯文档智能助手是腾讯推出的集成在腾讯文档平台上的AI工具,帮助用户高效处理和创作多种类型的文档。支持文档、表格、幻灯片、PDF、思维导图等多种格式。用户可以通过简单的语言指令或选择现有材料,快速生成文档内容。腾讯文档智能助手接入DeepSeek-R1模型满血版,用户可以选择DeepSeek-R1模型,获得更全面、深入的答案,适合专业创作场景。支持实时联网搜索,涵盖微信公众号、腾讯文库等全网权威信息源。生成的结果可以直接转化为文档、表格、幻灯片等多种形式。

    腾讯文档智能助手

    💡功能详情

    • 智能化内容生成:基于DeepSeek-R1模型,用户可以通过简单的指令或关键词,快速生成高质量的文本内容,包括文档、表格、幻灯片、思维导图等多种格式。
    • 实时联网搜索:新增的实时联网搜索功能支持用户在处理文档时,获取微信公众号、腾讯文库等全网权威信息源的内容,确保文档的时效性和准确性。
    • 文档总结与问答:智能助手能够对文档内容进行总结、生成摘要大纲,回答用户关于文档的各种问题,帮助用户快速梳理和理解信息。
    • 多种输出格式:生成的内容可以无缝转化为文档、表格、幻灯片、思维导图等多种形式,满足不同场景下的多样化需求。
    • 灵活的模型选择:用户可以选择DeepSeek-R1模型获取更全面、深入的答案,也可以选择混元大模型获得快速高效的回复,满足不同工作场景的需求.
    • 多平台支持:用户可以在腾讯文档的小程序、网页版、移动端或桌面端(3.9.5及以上版本)中使用智能助手,操作便捷。

    🌐官网地址腾讯文档智能助手

  • 笔启AI – AI论文写作工具,支持多级大纲定制

    笔启AI是什么

    笔启AI是高效智能的AI论文写作工具,专为学术写作需求设计。能快速生成论文大纲、正文内容,支持多级大纲定制,2万字正文仅需10分钟即可完成,极大节省写作时间。笔启AI内置智能查重功能,查重率稳定在10%左右,若知网查重率超15%可退款,保障学术规范性。提供文献引用和推荐服务,支持40篇知网/中科院真实参考文献并附带标注,帮助用户丰富论文内容。笔启AI支持多语种写作,涵盖中文、英语、日语等多种语言,满足不同学科和用户需求。

    笔启AI

    笔启AI的主要功能

    • 论文大纲生成:笔启AI能快速生成高质量的论文大纲,支持二级和三级大纲的定制。用户可以根据研究主题和需求,灵活调整大纲结构,为论文写作提供清晰的框架。
    • 正文内容生成:平台可以高效生成论文正文内容,2万字正文仅需10分钟即可完成。生成的内容逻辑清晰、语言流畅,能满足不同学科和研究方向的需求。
    • 智能查重与降重:笔启AI内置智能查重功能,支持知网最新版查AIGC,能提供详细的重复率报告及降重建议。生成的论文查重率稳定在10%左右,若知网查重率超过15%,平台承诺退款。
    • 文献引用与推荐:笔启AI提供40篇知网/中科院真实参考文献,附带标注,方便用户直接引用。平台会根据论文主题推荐相关文献资料,助力用户开展研究。
    • 定制化学习:用户可以通过“投喂AI”功能,上传指定的文献或数据,让AI学习特定的研究方向或主题,使生成的内容更贴合用户的研究需求。
    • 多语种写作支持:笔启AI支持中文、英语、日语、韩语、俄语等多种语言的写作,满足不同用户的需求,适合跨学科研究和国际合作项目。
    • AIGC检测保障:平台独创AIGC检测保障机制,确保生成内容的原创性。若AIGC检测率超过25%,可退款,为用户提供了额外的质量保障。
    • 辅助功能:笔启AI支持数据表、图、公式、代码等内容的插入,满足理工科等学科的特殊需求。提供论文润色、修改建议等功能,帮助用户进一步提升论文质量。

    如何使用笔启AI

    • 访问平台:访问笔启AI的官方网站(biqiai.cn)(点击获取-AI论文写作工具合集)。
    • 注册账号:点击“注册”按钮,注册信息或直接登录平台。
    • 选择论文类型:登录后,进入笔启AI的写作界面。根据你的需求选择“本科毕业论文”“硕士论文”“期刊论文”或其他类型。不同的论文类型会提供不同的模板和格式要求。
    • 输入论文主题:在指定的输入框中输入你的论文主题或研究方向。例如,“人工智能在医疗领域的应用”。根据需要调整字数、语言等参数。例如,选择中文、字数为10000字。
    • 生成论文大纲:输入主题后,点击“生成大纲”按钮。笔启AI会快速生成一个包含二级或三级大纲的框架。你可以根据需要对大纲进行调整,例如修改章节标题、增删章节等。
    • 生成正文内容:在大纲中选择一个章节,点击“生成内容”按钮。笔启AI会根据大纲生成该章节的正文内容。你可以根据生成的内容进行修改和补充,更符合你的研究思路。依次生成每个章节的内容,直到完成整篇论文的初稿。
    • 智能查重与降重:完成初稿后,点击“智能查重”按钮。笔启AI会生成详细的查重报告,显示重复率和重复内容的位置。根据查重报告,笔启AI会提供降重建议。你可以根据建议对重复内容进行修改,降低查重率。
    • 文献引用与推荐:笔启AI会根据你的论文主题推荐相关文献,提供40篇知网/中科院的真实参考文献。选择需要引用的文献,点击“引用”按钮,笔启AI会自动为你生成文献引用格式并插入到论文中。
    • 润色与修改:完成初稿后,点击“润色”按钮,笔启AI会对论文内容进行语言润色,提升语言表达的流畅性和专业性。
    • 导出论文:完成所有修改后,点击“导出论文”按钮,选择导出格式(如Word、PDF等)。将导出的论文文件保存到本地,方便进一步修改或提交。

    笔启AI的应用场景

    • 学术研究:快速搭建研究框架,明确章节重点,帮助学生和科研人员确定研究方向。
    • 论文撰写:高效生成论文初稿,覆盖毕业论文、课程论文、期刊论文等多种类型,满足不同学术需求。
    • 论文润色与优化:笔启AI支持对论文进行语义优化,提升语言表达的精准性和流畅性。内置智能查重功能,能提供详细的重复率报告及降重建议。
    • 文献管理与引用:笔启AI可以根据论文主题推荐相关文献,提供40篇知网/中科院的真实参考文献,方便用户直接引用。
    • 写作辅助与效率提升:可以通过“投喂AI”功能上传指定文献或数据,让AI学习后生成更贴合主题的内容。
  • 基石智算 – 青云科技推出的 AI 算力云服务平台

    基石智算是什么

    基石智算青云科技推出的 AI 算力云服务平台,专注于为用户提供高效、灵活且智能的 AI 算力支持。核心优势在于强大的算力资源,单节点配备高性能 GPU 和 CPU,结合高速网络与存储技术,能满足大规模 AI 训练和推理需求。平台支持公有云、私有化部署和专属云等多种服务模式,可根据用户需求灵活选择。

    基石智算

    基石智算的主要功能

    • 多元算力统一调度:支持 NVIDIA GPU、国产 GPU、NPU 等多种异构算力资源的统一管理,构建灵活的算力池。
    • 分布式调度与管理:自动分配和管理算力资源,优化任务调度效率,缩短任务执行时间。
    • 弹性扩容:根据业务需求实时扩展算力资源,支持按需计费。
    • 一站式 AI 计算全流程服务:覆盖从算法开发到模型部署的全流程,内置 TensorFlow、PyTorch 等主流深度学习框架。
    • 模型仓库与管理:提供模型仓库(MaaS)和多种 AI 大模型一键部署交付,支持模型的快速管理和应用。
    • 模型服务:支持模型的在线推理、一键部署和在线微调,用户可通过 API 调用模型。
    • 多维度监控:新增节点监控、任务监控、容器组监控等功能,提供全方位的资源使用和硬件状态监控。
    • 智能告警:支持邮件、企微、webhook 等多种通知渠道,确保用户及时掌握运行状态。
    • 开放的应用框架:支持与行业内多家厂商的生态应用集成,打造丰富的 SaaS 应用服务。
    • 无缝集成与部署:支持多种接入方式,简化开发流程,非技术用户也能快速上手。
    • 自动化运营:提供规格定价、在线充值、购买产品的全流程自服务管理,减少运营成本。
    • 资源池定制化服务:支持公共资源组和专属资源组,满足不同用户的需求。
    • 多模态模型支持:提供文本生成、语音识别、图像生成等多种类型的模型服务。
    • 智能交互功能:支持 JSON 模式输出,提供结构化、标准化的数据结果,方便用户开发智能应用。

    如何使用基石智算

    • 注册与登录:访问基石智算的官方网站,注册并登录账户。
    • 创建 API 密钥:在顶部导航栏中选择“产品与服务”-“大模型服务”,进入大模型服务平台。在左侧导航栏中选择“API 密钥管理”,点击“创建 API 密钥”,输入密钥名称后点击“确定”,创建完成后复制 API 密钥。
    • 直接调用 API
      • 在“在线推理服务”中选择目标模型,获取模型的 API 文档,确认 API 域名(如:https://openapi.coreshub.cn/v1)。
      • 使用 API 密钥和域名,通过 HTTP 请求或支持 OpenAI 接口的工具(如 Python 的 OpenAI 依赖)调用模型。
    • 云端一键部署
      • 在“AI 算力云服务”-“模型广场”中选择 DeepSeek-R1 等模型,点击“模型部署”。
      • 选择算力资源并点击“创建”,部署完成后获取外网访问地址和 API 密钥。
    • 配置第三方工具
      • 以 VSCode 的 Cline 插件为例,安装插件后在设置中填写 API 密钥、API 域名和模型名称(如 DeepSeek-V3),即可使用模型进行代码补全等功能。
      • 以 Cursor 编程工具为例,下载并安装 Cursor 客户端,配置 API 密钥和域名,选择 DeepSeek-R1 模型,即可在编辑器中使用模型生成代码。
    • 直接调用模型:使用浏览器或 HTTP 工具,通过外网访问地址和 API 密钥调用模型,获取推理结果。
    • 监控与管理:在基石智算平台上,用户可以实时监控模型运行状态、资源使用情况,根据需要进行弹性扩容或缩容。

    基石智算的应用场景

    • AI 模型训练与开发:基石智算提供强大的 GPU 算力资源和分布式调度能力,支持从模型设计到训练、部署的全流程服务。用户可以通过平台快速启动多机多节点的分布式训练任务,系统自动调度算力资源并完成计算,任务结束后自动释放资源。
    • 高性能计算:基石智算支持大规模并行计算任务,优化网络通信,确保高性能计算任务的高效执行。强大的调度引擎能管理千卡万卡级别的算力资源,满足复杂计算需求。
    • 数据科学与分析:平台提供灵活的算力资源,满足数据科学与分析任务对算力的多样化需求。用户可以用平台的算力资源进行数据处理、分析和建模,提升数据科学项目的效率。
    • AI 模型服务与推理:基石智算提供模型仓库(MaaS)和多种 AI 大模型一键部署交付,用户可以快速部署在线推理服务。
  • Kimi-Audio – Moonshot AI 开源的音频基础模型

    Kimi-Audio是什么

    Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 LLM 的设计,支持并行生成文本和音频标记,同时通过分块流式解码器实现低延迟音频生成。

    Kimi-Audio

    Kimi-Audio的主要功能

    • 语音识别(ASR):能将语音信号转换为文本内容,支持多种语言和方言。
    • 语音情感识别(SER):分析语音中的情感信息,判断说话者的情绪状态(如高兴、悲伤、愤怒等),可用于客服系统、情感分析等。
    • 声音事件/场景分类(SEC/ASC):识别和分类环境声音(如汽车喇叭声、狗叫声、雨声等)或场景(如办公室、街道、森林等)。
    • 音频字幕生成(AAC):根据音频内容自动生成字幕,帮助听力障碍者更好地理解音频信息。
    • 音频问答(AQA):根据用户的问题生成相应的音频回答。
    • 端到端语音对话:支持生成自然流畅的语音对话内容。
    • 多轮对话管理:能处理复杂的多轮对话任务,理解上下文信息并生成连贯的语音回应。
    • 语音合成(TTS):将文本内容转换为自然流畅的语音,支持多种音色和语调选择。
    • 音频内容分析:对音频中的语义、情感、事件等进行综合分析,提取关键信息。
    • 音频质量评估:分析音频的清晰度、噪声水平等,为音频处理提供参考。

    Kimi-Audio的技术原理

    • 混合音频输入:Kimi-Audio 采用混合音频输入方式,将输入音频分为两部分:
      • 离散语义标记:通过向量量化技术,将音频转换为离散的语义标记,频率为 12.5Hz。
      • 连续声学特征:使用 Whisper 编码器提取连续的声学特征,并将其降采样到 12.5Hz。这种混合输入方式结合了离散语义和连续声学信息,使得模型能够更全面地理解和处理音频内容。
    • 基于 LLM 的核心架构:Kimi-Audio 的核心是一个基于 Transformer 的语言模型(LLM),初始化来源于预训练的文本 LLM(如 Qwen 2.5 7B)。
    • 分块流式解码:Kimi-Audio 采用基于流匹配的分块流式解码器,支持低延迟音频生成,通过分块处理音频数据,模型能够在生成过程中实时输出音频,显著降低延迟。支持前瞻机制,进一步优化了音频生成的流畅性和连贯性。
    • 大规模预训练:Kimi-Audio 在超过 1300 万小时的多样化音频数据(包括语音、音乐和各种声音)上进行了预训练。使模型具备强大的音频推理和语言理解能力,能处理多种复杂的音频任务,如语音识别、音频问答、情感识别等。
    • 流匹配模型:用于将离散标记转换为连续的音频信号。
    • 声码器(BigVGAN):用于生成高质量的音频波形。确保了生成音频的自然度和流畅性。

    Kimi-Audio的项目地址

    Kimi-Audio的性能表现

    • 语音识别(ASR):在 LibriSpeech 测试集上,Kimi-Audio 的词错误率(WER)分别达到了 1.28%(test-clean)和 2.42%(test-other),显著低于其他模型。在 AISHELL-1 数据集上,其 WER 仅为 0.60%,表现优异。
    • 音频理解:在音频理解任务中,Kimi-Audio 在多个数据集上取得了接近或超过 SOTA 的结果。例如,在 ClothoAQA 数据集上,其测试集性能达到了 73.18%;在 VocalSound 数据集上,准确率达到了 94.85%
    • 音频问答(AQA):在音频问答任务中,Kimi-Audio 在 ClothoAQA 数据集的开发集上达到了 73.18% 的准确率,显示出其在理解和生成音频问答内容方面的强大能力。
    • 音频对话:在语音对话任务中,Kimi-Audio 在多个基准测试中也表现出色。例如,在 VoiceBench 的 AlpacaEval 数据集上,其性能达到了 75.73%,在语音对话的流畅性和连贯性方面表现出色。
    • 音频生成:Kimi-Audio 在非语音音频生成方面表现出色,在 Nonspeech7k 数据集上,准确率达到了 93.93%,显示出其在生成高质量音频内容方面的能力。

    Kimi-Audio的应用场景

    • 智能语音助手:Kimi-Audio 可以用于开发智能语音助手,支持语音识别、语音合成和多轮对话功能。能理解用户的语音指令并生成自然流畅的语音回应。
    • 语音识别与转录:Kimi-Audio 能将语音信号高效转换为文本内容。支持多种语言和方言,适用于会议记录、语音笔记、实时翻译等场景。
    • 音频内容生成:Kimi-Audio 可以生成高质量的音频内容,包括语音合成(TTS)、音频字幕生成(AAC)和音频问答(AQA)。能根据文本内容生成自然流畅的语音,也可根据问题生成音频回答,适用于有声读物、视频字幕生成和智能客服等领域。
    • 情感分析与语音情感识别:Kimi-Audio 能分析语音中的情感信息,判断说话者的情绪状态(如高兴、悲伤、愤怒等)。
    • 教育与学习:Kimi-Audio 在教育领域有多种应用,例如英语口语陪练、语言学习辅助等。可以通过语音交互帮助用户练习发音、纠正语法错误,提供实时反馈。
  • OpenMath-Nemotron – 英伟达开源的数学推理系列模型

    OpenMath-Nemotron是什么

    OpenMath-Nemotron是英伟达推出的系列开源数学推理模型,专门用在解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集OpenMathReasoning进行训练,包含54万个独特问题及320万个长推理解决方案。OpenMath-Nemotron系列包含,OpenMath-Nemotron-1.5B、OpenMath-Nemotron-7B、OpenMath-Nemotron-14B和OpenMath-Nemotron-32B,OpenMath-Nemotron-14B-Kaggle (AIMO-2竞赛中使用的模型)。其中,1.5B版本在某些任务中超越14B的DeepSeek-R1模型。

    OpenMath-Nemotron

    OpenMath-Nemotron的主要功能

    • 解决复杂数学问题:支持处理从基础到奥林匹克级别的数学难题。
    • 长推理能力:基于逐步思考生成详细的解题步骤。
    • 多模式推理:支持多种推理方式,适应不同类型的数学问题。

    OpenMath-Nemotron的技术原理

    • 大规模数据集:使用包含54万个独特数学问题及320万个长推理解决方案的大规模数据集OpenMathReasoning进行训练。数据来自Art of Problem Solving(AoPS)社区论坛,经过严格的筛选和处理。
    • 长推理(Chain-of-Thought, CoT):模型基于生成一系列中间解题步骤逐步推理问题的解决方案。支持模型在生成最终答案之前进行更深入的思考。
    • 工具集成推理(Tool-Integrated Reasoning, TIR):基于迭代训练、生成和质量过滤,将代码执行与长推理集成。模型在需要时提示代码进行计算,在沙箱中执行代码,得到更准确的解决方案。
    • 模型训练与优化:用监督微调(SFT)技术对Qwen2.5-Base模型进行训练,支持多种任务,包括CoT解决方案生成、TIR解决方案生成和GenSelect。用AdamW优化器和余弦学习率衰减策略,结合序列打包和上下文并行化技术,显著加速长推理数据的训练。
    • 推理优化:基于TensorRT-LLM进行模型推理优化,支持动态批量处理和多种量化技术,如int8和FP8,提高推理速度减少延迟。

    OpenMath-Nemotron的项目地址

    OpenMath-Nemotron的应用场景

    • 数学教育:辅助学生和教师解决数学问题,提升学习效果。
    • 竞赛训练:帮助数学竞赛选手练习,优化解题策略。
    • 学术研究:支持复杂数学问题的探索,助力学术研究。
    • 工业应用:解决实际工程和金融中的数学难题,提高效率。
    • AI开发:作为基础模型,推动需要数学推理的AI系统开发。
  • 小饿 – 饿了么推出的骑手端AI智能语音助手

    小饿是什么

    小饿是饿了么为外卖骑手推出的AI智能语音助手。基于大模型技术开发,是国内首个骑手端智能体。基于语音交互,骑手能完成接单、确认到店等操作,无需手动点击,提升效率。小饿全面覆盖骑手的配送场景,提升骑手的效率和体验,目前,小饿已在无锡、沈阳、佛山、苏州等城市上线,蜂鸟众包APP的蓝骑士已可使用。

    xiaoe

    小饿的主要功能

    • 语音交互操作:语音指令完成接单、确认到店、查询活动等操作,无需手动点击,极大地提升操作效率。
    • 权益提醒:主动推送福利领取提醒,确保骑手不错过任何权益。
    • 天气预警:在极端天气条件下提前预警,提醒骑手做好准备。
    • 路线提示:告知前方路况,避免因道路封闭耽误时间。
    • 个性化智能分析:订单热力图,基于骑手历史数据和周边订单分布,提供订单热力图,帮助骑手找到订单多的区域,提高收入。
    • 收入预估:实时提供当前收入预估,让骑手更清晰地了解收入情况,优化接单策略。

    如何使用小饿

    • 下载APP:iOS用户访问苹果AppStore应用商店,安卓用户访问腾讯应用宝,下载蜂鸟众包App,按照提示完成安装和登录。
    • 唤醒小饿:基于语音唤醒小饿,只需说出唤醒词“小饿小饿”。
    • 语音指令操作
      • 接单:唤醒“小饿”后,直接说“接单”,自动完成接单操作。
      • 确认到店:到达商家后,说“确认到店”,自动完成确认。
      • 查询活动:说“查询活动”,自动提供相关信息。
    • 接收主动服务
      • 权益提醒:当有福利可以领取时,主动提醒你。
      • 天气预警:如果遇到极端天气,提前预警。
      • 路线封路提示:如果前方道路封闭,及时告知。
    • 查看智能分析
      • 订单热力图:查看订单热力图,了解哪里订单多。
      • 收入预估:查询当前收入预估,优化接单策略。

    小饿的应用场景

    • 配送操作:骑手在接单、确认到店、送达等环节,基于语音指令操作,无需手动点击,提升配送效率。
    • 权益提醒:骑手在配送过程中,收到推送的福利领取提醒,确保不错过任何权益。
    • 天气与路况预警:遇到极端天气或道路封闭时,“提前预警,骑手提前调整路线,避免延误。
    • 智能分析:骑手查看订单热力图,找到订单多的区域,查看收入预估,优化接单策略。
  • ChatWise – AI聊天工具,支持多种主流语言模型

    ChatWise是什么

    ChatWise 是高性能的 AI 聊天工具,支持多种语言模型(LLM),如 GPT-4ClaudeGemini 等。ChatWise基于简洁易用的设计理念为核心,提供多模态交互功能,支持音频、PDF、图片和文本文件等多种格式。ChatWise 优化桌面体验,数据存储在本地,确保用户隐私安全。ChatWise具备网页搜索功能,基于 Tavily 或本地浏览器获取实时信息,支持连接到外部工具如 Notion 和 Google Sheets,满足多样化需求。

    ChatWise

    ChatWise的主要功能

    • 支持多种 LLM 模型:包括 GPT-4、Claude、Gemini 等。
    • 性能优化:专为桌面体验设计,注重性能。
    • 多模态交互:支持音频、PDF、图片、文本文件等多种格式的交互。
    • 网页搜索:基于 Tavily 或本地浏览器免费搜索网页。
    • 渲染功能:支持渲染 HTML、React、图表和文档。
    • 连接外部工具:支持基于 MCP连接到 Notion、Google Sheets、浏览器等工具。

    ChatWise的官网地址

    ChatWise的产品定价

    • 免费版:基础聊天功能。
    • 专业版:$29,一次性付款,终身使用。,聊天记录搜索,自定义助手,网页搜索,工具(MCP),提前访问新功能,一年专业功能更新,优先支持。

    ChatWise的应用场景

    • 个人学习:上传文件或搜索网页获取知识和解答问题。
    • 办公协作:连接工具如 Notion 和 Google Sheets,方便团队协作处理文件。
    • 内容创作:辅助生成创意、撰写文案,处理图片和音频素材。
    • 技术支持:构建智能客服系统,快速响应解决问题。
    • 教育培训:辅助教学和学习,获取教育资源和信息。
  • LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型

    LiveCC是什么

    LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。LiveCC 推出 Live-CC-5M 数据集用在预训练,和 Live-WhisperX-526K 数据集用在高质量的监督微调。LiveCC 设计了 LiveSports-3K 基准测试,用在评估模型的实时视频评论能力。实验表明,LiveCC 在实时视频评论和视频问答任务上表现出色,展现出低延迟和高质量的生成能力。

    LiveCC

    LiveCC的主要功能

    • 实时视频评论:根据视频内容生成连续的、与人类类似的实时评论,适用于体育赛事、新闻播报、教学视频等多种场景。
    • 视频问答:回答与视频内容相关的问题,帮助用户更好地理解视频中的事件和细节。
    • 低延迟处理:用极低的延迟(每帧小于0.5秒)处理视频流,支持实时应用。
    • 多场景适应:适用于多种视频类型,包括体育、新闻、教育、娱乐等。

    LiveCC的技术原理

    • 流式训练方法:将自动语音识别(ASR)的单词与视频帧按照时间戳密集交错,让模型学习到时间对齐的视觉-语言关系。模拟人类观看视频时的实时感知过程,让模型生成与视频内容紧密相关的评论。
    • 大规模数据集:从YouTube视频中提取的ASR字幕构建两个数据集:Live-CC-5M(用在预训练)和Live-WhisperX-526K(用在高质量监督微调)。数据集为模型提供丰富的训练素材。
    • 模型架构:基于Qwen2-VL模型架构,结合视觉编码器和语言模型,处理视频帧和文本信息。模型基于自回归的方式预测文本令牌,将视频令牌作为非预测输入。
    • 实时推理:在推理阶段,LiveCC模型逐帧处理输入视频,生成实时评论。为提高效率,模型缓存之前的提示、视觉帧和生成的文本,加速语言解码。
    • 评估方法:基于LiveSports-3K基准测试评估模型的实时评论能力,用LLM-as-a-judge框架比较不同模型生成的评论质量。

    LiveCC的项目地址

    LiveCC的应用场景

    • 体育赛事:提供实时评论和赛事分析,增强观众体验。
    • 新闻报道:辅助实时新闻解读,提升报道的深度和专业性。
    • 教育领域:为教学视频生成讲解,辅助技能培训。
    • 娱乐媒体:为影视内容提供实时剧情解读,增加互动性。
    • 智能助手:结合视频内容提供实时信息,提升交互体验。