Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • 欧派算力云 – AI算力服务平台,提供高性价比的GPU算力资源

    欧派算力云是什么

    欧派算力云是专注于AI算力服务的平台,提供高性价比的GPU租赁、大模型API服务和Serverless等产品。核心优势在于分布式算力网络和自研推理加速技术,能显著提升推理性能并降低成本。其推理加速引擎可使大语言模型推理性能提升10倍,综合成本降低90%。

    ppinfra

    欧派算力云的主要功能

    • 大模型API服务:提供开箱即用的公共大模型服务,支持大语言模型、图像、音频、视频等多种模态模型,兼容OpenAI API标准,开发者无需精通机器学习即可快速部署和调用。自研的PPInfer推理引擎通过全链路量化等技术,显著提升LLM推理性能。
    • Serverless服务:支持自定义模型免运维部署,自动弹性伸缩和负载均衡,用户只需关注业务本身。具备秒级冷启动能力,可根据业务流量自动扩缩容,节省成本。
    • GPU容器实例:提供超高性价比的GPU算力资源,支持按需付费、包年包月等多种计费方式。具备模型下载加速、共享云存储、VPC网络支持等功能,可满足AI推理、训练、云渲染等场景需求。

    如何使用欧派算力云

    • 注册账号:访问欧派算力云的官方网站,通过手机号或账号注册新账号。
    • 实名认证:登录后,完成个人或企业实名认证。
    • 充值账户:在账户概览页面进行充值,支持支付宝、微信和对公账户。
    • 获取API密钥:如果需要使用API服务,可在API密钥管理页面创建密钥。
    • 选择服务
      • 大模型API服务:可在模型广场页面查看支持的模型列表,并在线体验或调用。
      • GPU容器实例:提供按需付费的GPU算力,支持AI推理、训练、云渲染等场景。
      • Serverless服务:支持自定义模型免运维部署,自动弹性伸缩。
    • 使用服务:根据需求选择对应的模型或服务,完成配置并开始使用。

    欧派算力云的应用场景

    • AI推理:欧派算力云的GPU容器实例和Serverless服务为AI推理提供了高性能、低成本的算力支持。
    • 模型训练与部署:通过大模型API服务,用户可以轻松调用多种模态的公共大模型,无需精通机器学习即可快速开发AIGC应用。
    • 元宇宙应用:欧派算力云为元宇宙应用提供强大的算力支持,帮助用户构建沉浸式的虚拟世界。
    • 降本增效:欧派算力云的Serverless服务和GPU容器实例能够帮助企业降低开发和运营成本。
  • Paper2Code – AI论文自动转为代码的多智能体框架

    Paper2Code是什么

    Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型(LLM)框架,支持将机器学习领域的科学论文自动转换为可运行的代码仓库。Paper2Code基于三个阶段实现这一目标,规划(构建系统架构、生成配置文件)、分析(解读实现细节)和代码生成(生成模块化代码)。Paper2Code 在多个基准测试中表现出色,生成的代码质量高,忠实于原始论文,显著加速科学研究的复现和进一步发展。

    Paper2Code

    Paper2Code的主要功能

    • 自动化代码生成:将机器学习论文自动转换为功能性的代码仓库。
    • 高质量代码输出:生成的代码结构清晰,忠实于原始论文,支持快速复现和验证研究成果。
    • 效率提升:自动化流程大幅减少手动实现代码的时间和精力,加速科学研究的迭代和创新。

    Paper2Code的技术原理

    • 多Agent大语言模型(LLM)
      • 规划阶段(Planning):基于  LLM 的理解和生成能力,将论文内容分解为结构化的实现计划。用自然语言处理技术提取关键信息,生成系统架构图和文件依赖关系。
      • 分析阶段(Analysis):对每个文件和函数进行细粒度的分析,确保生成的代码准确实现论文中的方法和实验。基于 LLM 的推理能力,生成详细的实现指南。
      • 代码生成阶段(Coding):根据规划和分析阶段的输出,生成模块化、依赖关系明确的代码。代码生成过程中严格遵循规划阶段的设计和分析阶段的详细要求,确保代码的可执行性和逻辑一致性。
    • 评估与反馈:基于模型评估(参考基和无参考评估)和人类评估相结合的方式,确保生成的代码仓库的质量和实用性。基于人类专家的评估,验证生成的代码是否能有效支持研究的复现和验证。

    Paper2Code的项目地址

    Paper2Code的应用场景

    • 研究复现:帮助研究人员快速复现论文中的方法和实验,即使原作者未提供代码。
    • 代码生成:自动生成高质量代码,加速机器学习论文的实现过程。
    • 学术交流:辅助研究人员在学术交流中更好地展示和验证研究成果。
    • 教学与学习:生成教学用代码,帮助学生理解机器学习论文中的方法。
    • 工业应用:快速生成代码框架,助力企业将研究成果应用于实际项目。
  • WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型

    WebSSL是什么

    WebSSL(Web-scale Self-Supervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图像)训练视觉模型,无需语言监督学习。WebSSL包括多个模型变体,如Web-DINO和Web-MAE,参数规模从3亿到70亿不等。模型在多模态任务(如视觉问答VQA、OCR和图表理解)中表现出色,甚至超越依赖语言监督的模型(如CLIP)。WebSSL的核心优势在于对大规模数据的使用能力及对数据分布的敏感性,基于筛选包含更多文本的图像数据,显著提升OCR和图表理解能力。

    WebSSL

    WebSSL的主要功能

    • 无需语言监督:基于大规模图像数据训练,无需语言监督即可学习有效的视觉表示。
    • 多模态任务表现优异:在视觉问答(VQA)、OCR和图表理解等多模态任务中,性能匹敌甚至超越语言监督模型(如CLIP)。
    • 数据筛选提升特定任务性能:基于筛选包含更多文本的图像数据,提升OCR和图表理解能力。
    • 模型和数据规模扩展性强:随着模型容量和训练数据的增加,性能持续提升。

    WebSSL的技术原理

    • 自监督学习(SSL):基于自监督学习方法,如对比学习(Contrastive Learning)或掩码图像建模(Masked Image Modeling),从大规模无标注图像数据中学习视觉表示。对比学习通过将图像的不同增强视图拉近,将不同图像的增强视图推远,学习图像的语义表示。掩码图像建模基于预测图像中被掩码的部分,学习图像的局部和全局结构。
    • 大规模数据训练:用大规模网络数据进行训练,数据的多样性和规模为模型提供丰富的学习素材。基于增加训练数据的规模,模型能学习到更广泛和更复杂的视觉概念。
    • 模型扩展:扩展模型的参数规模(从3亿到70亿参数),提升模型的学习能力和表示能力。大规模模型能捕捉到更复杂的视觉模式和语义信息,在多模态任务中表现出色。
    • 数据筛选:筛选包含更多文本的图像数据(如图表、文档等),提升OCR和图表理解能力。数据筛选策略让模型专注于学习与文本相关的视觉特征,在相关任务中表现更好。
    • 多模态任务的评估:用视觉问答(VQA)作为主要的评估框架,涵盖多个任务类别(如通用、知识、OCR和图表、视觉中心任务)。全面的评估方法能更好地反映模型在实际应用中的性能。

    WebSSL的项目地址

    WebSSL的应用场景

    • 多模态视觉问答:用在智能客服、教育辅助等场景,帮助理解图像内容、回答相关问题。
    • OCR和图表理解:在文档处理和数据分析中,精准识别图像中的文字和图表信息。
    • 图像分类和分割:应用在医疗影像分析和自动驾驶,进行精确的图像识别。
    • 视觉内容推荐:用在图像或视频内容推荐系统,根据用户偏好推荐相关内容。
    • 机器人视觉和环境感知:帮助机器人更好地理解周围环境,提升自主性和交互能力。
  • DeepWiki – Devin团队推出的GitHub代码仓库智能阅读助手

    DeepWiki是什么

    DeepWiki 是 Devin 团队推出的GitHub代码仓库智能AI阅读助手。用户能直接向代码库提问,DeepWiki 基于自然语言处理技术理解问题,给出详细的文档级解答。DeepWiki 支持深度研究模式,帮助用户更深入地分析复杂问题。DeepWiki 已索引超过 3 万个 GitHub 仓库,处理超过 40 亿行代码,目前对开源项目完全免费。

    DeepWiki

    DeepWiki的主要功能

    • 对话式文档:用户直接向代码库提问,DeepWiki 给出详细的文档级解答。
    • 深度研究:针对复杂问题,AI 进行更深入的分析和回答。
    • 按需索引:支持用户请求 DeepWiki 索引尚未收录的公开仓库。
    • 私有仓库支持:注册 Devin 账户,用户能为私有仓库生成文档。
    • 交互式图表:生成交互式的代码架构图,帮助理解代码结构。
    • 分享功能:生成的 Wiki 页面和问答结果可用链接分享。

    如何使用DeepWiki

    • 访问 DeepWiki 官网:直接访问 DeepWiki 官方网站,浏览已经收录的热门开源项目的 Wiki 页面。
    • 基于 URL 替换访问特定仓库:将正在浏览的任何 GitHub 仓库的 URL 中的 github.com 替换为 deepwiki.com,直接跳转到该仓库的 DeepWiki 页面。

    DeepWiki的应用场景

    • 开源项目学习:帮助开发者快速理解开源项目的代码结构和功能。
    • 代码库文档生成:为缺乏文档的开源项目自动生成详细的维基文档。
    • 团队协作与知识共享:基于分享 Wiki 页面和问答结果,方便团队成员同步信息。
    • 代码审查与优化:辅助开发者快速定位代码问题提供优化建议。
    • 教育与培训:作为教学工具,帮助学生学习真实世界的代码结构和开发实践。
  • 易笔AI – AI论文写作工具,快速生成高质量初稿和框架

    易笔AI是什么

    易笔AI是AI论文写作辅助工具,专为学生、研究人员以及各类学术写作者设计。通过先进的AI技术和大数据分析,能快速生成高质量的论文初稿和框架。用户只需输入论文主题和相关关键词,易笔AI可在短时间内生成包含引言、研究方法、结果讨论等核心部分的完整论文框架,可以扩展生成几万字的初稿。

    易笔AI

    易笔AI的主要功能

    • 快速生成论文结构:用户输入论文主题和关键词后,易笔AI能在短时间内生成完整的论文框架,包括引言、文献综述、研究方法、结果分析、讨论与结论等核心部分。
    • 自定义结构调整:用户可以根据需要调整框架的顺序和内容,灵活修改以适应不同的写作需求。
    • 智能生成初稿:基于输入的主题和框架,易笔AI能快速生成详细的论文初稿,覆盖论文的各个部分。
    • 内容扩展与完善:用户可以对生成的内容进行进一步扩展或修改,系统会根据用户的输入提供更丰富的内容。
    • 适用多种论文类型:支持本科毕业论文、硕士论文、期刊论文,开题报告、实践报告等,易笔AI能提供相应的模板和生成策略。
    • 专业领域覆盖:支持多种学科领域,包括理工科、文科、商科等,满足不同专业用户的需求。
    • 写作建议与优化:提供写作建议,帮助用户优化语言表达、逻辑结构和内容组织。
    • 参考文献推荐:根据论文主题推荐相关的参考文献,方便用户查找和引用。

    如何使用易笔AI

    • 访问官网:访问易笔AI的官方网站(yibiai.com)(点击获取-AI论文写作工具合集)。
    • 输入主题和关键词:根据你的研究方向和需求,输入论文的主题和相关关键词。
    • 生成论文框架和初稿:点击生成按钮,系统会快速生成论文框架和初稿,用户可以根据需要进一步修改和完善。

    易笔AI的应用场景

    • 毕业论文写作:本科、硕士还是博士毕业论文,易笔AI能快速生成论文大纲和初稿。用户只需输入论文题目、关键词和字数要求,可在短时间内获得结构完整、逻辑清晰的论文初稿。
    • 科研论文撰写:对于科研人员,易笔AI能帮助快速生成研究论文的框架和内容。支持多种学科领域,如理工科、人文社科等,根据用户输入的主题和研究方向生成高质量的论文内容。
    • 开题报告和实践报告:易笔AI支持开题报告和实践报告的生成。用户可以快速生成报告的大纲和主要内容,节省时间和精力。
    • 教师教学辅助:教师可以用易笔AI快速生成教案框架和教学内容。根据教学主题和目标,整合优质资源,生成高质量的教案。
    • 学生学习辅导:学生可以用易笔AI进行个性化学习和写作辅导。根据学生的学习进度和需求,提供针对性的学习建议和写作指导。
  • Lemon Slice Live – Lemon Slice 推出的实时视频聊天AI工具

    Lemon Slice Live是什么

    Lemon Slice Live 是 Lemon Slice 公司推出的实时视频聊天工具,基于先进的扩散变换器模型(DiT),能将任何照片或插画转换为可以实时互动的动画角色。用户只需上传图片,可生成会说话的角色,支持多种语言。技术通过学生-教师蒸馏策略加速模型,确保高帧率与低延迟,实现流畅的交互体验。可用于娱乐、教育、营销等多个场景,比如与虚拟偶像对话或创建品牌虚拟形象。

    Lemon Slice Live

    Lemon Slice Live的主要功能

    • 实时角色生成:用户可以上传任意照片或插画,转化为可以实时互动的动画角色。角色能够、根据用户的语音指令做出表情和动作。
    • 多语言支持:支持多种语言,包括但不限于英语、中文、日语等,方便不同语言背景的用户进行交流。
    • 实时互动对话:角色能实时响应用户的语音指令,进行自然流畅的对话。用户可以通过语音与角色交流,角色会根据对话内容做出相应的表情和动作。
    • 高帧率与低延迟:视频流以每秒25帧的速度传输,确保角色的动画效果流畅自然,同时保持低延迟,保证对话的实时性。
    • 无需预设:用户无需对角色进行额外的训练或设置,可直接生成并使用角色,大大降低了使用门槛。
    • 多模态协同:结合语音识别、语言模型推理、文本到语音合成以及视频生成等技术,实现完整的交互体验。

    Lemon Slice Live的官网地址

    Lemon Slice Live的应用场景

    • 娱乐:用户可以与虚拟偶像、历史人物或自定义角色进行实时对话,带来沉浸式的互动体验。
    • 教育:在教育领域,Lemon Slice Live 可以通过虚拟导师或历史人物的数字人形式,为学生提供生动直观的学习内容。
    • 广告与营销:品牌可以创建个性化的虚拟形象,与消费者进行互动,提升品牌形象和用户忠诚度。
    • 销售与客服:Lemon Slice Live 可以用于 B2B 场景,如销售电话(包括直播销售)和客户支持,通过虚拟角色与客户进行实时互动,提供更生动的沟通体验。
    • 虚拟现实与增强现实:LemonAI 计划进一步优化模型性能,扩展其在增强现实(AR)、虚拟现实(VR)以及元宇宙场景中的应用,为用户带来更丰富的虚拟体验。
    • 内容创作:Lemon Slice Live 的技术还可以用于生成广告、播客、电影等创意内容,帮助创作者快速生成具有表现力的动画角色。
  • Step1X-Edit – 阶跃星辰开源的通用图像编辑框架

    Step1X-Edit是什么

    Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模态大语言模型(MLLM)和扩散模型,基于处理参考图像和用户的编辑指令,提取潜在嵌入生成目标图像。为训练模型,研究者构建大规模高质量的数据生成管道,生成超过 100 万对图像和指令对。Step1X-Edit 提出新的基准测试 GEdit-Bench,用在真实世界用户指令的评估。

    Step1X-Edit

    Step1X-Edit的主要功能

    • 多样化编辑能力:支持多种图像编辑任务,包括主体添加、移除、替换,背景更改,色彩调整,材质修改,风格转换,肖像美化,文字修改,色调变化等。
    • 自然语言指令驱动:用户基于自然语言描述编辑需求,模型能理解执行复杂的编辑指令。
    • 高质量图像生成:支持生成高保真、逼真的图像结果。
    • 真实世界场景适配:基于大规模高质量数据集训练,处理真实世界中的各种复杂编辑场景。

    Step1X-Edit的技术原理

    • 多模态大语言模型(MLLM):基于 MLLM处理参考图像和用户的编辑指令,提取语义信息。基于MLLM 的强大语义理解能力,生成与编辑任务相关的嵌入向量。
    • 扩散模型(Diffusion Model):结合扩散模型(如 DiT 风格的架构)进行图像生成。用扩散模型的高保真生成能力,将 MLLM 提供的嵌入向量解码为目标图像。
    • 数据生成管道:构建一个大规模、高质量的数据生成管道,生成超过 100 万对图像和指令对。数据管道涵盖多种编辑任务类别,确保模型能够学习到多样化的编辑操作。
    • 训练策略:从文本到图像模型初始化,保留美学质量和视觉一致性。基于联合训练连接模块和下游扩散模型,优化整体性能。
    • 基准测试(GEdit-Bench):推出基于真实用户指令的基准测试 GEdit-Bench,评估模型的实际性能。GEdit-Bench 包含多种编辑任务,确保模型在真实场景中的有效性。

    Step1X-Edit的项目地址

    Step1X-Edit的应用场景

    • 创意设计:快速生成创意图像,如更换背景、调整颜色、添加元素,提高设计效率。
    • 影视后期:用在特效制作,如添加/移除物体、改变外观或调整色调,节省后期成本。
    • 社交媒体:美化照片、添加趣味元素或调整风格,提升内容吸引力。
    • 游戏开发:生成角色、场景和道具,快速调整装备或风格,减少美术资源开发时间。
    • 教育领域:生成教学材料,如修改历史照片、创建科学插图,增强教学效果。
  • 68爱写 – AI论文写作工具,涵盖多个学科领域

    68爱写是什么

    68爱写是高效便捷的智能AI论文写作工具,专为学生和研究人员设计。通过先进的AI技术,能快速生成论文大纲、初稿以及多种学术文档,涵盖700多个学科领域,支持多语言写作。用户只需输入论文主题,选择学科和字数要求,可在短时间内获得清晰的论文大纲和高质量的初稿。智能降重和去AI痕迹功能,可有效降低查重率,确保论文的原创性。平台提供真实文献支持和个性化内容生成服务,帮助用户提升写作质量和效率。

    68爱写

    68爱写的主要功能

    • 智能生成论文大纲:用户只需输入论文主题,选择相应专业分类,可快速获得清晰的论文大纲,帮助梳理写作思路。平台支持免费修改大纲,用户可以结合导师建议和自己的思考进行二次优化。
    • 高效生成论文初稿:68爱写能在短时间内生成高质量的论文初稿。对于10万字的论文,大约10分钟即可完成初稿生成。生成的论文内容逻辑清晰、语言流畅。
    • 多语言与多学科支持:支持中文、英文、日语、韩语、俄语等多种语言的写作,覆盖700多个学科,包括人文社科与理工科等领域。
    • 低查重率与AIGC控制:68爱写通过智能优化润色,能将知网查重率稳定控制在10%以内,AIGC检测率通过算法优化可从86%降至6.3%。平台提供“改写降重”和“去AI痕迹”功能,进一步降低重复率。
    • 真实文献支持:平台提供40篇来自知网、中科院等权威机构的真实参考文献,附带详细标注,确保论文的学术性和权威性。
    • 个性化内容生成:用户可以通过“投喂AI”功能上传指定资料,让AI学习后生成更加贴合个人研究方向的内容。
    • 全流程服务覆盖:从智能选题(10秒出题)到答辩PPT,支持开题报告、文献综述等20多种文档类型。用户还可以上传自己的文献资料,AI将结合这些资料生成更加符合专业要求的论文。

    如何使用68爱写

    • 访问官网:访问68爱写的官方网站(68aixie.com)(点击获取-AI论文写作工具合集)。
    • 输入主题:在平台中输入论文主题或关键词。
    • 选择学科和字数:根据需要选择相应的学科分类和字数要求。
    • 生成大纲:点击生成,快速获得论文大纲。
    • 生成初稿:将大纲导入后,点击生成全文,即可在短时间内获得论文初稿。
    • 修改与优化:根据生成的初稿进行修改和优化,确保内容符合要求。

    68爱写的应用场景

    • 毕业论文:从选题、大纲生成到初稿撰写,68爱写AI能够为毕业生提供全方位的支持。
    • 课程论文:快速生成高质量的课程论文初稿,节省时间和精力。
    • 期刊论文:支持多种语言输出,适合国际期刊投稿。
    • 职称论文:为研究人员提供专业的写作支持,帮助快速完成职称评定所需的论文。
  • Firefly Image Model 4 – Adobe 推出的图像生成模型

    Firefly Image Model 4是什么

    Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 Firefly 图像模型,支持生成逼真的图像,提供更高的分辨率(最高可达2K)和更精细的创意控制。模型支持用户调整生成图像的结构、风格、相机角度和缩放比例,快速探索和迭代创意概念。Firefly Image Model 4 Ultra是 Firefly Image Model 4 的增强版本,专为渲染复杂场景和细节而设计,适合需要极高精度和复杂结构的项目。两款模型目前在 Adobe Firefly网页应用上线。

    Firefly Image Model 4

    Firefly Image Model 4的主要功能

    • 快速生成高质量图像:最高支持生成2K分辨率的图像。
    • 精准控制图像细节:支持更精准地控制图像的风格、尺寸和相机角度。
    • 处理复杂场景与细小结构:Firefly Image Model 4 Ultra擅长处理复杂的场景和细小的结构,带来更高水平的细节与真实感。

    Firefly Image Model 4的技术原理

    • 基于深度学习的生成模型:基于深度学习的生成模型,生成对抗网络(GAN)或扩散模型(Diffusion Model)架构。模型基于大量的图像数据进行训练,学习图像的特征和模式,生成新的图像。
    • 生成对抗网络(GAN):由生成器和判别器组成。生成器负责生成图像,判别器负责判断生成的图像是真实的还是假的。基于不断对抗训练,生成器能生成越来越逼真的图像。
    • 扩散模型(Diffusion Model):基于逐步去除噪声生成图像。模型从随机噪声开始,逐步学习如何将噪声转化为有意义的图像内容。
    • 图像的生成能力:模型基于自然语言处理(NLP)技术理解文本内容,转化为图像生成的指导信息。用户基于详细的文本描述指定图像的内容、风格、场景等。支持用参考图像引导生成过程。用户上传一张或多张参考图像,模型学习参考图像的风格和特征,应用到生成的图像中。

    Firefly Image Model 4的项目地址

    Firefly Image Model 4的应用场景

    • 创意设计:快速生成概念图像,帮助设计师快速探索创意。
    • 广告营销:生成高质量视觉素材,满足广告和营销需求。
    • 艺术创作:为艺术家提供灵感,生成风格多样的艺术作品。
    • 产品设计:快速生成产品视觉效果和包装设计。
    • 影视制作:生成背景图像和特效素材,助力视频制作。
  • 11个免费的AI浏览器插件,学习和工作必备AI插件

    在当今数字化浪潮席卷全球的时代,人工智能技术正融入我们生活的方方面面,浏览器作为我们日常获取信息、进行社交互动和开展线上活动的核心工具,也迎来了与 AI 深度融合的全新变革。本文将介绍11个免费的AI浏览器插件,当你在看英文文章的时候,遇到不认识的单词,直接点一下插件,能秒出翻译;或者你在找资料的时候,能帮你快速整理出重点,省时又省力。像给浏览器装上了“智能大脑”,用起来超方便!

    1. 豆包浏览器插件

    豆包浏览器插件是字节跳动推出的AI智能助手浏览器插件,通过AI技术提升用户的浏览器使用体验。具有多种实用功能,包括AI问答、内容总结、翻译、智能搜索、一键收藏等。用户可以通过划词翻译、对话框提问等方式快速获取信息,对网页、文献、视频等内容进行智能总结和翻译。提供创意写作辅助、文本到图像转换、邮件撰写辅助等功能。

    豆包浏览器插件

    🚀功能亮点

    • AI问答与对话:用户可在浏览器中随时提问,豆包会即时回答并提供建议。
    • 内容总结与提取:能快速总结网页、文献、视频等内容,提取关键信息。
    • 翻译功能:支持划词翻译和全文翻译,覆盖多种语言,提供自定义翻译配置,如显示原文、译文下划线等。
    • 智能搜索:优化搜索结果,自动整理信息,提供更精准的搜索体验。
    • 一键收藏:用户可快速收藏网页、PDF、视频等内容,在豆包收藏夹中统一管理。
    • AI伴读:辅助阅读英文文献等资料,提供全文翻译和提问功能。
    • 创意写作辅助:提供文章开头、段落续写、总结等写作辅助功能,激发创意。
    • 文本到图像转换:将文本内容转换为图像,增加信息的表达形式。
    • 邮件撰写辅助:帮助用户快速撰写邮件,提供模板和建议。
    • 侧边栏面板:点击浮窗菜单按钮即可打开侧边栏面板,自动根据当前页面进行对话。
    • 头像浮窗菜单按钮:提供“翻译此页面”和“总结此页面”功能。
    • AI划词工具栏:集成AI搜索、解释、翻译和复制等实用快捷工具,用户可对划词工具栏的外观进行个性化定制,可以自定义工具栏技能。
    • 不同场景使用技能:可分别为“阅读网站时”和“编辑文本时”指定不同的技能列表。
    • 翻译功能增加自定义配置:用户可以更加灵活地对当前页面进行翻译,支持配置包括“显示原文”“总是翻译此页面”“译文显示下划线”“翻译服务”“翻译目标语言”等。
    • 划词工具栏支持增加技能:可以将豆包官方的一些技能添加到划词工具栏。
    • 翻译和总结支持语音朗读:在划词工具栏的“翻译”和“总结”功能中,支持语音朗读。
    • 在线视频总结和对话:支持在线视频总结和对话,总结完成后,可自动定位到视频具体位置。

    🌐支持浏览器

    • Chrome浏览器:用户可以通过访问豆包官网下载插件,然后按照官方教程进行安装。
    • Microsoft Edge浏览器:支持安装使用,用户可以点击“获取”并“添加扩展”到Edge。
    • Safari浏览器:在App Store中下载Safari浏览器豆包插件,安装后需在Safari扩展菜单中进行相关设置。
    • Firefox浏览器:豆包插件也支持Firefox浏览器。

    2. AutoGLM沉思

    AutoGLM沉思是智谱AI推出的免费AI智能体。突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越。智能体能模拟人类的思维过程,完成从数据检索、分析到生成报告的全流程工作。可通过智谱清言官网下载桌面客户端或浏览器插件,输入问题或任务指令后,AutoGLM沉思将自动执行任务并生成详细报告。

    autoglm-research

    🚀功能亮点

    • 深度研究与操作兼备:能自主规划任务、调用浏览器访问网页,完成数据检索、分析及报告生成等复杂流程。
    • 多模态交互:支持文本、图像混合处理,模拟人类操作GUI(如点击、输入)。能识别和提取图片中的文字信息,在处理复杂任务时尤为重要。
    • 强大的技术支撑基于智谱自主研发的全栈大模型技术,融合了GLM-4的通用能力、GLM-Z1的反思能力、GLM-Z1-Rumination的沉思能力,以及AutoGLM的自动执行能力。
    • 免费且不限量:目前通过智谱清言客户端或浏览器插件免费使用。
    • 突破数据孤岛:能访问小红书、微信公众号等数据孤岛,获取更全面的信息。

    🌐支持浏览器

    • Chrome浏览器:用户可以在Chrome扩展商店中搜索“清言插件”安装。
    • Edge浏览器:用户可以在Edge扩展商店中搜索“清言插件”安装。

    3. 沉浸式翻译

    沉浸式翻译是创新的网页翻译插件,让用户在阅读外文内容时获得更自然、流畅的体验。通过智能上下文翻译技术,结合语境优化翻译结果,避免了传统翻译工具常见的生硬直译问题。具备双语对照模式,让用户可以同时看到原文和译文,方便对比学习和理解。沉浸式翻译工具支持实时划词翻译和网页全文翻译功能,用户只需选中或划过文本,可即时获得翻译结果,无需离开当前页面。支持多种翻译引擎,如谷歌、DeepL等,用户可以根据自己的需求选择不同的引擎,适应不同的翻译场景和对翻译质量的要求。

    沉浸式翻译

    🚀功能亮点

    • 双语对照翻译:在保留原文格式的基础上,将译文显示在原文的下方,达到真正的「沉浸式」翻译体验。一段原文,一段译文,译文的排版与原文一致,方便用户检验翻译准确性,提升阅读效率。
    • 智能上下文翻译:基于先进的AI算法,如BERT、Transformer等,翻译结果更符合上下文,避免生硬的逐词翻译。对于专业术语、俚语或文化背景内容,能提供更贴切的表达。
    • 多种显示模式:提供段落对照、鼠标悬停、纯译文、输入框翻译等多种显示模式。用户可以根据不同的阅读和交互需求进行选择。
    • 多格式文档翻译:支持翻译网页、PDF文档、电子书(EPUB格式)以及字幕文件。在翻译PDF和EPUB文档时,会尽力保持文档原有的格式和布局。翻译完成后,用户可以选择将结果下载为保留原文和译文的双语对照版本,或只包含译文的纯译文版本。
    • 丰富的翻译引擎选择:支持包括Google、DeepL、OpenAI(ChatGPT)以及众多中国本土引擎在内的十几种翻译服务。用户可以根据自己的需求选择不同的翻译引擎,适应不同的翻译场景和对翻译质量的要求。
    • 跨平台支持:覆盖主流桌面浏览器及部分移动端浏览器,如Chrome、Firefox、Edge、Safari等,以及iOS、Android设备和桌面操作系统如macOS和Windows,使用场景广泛。
    • 个性化设置:用户可自定义翻译语言、字体大小、显示模式等。提供“重点翻译”功能,可选择仅翻译特定段落或区域。
    • 离线模式与API支持:基础翻译功能支持离线使用(需预下载语言包)。高级用户可接入DeepL、Google Translate等第三方API,增强翻译质量。

    🌐支持浏览器

    • Google Chrome:用户可在Chrome网上应用店中搜索“沉浸式翻译”,点击“添加到Chrome”按钮并按提示完成安装。
    • Microsoft Edge:访问Edge浏览器的扩展商店,点击“获取”按钮并按提示完成安装。
    • Mozilla Firefox:在Firefox的扩展商店中搜索“沉浸式翻译”,点击“添加到Firefox”按钮并按提示授权安装。
    • Safari:对于macOS用户,需在苹果App Store商店安装,首次安装后要在Safari浏览器的“管理扩展”中启用沉浸式翻译扩展,并授予其“始终允许访问所有网站”的权限。

    4. Monica

    Monica是多功能AI助手,基于先进AI模型(如GPT-4、Claude等),浏览器插件版本支持Chrome和Edge浏览器。安装插件后,可通过快捷键(如Ctrl+M)快速唤醒Monica,支持聊天、写作、翻译、网页内容处理等功能。Monica可以对网页中的文本进行翻译、改写、总结,能为PDF文件提供摘要和翻译。

    🚀功能亮点

    • 个性化记忆:Monica会根据用户的背景和使用习惯调整服务,支持自动学习和记忆建议,让回答更贴合用户需求。
    • 写作辅助:提供80多个写作模板,支持多种格式、语气选择,可生成商业计划书、学术论文、邮件等,能润色、改写内容。
    • 翻译功能:支持多语言文本和PDF翻译,涵盖多种语言,确保专业术语准确。
    • 网页内容处理:可快速翻译、改写网页文本,提取长文主要内容,帮助用户高效获取信息。
    • PDF工具:具备文本识别、PDF转PNG/WORD/PPT等功能,能扫描简历并分析问题。
    • 图表生成:能根据用户要求生成思维导图、流程图等,支持联网搜索和文件上传。
    • 图像处理:支持AI绘图,提供去除背景、移除物体等图片操作,操作便捷。
    • 多语言与语音交互:支持22种语言版本,涵盖小语种,可将语音转化为文字并翻译。
    • 数据分析:可分析Excel数据,生成统计报告及多种可视化图表。
    • 文档分析:支持上传多种格式文件,进行智能问答,快速提取关键信息。

    🌐支持浏览器

    • Chrome浏览器:用户可以在Chrome扩展商店中搜索“Monica”并安装。
    • Edge浏览器:用户可以在Edge扩展商店中搜索“Monica”并安装。
    • Safari浏览器:用户可以通过Monica官网下载扩展包手动安装。

    5. 星火插件

    星火插件是科大讯飞推出的基于星火大模型的浏览器扩展工具。极小的内存占用兼容Chrome、Edge等主流浏览器,集成了AI划词、翻译、朗读、智能换肤、一键收藏、全局总结等多种实用功能。用户可以通过划词搜索、翻译、解释等功能快速获取信息,能将感兴趣的内容一键收藏至星火个人空间,方便后续整理和管理。

    xinghuoplugin

    🚀功能亮点

    • 划词搜索与翻译:用户划选网页上的文本,插件可即时提供搜索结果、翻译和解释,支持多种语言,帮助用户快速理解内容。
    • 网页内容总结:能对整个网页内容进行分析,生成精准的文章摘要,帮助用户快速把握文章核心。
    • 继续提问:在获取初步信息后,用户可点击“继续提问”,进一步与插件交流,获取更详尽和精准的答案。
    • 一键收藏:支持用户一键收藏感兴趣的内容,同步至星火个人空间,方便后续整理和创作,构建个人知识库。
    • 一键朗读:支持多种语言的朗读服务,用户可以在阅读时边听边看,提高阅读效率和语言学习效果。

    🌐支持浏览器

    • Chrome浏览器:用户可以通过Chrome浏览器扩展程序商店搜索“讯飞星火”进行一键安装。
    • Edge浏览器:同样兼容Edge浏览器,能为用户提供高效的网页阅读和信息检索体验。

    6. Kimi浏览器插件

    Kimi浏览器插件是月之暗面推出的AI工具,提升用户的网页浏览体验。用户可以划选网页上的文字,插件会提供基于上下文的解释,帮助用户更好地理解术语、名字或句子。 帮助用户快速总结全文内容,同时支持进一步的答疑和讨论。 用户可以通过快捷键(Mac为Command + K,Windows为Alt + K)快速召唤Kimi,进行即时互动。 访问Kimi官网或浏览器扩展商店,搜索下载Kimi浏览器插件。

    Kimi

    🚀功能亮点

    • 智能文本解释:用户可以划选网页上的文字,插件会提供基于上下文的解释,帮助用户更好地理解术语、名字或句子。
    • 全文内容总结:点击插件图标,Kimi能快速总结网页的全文内容,节省用户的阅读时间,提高信息获取效率。
    • 悬浮按钮对话:提供了悬浮按钮,用户可以通过点击这个按钮,随时与Kimi进行对话,获取信息或解决问题。
    • 侧边栏模式:在写文档或创作时,Kimi插件可以以侧边栏的形式存在,支持持续对话和边写边搜,提高创作效率。
    • 快捷键召唤:用户可以通过快捷键(Mac为Command + K,Windows为Alt + K)快速召唤Kimi,进行即时互动。

    🌐支持浏览器

    • Chrome浏览器:访问Kimi官网,点击“下载Kimi浏览器助手”按钮,然后点击“立即安装”,按照提示操作即可。
    • Edge浏览器:访问Kimi官网,点击“立即安装”,会自动跳转到微软商店,点击“安装”即可。
    • Firefox浏览器:访问Kimi官网,点击“立即安装”,下载插件压缩包后,解压并拖拽到Firefox扩展管理页面完成安装。

    7. YouTube Dubbing

    YouTube Dubbing 是 AI 浏览器插件,帮助用户无障碍观看外语视频。通过智能同步配音和 AI 字幕技术,将视频内容翻译成用户熟悉的语言并直接播放,消除了语言障碍。插件支持一键翻译播放,兼容多浏览器和多终端,支持英语、韩语、日语等多种语言的互相转换,提供多种语音风格选择。

    YouTube Dubbing

    🚀功能亮点

    • 智能配音:精准且全程同步,可随时暂停、调节倍速或拖动进度条,系统会即时适配,接近母语般的观看体验。
    • AI 字幕:通过 AI 生成并缓存字幕,若视频在超过 40 万条字幕库中,可即时观看。
    • 全球语言支持:从广泛使用的国际语言到各地区方言,力求覆盖几乎所有语言。
    • 多种音色选择:支持男声、女声及多种地区口音,不同国家有专属的语音支持。
    • 说话人识别(会员功能):自动识别视频中的多个说话人,在插件界面为不同说话人手动分配不同声音,营造更具沉浸感的观影体验。
    • 保留背景音(会员功能):配音时同步保留原始背景声音,提供更逼真、身临其境的视听氛围。
    • 网页文本转语音:可将网页中选中的文本转化为语音播放,随时随地解放双眼,自由获取信息。

    🌐支持浏览器

    • Chrome 类浏览器:包括 Chrome、Edge 等。
    • Firefox
    • Safari(含 iOS 版)。

    8. 通义浏览器插件

    通义浏览器插件是阿里通义推出的全能办公与学习AI助手。具备实时语音识别、字幕翻译、智能总结等功能,可将语音快速转为文字并生成要点总结,适用于会议、网课等场景。支持网页和PDF内容的快速总结、划词翻译与解读,帮助用户高效整理信息。

    tongyiliulanqichajian

    🚀功能亮点

    • 实时语音识别:能将语音快速转换成文字,适用于会议、网课等需要记录语音内容的场景,方便用户及时获取和整理信息。
    • AI字幕翻译:为视频或音频内容提供实时翻译的字幕,支持多种语言,帮助用户跨越语言障碍,更好地理解内容。
    • 智能总结:自动提取关键信息,生成内容概要,让用户能快速把握重点,节省时间和精力。
    • 网页和PDF内容总结:快速提取和总结网页或PDF文档的主要内容,帮助用户在短时间内了解文档的核心信息。
    • 划选解读:用户可以划选网页或PDF中的文本段落,插件会提供翻译、解读、对话等功能,方便用户对特定内容进行深入了解。
    • 翻译问答:对选定的文本进行翻译,回答相关问题,提升用户对内容的理解。

    🌐支持浏览器

    • Chrome浏览器:通过访问Chrome应用商店或通义官网提供的链接进行安装。
    • Edge浏览器:可以在Edge的网站中找到并安装该插件。

    9. 心流

    心流是阿里巴巴推出的基于星辰大模型的AI搜索助手,通过智能技术提升用户的知识获取效率。心流插件常驻浏览器侧边栏,用户可以随时唤醒来解答问题、总结网页内容或获取创作灵感。例如,在阅读长篇文章时,用户可以快速让心流总结文章要点,节省阅读时间。支持通用问答、学术问答、长文本分析等多种功能。学术问答功能集成了近3000万篇学术论文资源,覆盖Nature、IEEE、ArXiv等权威期刊,能帮助研究人员和学生快速理解和分析论文内容。

    心流

    🚀功能亮点

    • 实时回答问题:用户在浏览网页时遇到问题,可随时唤醒心流插件,自然语言提问,快速给出准确、清晰的答案。
    • 网页内容总结:能对当前浏览的长篇文章进行快速总结,提炼关键信息,帮助用户快速把握文章核心内容。
    • 多模式搜索:支持普通模式和学术模式切换,学术模式下可精准检索学术论文等长文本资料,满足不同场景下的搜索需求。
    • 长文本精读与泛读:支持长文本的泛读和精读两种模式,泛读模式帮助用户快速了解文章大意,精读模式则注重细节理解,确保信息吸收的全面性。
    • 论文大纲梳理:可自动梳理论文大纲,提供段落总结、智能翻译、名词解释等功能,帮助用户快速把握论文的核心观点和结构框架。
    • 写作灵感与建议:为用户提供写作灵感和建议,包括写作框架建议、智能填充文本内容、自动引用参考文献等,减轻写作负担,提升创作效率。
    • 内容创作辅助:支持生成播客内容,将文字答案转化为双人对话模式的播客,使内容更生动,适合不想阅读文字的用户。
    • 个性化推荐:根据用户的搜索历史、阅读习惯和偏好,智能推荐相关领域的最新研究动态、热门论文、专业书籍等资源。

    🌐支持浏览器

    • Google Chrome:支持Chrome浏览器,可以通过Chrome Web Store下载并安装。
    • Microsoft Edge:支持Microsoft Edge浏览器,可以在Edge Addons商店中找到并安装心流插件。

    10. TwinMind

    TwinMind 是 AI 驱动的智能侧边栏助手,主要功能包括实时音频转录、浏览器标签页内容理解以及写作辅助。能理解用户在浏览器中看到和听到的内容,支持跨标签页的信息整合,可比较多个标签页的信息并生成总结。TwinMind 提供基于上下文的写作辅助,能自动生成邮件、消息和报告等,一键插入浏览器的文本字段。

    TwinMind

    🚀功能亮点

    • 实时转录:在会议和对话中实时转录音频,提供即时笔记和行动项。在会议中提供下一步说话的建议和对讨论问题的即时回答。
    • 多标签页分析:能理解多个浏览器标签页、PDF 和 YouTube 视频的内容,用户可以提问获得即时上下文答案。
    • 跨标签页比较:询问所有浏览器标签页中的网站信息,比较多个标签页的信息,总结 YouTube 视频、网站或 PDF 文件。
    • 搜索和添加上下文:用户能从浏览器标签页中搜索网络、添加上下文,获得最新的 AI 模型提供的个性化答案。
    • 智能文本生成:基于上下文自动生成电子邮件、消息、报告等文本内容。生成的文本可以一键插入浏览器的任何文本字段中。

    🌐支持浏览器

    • 主要支持Chrome浏览器。

    11. 有挂

    有挂是AI浏览器插件,支持用户通过自然语言对话对网页进行编程和自定义修改。用户无需编程基础,只需输入简单指令,如“将背景颜色改为蓝色”或“在页面上模拟一个烟花”,插件就会自动调用AI模型来实时修改网页。

    yougua

    yougua

    🚀功能亮点

    • 自然语言指令:用户可以通过简单的自然语言输入来指示插件如何修改网页内容。
    • 个性化定制:用户可以根据自己的喜好对网页进行各种个性化设置,如改变背景颜色、添加图片、调整字体样式等。
    • 跨平台调整:支持不同类型的网站进行个性化设置,不局限于单一网页。
    • 自动化任务:根据用户指令,自动执行某些网页调整操作,不需要用户每次手动干预。

    🌐支持浏览器

    • Chrome浏览器:用户可以在Chrome Web Store中搜索安装该插件。
    • Edge浏览器:支持安装使用。
    • Arc浏览器:支持该插件。