Blog

  • 15个免费的AI搜索引擎,无广告直达搜索结果

    在当今这个信息爆炸的时代,搜索引擎已成为我们获取信息的必备工具。然而,传统的搜索引擎往往充斥着广告和无关信息,这不仅降低了搜索效率,也影响了用户体验。幸运的是,随着人工智能技术的发展,一些免费的AI搜索引擎应运而生,借助大模型和先进的算法为用户提供更加精准、高效的搜索结果。本文将介绍15个好用的AI搜索引擎,不仅免费,而且无广告干扰,让你的搜索体验更加纯粹和高效。

    AI搜索引擎

    秘塔AI搜索

    秘塔AI搜索是由秘塔科技开发的一款基于人工智能技术的搜索引擎,旨在通过智能化的搜索方式,提升用户的搜索效率和体验,满足用户在不同场景下的搜索需求,包括日常生活、工作学习和专业研究等。相较于传统的搜索引擎,秘塔AI搜索简洁无广告并直接给出信息明了的问题答案。

    秘塔AI搜索

    功能特色

    • 多模式搜索:用户可根据需求选择简洁、深入或研究模式,以获取不同层次的信息。
    • 无广告:提供无干扰的搜索结果,直接呈现所需信息。
    • 结构化展示:AI技术将信息结构化,便于用户理解。
    • 信息聚合:生成学习大纲,聚合相关资料,便于深入学习。

    Perplexity

    Perplexity AI是一款聊天机器人式的搜索引擎,允许用户用自然语言提出问题,并使用生成式AI技术从各种来源收集获取信息并给出答案。该AI搜索引擎将人工智能与网络搜索相结合,生成准确的答案并引用真实的来源出处,可帮助用户快速有效地定位和找到有用的信息。

    Perplexity AI搜索

    功能特色

    • 对话式搜索:用户可以用自然语言提问,AI理解并回答。
    • 来源标注:明确答案来源,保证信息准确性。
    • 广泛适用性:适用于不同职业背景的用户,如研究、写作等。
    • 简单易用:无需注册,用户友好,直接访问网站使用。

    360AI搜索是360公司推出的一款集成了人工智能技术的搜索引擎,类似于Perplexity被设计为新一代答案引擎,旨在为用户提供更加精准、全面和智能的搜索体验。当用户在360AI搜索中输入问题时,系统会通过一系列复杂的处理流程来生成答案,包括问题分析、语义理解、关键词分解、网页检索、内容提取和答案生成等步骤。

    360AI搜索

    功能特色

    • AI分析:深入分析问题,理解用户意图,提取相关信息。
    • 增强模式:通过追问获取更多细节,提供更详细的答案。
    • 智能排序:使用排序算法,快速找到最有价值的信息。
    • 内容生成:从匹配网页提取内容,生成清晰、有理的答案。

    天工AI搜索

    天工AI搜索是由昆仑万维推出的一款集成了大语言模型的搜索引擎,不同于传统搜索引擎的关键词匹配,天工AI搜索采用生成式搜索技术,允许用户以自然语言提问,获得经过组织和提炼的精准答案。具备“追问”功能,支持深度交互探索,同时在回答中加入信源索引以增强可靠性。此外,它还支持图像、语音等多模态搜索能力,旨在提升用户体验和工作效率。

    天工AI搜索

    功能特色

    • 自然语言交互:理解用户自然语言提问并提供答案。
    • 深度追问:支持用户对问题进行多轮深入提问。
    • 个性化搜索:根据用户习惯定制搜索结果。
    • 行程规划辅助:帮助用户制定旅行计划。
    • 信源索引:答案包含信息来源,提高可靠性。
    • 多模态搜索:未来将支持图片和语音搜索。
    • 信息整合:有效整合和提炼搜索信息。

    Flowith

    Flowith是一款创新的AI交互式搜索和对话工具,基于首创的节点式交互方式,使用户能够以多线程和发散式的思维与AI进行互动。该工具由大模型驱动,并支持多种先进的AI模型(如GPT-4、Claude 3等)以及图像生成技术(Midjourney、SDXL),满足不同场景下的需求。用户可以在一个无限画布上自由创建和连接节点,构建个人知识图谱,实现思维的跳跃和发散。Flowith还提供插件系统和社区功能,支持用户分享和协作,极大提升了信息处理的效率和互动体验。

    Flowith

    功能特色

    • 节点式交互:用户可以在无限画布上创建多个节点,每个节点代表一个问题或主题,实现多线程的信息搜索和整合。
    • AI模型选择:提供多种AI模型,如GPT-4、Claude 3等,用户可根据需求选择最合适的模型。
    • 文件上传与分析:支持多种文件格式上传和分析,自带OCR功能,便于文档处理。
    • 专家智能体市场:用户可以共享和获取他人创建的智慧体,促进知识共享。
    • 图像生成和语音合成:内置图像生成技术和语音合成功能,增加内容创作的多样性。
    • 智能体创建:用户可以创建专家级AI智慧体,支持自动化执行任务,提高工作自动化。

    Devv

    Devv(Devv.ai)是一款面向程序员的新一代AI搜索引擎,目标是为开发人员提供一个简洁、准确、快捷、高效和高质量的编程技术问题解答工具,旨在替代传统的搜索引擎和技术博客社区,专注于细分的IT领域的AI搜索问答垂类解决方案。当然除了询问技术问题外,你也可以使用Devv搜索任何问题。

    Devv.ai

    功能特色

    • 编程问题解答:Devv.ai专注于提供编程、软件开发和人工智能等领域的专业建议和指导。
    • 多语言支持:预设了包括Python、Go、JavaScript、Java等在内的10多种编程语言,方便用户根据需要选择。
    • 连续对话:允许用户基于当前内容继续提问,实现流畅的对话体验,并提供参考来源。
    • 多平台访问:用户可以通过网页版或Windows和macOS桌面客户端使用Devv.ai。

    Globe Explorer

    Globe Explorer是一款基于人工智能技术的知识搜索引擎,通过大型语言模型深入理解用户查询,生成详尽的个性化和结构化的结果页面。与传统搜索引擎不同,Globe Explorer AI提供直观、结构化的视觉化搜索结果和知识图谱,帮助用户快速把握信息结构。适用于多领域搜索整合和深度知识探索,支持个性化和多语言搜索,特别适合专业工作者、研究人员、学生等需要深度学习和信息探索的用户。

    Globe Explorer

    功能特色

    • 个性化搜索:根据用户兴趣和需求定制搜索结果,快速定位相关信息。
    • 跨领域整合:覆盖工程、科学、艺术等多个领域,支持深入探索。
    • 多语言支持:无论用户母语,都能进行搜索并获取信息。
    • 多种AI模型:内置GPT-3.5、GPT-4等模型,用户可根据需要选择。
    • 高质量内容:确保搜索结果满足专业和学术需求。
    • 自动思维导图:AI技术整理关键词为思维导图,帮助用户掌握主题。
    • 树状大纲:以树状结构展示信息,增强内容逻辑性。

    博查AI搜索是国内首个支持多模型的AI搜索引擎,基于通义千问、字节云雀、月之暗面Kimi等顶尖AI大模型,提供全新的搜索体验。与传统搜索引擎不同,博查AI搜索引擎直接提供问题的答案而非链接,通过可信的参考来源,由大模型推理、总结出容易阅读的结论。它支持多模型切换,实时信息获取,并优化了搜索速度,减少了等待时间。此外,博查还处于内测阶段的AI智能体深度回答功能,旨在提供更加丰富和深入的答案。

    博查AI搜索

    功能特色

    • 多模型搜索:整合了Kimi、字节云雀、通义千问等AI模型,提供多样化的搜索结果。
    • 实时信息获取:结合实时搜索技术,引入最新信息,解决了知识库更新滞后的问题。
    • 可靠参考源:每个搜索结果都配有明确的参考来源,确保信息的可靠性。
    • 快速响应:优化了搜索技术架构,提高了搜索速度,减少用户等待时间。
    • AI智能体深度回答(内测):开发中的功能,旨在提供更丰富、深入的搜索结果。
    • 无广告搜索体验:承诺无广告、无追踪,专注于提供纯净的信息获取环境。

    Reportify

    Reportify是由北京积沙成塔科技有限公司(小帮规划背后的公司)推出的一个AI投资研究深度内容问答和搜索引擎,该工具借助AI技术的力量,旨在改变和提升金融分析师处理和分析非结构化数据的方式及效率。Reportify专注于快速分析和处理大量的数据,包括但不限于财务投资报告、新闻、音频和视频资料,以便直接提供精准和关键的答案,从而大幅提高投资研究的效率和质量。

    Reportify

    功能特色

    • 问答助手:理解并回答用户问题,支持中英文,提供引用来源。
    • 文档阅读:自动总结报告、会议和新闻要点,并提供全文翻译。
    • 内容聚合:聚合上市公司财报、会议和新闻,提供信息流。
    • 历史记录:记录问答历史,方便回顾和构建知识库。

    Phind

    Phind是一个专为开发者设计的AI搜索引擎,利用大型语言模型(LLM)提供相关的搜索结果和动态答案。Phind特别擅长处理编程和技术问题,能够快速理解用户的查询意图,并给出精确、专业的答复。用户无需注册或下载任何软件,直接在网页上输入问题即可获得答案,支持多种搜索模式以适应不同的查询需求。Phind旨在帮助开发者提高工作效率,快速解决编程难题。

    Phind AI搜索

    功能特色

    • 高级语言理解:Phind利用大型语言模型(LLM)深度理解用户的自然语言查询,提供精准的搜索结果。
    • 专业编程支持:Phind在解决编程和技术问题方面表现出色,无论是基础语法还是高级算法,都能提供详尽的解答。
    • 多模式搜索:用户可以根据需求选择专业模式、简洁模式或创造性模式,以获得最合适的搜索体验。
    • 即用即搜:Phind无需用户注册或下载任何软件,直接在网页上输入问题即可快速获得答案。
    • 简洁用户界面:Phind的界面设计简洁明了,减少干扰,让用户专注于搜索和解答。
    • 实时网络查询:Phind结合了搜索引擎的功能,能够实时联网查找并提供动态答案。
    • 历史搜索管理:用户可以方便地查看、编辑和管理自己的搜索历史记录。
    • 时间筛选功能:Phind允许用户根据特定时间范围进行搜索,以便快速定位到最新的信息。

    iAsk AI

    iAsk AI是一款基于人工智能的搜索引擎,利用先进的自然语言处理(NLP)技术和大规模Transformer语言模型,为用户提供快速、准确且无偏见的搜索结果。与传统搜索引擎不同,iAsk.ai 能够深入理解用户的查询意图,通过分析和处理自然语言,从权威和可靠的信息源中提取答案。它不仅支持直接的问答交互,还允许用户选择不同的搜索算法,并控制生成内容的详细程度。iAsk.ai 的设计目标是提供一个智能、高效且用户友好的搜索工具,帮助用户轻松找到所需信息。

    功能特色

    • 智能问答:用户可以直接提问,AI提供基于算法的答案。
    • 高级NLP:使用最新自然语言处理技术,精准理解用户意图。
    • Transformer模型:采用大规模Transformer架构模型,支持深度语言处理。
    • 权威信息源:依托严格筛选的权威资源,确保信息准确可靠。
    • 无偏见服务:提供客观无偏见答案,适合寻求事实的用户。
    • 多算法搜索:根据查询类型,选择不同搜索算法,如维基、书籍、新闻或学术资源。
    • 内容篇幅自定义:用户可按需选择生成内容的长度,适应不同信息需求。

    Consensus

    Consensus是一款人工智能驱动的科研搜索引擎,通过先进的AI技术,为用户提供了一个能够直接访问和检索超过2亿篇科学论文的平台。用户可以使用自然语言查询来寻找相关研究,无需依赖传统的关键词搜索方法。Consensus AI 能够快速提取关键信息,帮助用户生成学术内容,并确保引用的准确性。它适用于研究人员、学生、医疗专业人员等多种用户,旨在提高科研工作的效率和质量。

    Consensus

    功能特色

    • 海量文献资源:提供超过2亿篇科学论文的访问,覆盖广泛学科。
    • 智能搜索技术:使用NLP技术理解复杂查询,提供相关搜索结果。
    • 关键信息提取:快速提炼文献中的关键发现和结论。
    • 学术写作辅助:支持从引言到文献综述的学术写作。
    • 精确引用管理:自动完成文献引用和格式化。
    • 研究空白分析:揭示研究空白,指导未来研究方向。
    • 即时深度分析:使用大型语言模型进行数据即时分析和总结。

    ThinkAny

    ThinkAny是一款新时代的人工智能搜索引擎,利用先进的RAG技术,不仅能够快速检索和聚合互联网上的优质内容,还结合了AI智能问答功能,为用户提供精准、便捷的搜索服务。它通过机器学习算法深入理解用户查询,提供个性化的搜索结果,优化了速度以实现快速响应,致力于通过技术创新,推动AI搜索引擎的发展,提升用户体验。

    ThinkAny

    功能特色

    • 先进检索技术:使用RAG技术,快速提供相关和精确的搜索结果。
    • 智能问答系统:利用深度学习和NLP理解用户提问,给出简洁、准确的答案。
    • 高质量内容聚合:筛选和聚合互联网上的高质量内容。
    • 个性化搜索体验:根据用户习惯和偏好定制化搜索结果。
    • 极速响应:优化算法,快速响应用户查询。
    • 多语言支持:支持中文、英文等多种语言。
    • 无干扰用户界面:无广告,清晰直观,专注于信息获取。
    • 信息源整合:整合不同来源信息,提供全面视图。
    • 思维导图辅助:配备思维导图功能,帮助组织和理解信息。

    Andi

    Andi AI是一个新型的对话式人工智能搜索引擎,利用生成式AI技术为用户提供搜索服务。与传统搜索引擎仅提供链接不同,Andi AI 旨在通过自然语言处理能力,直接给出问题的答案,使用户感觉像是在与一个知识渊博的朋友对话。Andi AI 的特点包括无广告、注重隐私保护,并且支持中文和英文搜索。该AI搜索引擎通过卡片形式展示搜索结果,并提供摘要功能,帮助用户快速把握信息要点,提升搜索效率。

    功能特色

    • 自然语言交流:支持自然语言提问,提供直观的交互体验。
    • 智能生成回答:利用生成式AI提供全面、准确的回答。
    • 无干扰搜索环境:无广告,让用户专注于获取信息。
    • 隐私保护:尊重用户隐私,不追踪搜索行为。
    • 视觉化展示:以卡片形式清晰展示搜索结果。
    • 一键摘要:提供摘要功能,提升信息筛选效率。
    • 深度内容解释:简化复杂主题,增强教育功能。
    • 精准内容筛选:高级算法确保内容高质量和可靠性。
    • 多样化视图选项:提供Feed、Grid、List等视图模式,适应不同浏览偏好。
  • 企业大模型部署平台Lamini获2500万美元融资

    Lamini AI

    2024年5月2日,总部位于美国加利福尼亚州帕洛阿尔托的企业大模型部署平台 Lamini 宣布已完成 2500 万美元的种子轮+A轮融资,投资方包括 Amplify Partners(A 轮领投方)、First Round Capital(种子轮领投方)、Andrew Ng、Andrej Karpathy、Bernard Arnault、Pierre Lamond、SarahGuo、Dylan Field、Lip-Bu Tan、Drew Houston、Anthony Schiller、AMD Ventures等。

    该公司计划将筹集的资金用于加速更深层次的技术优化,扩展团队规模以提供企业所需的战略支持,并在全球范围内积极扩展其GPU云基础设施,以满足新地区客户日益增长的需求。

    Lamini成立于2023年4月,由联合创始人Sharon Zhou和Greg Diamos领导,为企业提供定制化的生成性AI技术解决方案,以满足其特定的需求。Lamini的平台从一开始就以企业为中心构建,专注于提供高准确性和可扩展性。公司采用的“专家AI”方法旨在利用企业内部的专有数据,与依赖公共数据的“通用AI”不同,Lamini通过挖掘企业内部大量未被利用的数据,实现更深层次的能力。此外,Lamini已经与AMD、Snowflake、Databricks和Meta等行业领导者建立了合作伙伴关系。

    (消息来源:Lamini

  • Vidu – 生数科技发布的视频大模型,可生成16秒1080P的视频

    Vidu是什么

    Vidu是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构,结合Diffusion与Transformer技术,能够一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具备丰富的想象力,支持多镜头生成,保持时空一致性,效果接近Sora,代表了中国在视频大模型领域的技术突破。

    Vidu

    Vidu的主要功能

    • 文本到视频生成:用户可以通过输入简单的文本提示,快速生成长达16秒的高清视频内容,大大降低了视频制作的技术门槛,使得非专业用户也能轻松制作出高质量的视频。
    • 高分辨率输出:Vidu支持生成分辨率高达1080P的视频,生成的视频具有非常清晰的画质,适合在各种高清显示设备上播放。
    • 多镜头生成能力:Vidu支持同时生成多个镜头视角的视频,能够制作出类似于电影或电视剧中常见的多镜头切换效果,增加了视频的动态感和观赏性。
    • 模拟真实世界:Vidu能够模拟真实世界的物理特性,如物体的运动、光影的变化等,使得生成的视频内容更加逼真。
    • 保持时空一致性:在生成多镜头视频时,Vidu能够保证不同镜头之间的时空关系是连贯的,避免了不同镜头之间出现时空错乱的情况。
    • 丰富的想象力:除了模拟现实世界,Vidu还具备丰富的想象力,能够创造出新颖的视频内容,满足用户在创意表达上的需求。
    • 多模态融合能力:虽然目前Vidu主要聚焦于视频内容的生成,但基于其多模态大模型的特性,未来它有望整合文本、图像等多种模态的信息,生成更加丰富和立体的视频内容。

    Vidu

    Vidu的技术架构

    • Diffusion技术:Diffusion是一种生成模型技术,它通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。
    • Transformer架构:Transformer是一种深度学习模型,最初用于自然语言处理任务,因其强大的性能和灵活性,后来被广泛应用于计算机视觉等领域。Vidu结合了Transformer架构来处理视频数据。
    • U-ViT架构:U-ViT是Vidu技术架构的核心,是一种将Diffusion与Transformer融合的创新架构。U-ViT由生数科技团队提出,是全球首个此类融合架构,它结合了Diffusion模型的生成能力和Transformer模型的感知能力。
    • 多模态扩散模型UniDiffuser:UniDiffuser是生数科技基于U-ViT架构开发的多模态扩散模型,它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。
    • 长视频表示与处理技术:Vidu在U-ViT架构的基础上,进一步突破了长视频表示与处理的关键技术,这使得Vidu能够生成更长、更连贯的视频内容。
    • 贝叶斯机器学习:贝叶斯机器学习是一种统计学习方法,它通过贝叶斯定理来更新模型的概率估计。Vidu在开发过程中,团队利用了贝叶斯机器学习的技术来优化模型性能。

    如何使用Vidu

    Vidu目前仅处于发布阶段,还没有提供正式访问和使用的入口,感兴趣的公司或机构可以申请加入其合作伙伴计划https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

    Vidu的适用人群

    • 视频创作者:Vidu为视频制作人员提供了一个强大的工具,可以快速生成高质量的视频内容,适用于独立视频制作人、电影制作人、动画师等。
    • 游戏开发者:游戏开发团队可以利用Vidu生成逼真的游戏环境和动态背景,提升游戏的视觉效果和玩家体验。
    • 广告和营销专业人士:广告创意人员和营销团队可以使用Vidu来制作吸引人的视频广告,以更低的成本和更高的效率吸引目标客户。
    • 教育工作者:教师和培训师可以利用Vidu制作教育视频,如模拟实验、历史重现等,使学习过程更加直观和有趣。
    • 新闻工作者:新闻机构和记者可以使用Vidu生成新闻报道中的动态背景或模拟场景,提高报道的真实性和观赏性。
  • AI药物化学初创公司Yoneda Labs获400万美元的种子轮融资

    Yoneda Labs

    2024年4月26日,总部位于美国旧金山的从事利用人工智能辅助药物发现的初创公司Yoneda Labs宣布筹集了400万美元的种子轮融资。本轮融资由Khosla Ventures领投,500 Emerging Europe、468 Capital和Y Combinator等投资方参投。

    该公司计划将筹集的资金用于购买所需的机器人自动化设备,以便在其实验室内运行化学反应,从而为公司的模型创造训练数据。

    Yoneda Labs由Michal Mgeladze-Arciuch、Daniel Vlasits和Jan Oboril于2023年创立,旨在开发化学制造的基础模型。该公司利用人工智能告诉化学家如何制造新药,以加快新药的创造并降低化学制造的成本。

    (消息来源:VentureBeat

  • VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

    VideoGigaGAN是什么

    VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节和时间连贯性的高清视频。该模型基于大规模图像上采样器GigaGAN,通过创新的技术手段,如流引导的特征传播、抗锯齿处理和高频穿梭,解决了传统VSR方法中存在的模糊和闪烁问题,显著提升了视频上采样后的时间一致性和高频细节表现。

    VideoGigaGAN

    VideoGigaGAN的功能特色

    • 高效视频超分辨率:VideoGigaGAN能够将标准或低分辨率视频内容转换为高分辨率格式,显著提升视频的清晰度和观赏性。
    • 细节增强保持:在提升分辨率的同时,该模型注重保留视频的高频细节,如细小纹理和锐利边缘,避免传统放大方法中常见的模糊和失真现象。
    • 帧间连贯性优化:通过先进的技术手段,VideoGigaGAN确保视频中连续帧之间的过渡平滑自然,有效避免了时间闪烁和不一致性问题,提供连贯的观影体验。
    • 快速渲染能力:该模型具备快速处理能力,能够在短时间内完成视频的超分辨率处理,适合需要快速转换或实时处理的应用场景。
    • 高倍率视频放大:支持高达8倍的视频放大比例,对于需要大幅度提升视频分辨率的专业应用,如影像编辑和视觉效果制作,提供了强有力的技术支持。
    • 全面提升视频质量:不仅提升分辨率,VideoGigaGAN还改善视频的整体画质,包括色彩、对比度和细节层次,使得视频内容更加生动和真实。
    • 生成高真实感视频:利用强大的生成对抗网络架构,VideoGigaGAN能够生成接近自然拍摄效果的高分辨率视频,满足高端视频制作的需求。

    VideoGigaGAN的官网入口

    VideoGigaGAN的技术原理

    VideoGigaGAN的工作原理

    • 基础架构:VideoGigaGAN建立在GigaGAN图像上采样器的基础上,GigaGAN是一个大规模的生成对抗网络(GAN),能够对图像进行高质量的上采样。
    • 时间模块扩展:为了将GigaGAN应用于视频处理,研究者将2D图像模块扩展到3D时间模块,通过在解码器中添加时间卷积层和时间自注意力层,以处理视频序列。
    • 流引导特征传播:为了提高视频帧之间的时间一致性,VideoGigaGAN采用了流引导特征传播模块。该模块使用双向循环神经网络(RNN)和图像反变形层,基于光流信息对特征进行对齐和传播。
    • 抗锯齿处理:为了减少高频细节区域的时间闪烁,VideoGigaGAN在编码器的下采样层中使用了抗锯齿块(BlurPool),代替传统的步幅卷积,以减少别名效应。
    • 高频特征穿梭(HF Shuttle):为了补偿在上采样过程中可能丢失的高频细节,VideoGigaGAN通过跳跃连接将高频特征直接传输到解码器层。
    • 损失函数:在训练过程中,VideoGigaGAN使用了包括标准GAN损失、R1正则化、LPIPS损失和Charbonnier损失在内的多种损失函数,以优化模型性能。
    • 训练与推理:VideoGigaGAN在训练时联合优化流引导特征传播模块和扩展的GigaGAN模型。在推理时,首先使用流引导模块生成帧特征,然后将特征输入到GigaGAN块中进行上采样。
    • 数据集和评估:使用标准的VSR数据集进行训练和测试,如REDS和Vimeo-90K,并通过PSNR、SSIM、LPIPS等指标评估模型的上采样质量。

    VideoGigaGAN的应用场景

    • 视频画质增强:对于旧电影、家庭录像或任何低分辨率的视频材料,VideoGigaGAN可以提升其分辨率,改善画质,使其更适合现代播放设备。
    • 视频安全监控:在安全监控领域,VideoGigaGAN可以帮助提高视频的清晰度,从而更好地识别和分析视频中的对象或事件。
    • 视频编辑与后期制作:在视频编辑和后期制作中,VideoGigaGAN可以用来提升原始视频的分辨率,以满足高质量输出的需求。
    • 视频传输与存储:在带宽有限的情况下,通过降低视频的传输分辨率可以减少数据传输量。VideoGigaGAN可以在接收端将视频上采样到高分辨率,以改善观看体验。
    • 视频安全与认证:在需要验证视频内容真实性的场景下,VideoGigaGAN可以帮助恢复视频细节,辅助进行内容的真伪鉴定。
  • AI驱动的环保数据平台Treefera获1200万美元A轮融资

    Treefera

    2024年4月25日,总部位于英国伦敦的从事碳抵消业务的AI环保数据平台 Treefera 宣布筹集了1200万美元的A轮融资,本轮融资由 AlbionVC 领投。

    该公司计划将筹集的资金用于增强其平台能力,扩大其全球团队,并巩固其在基于自然资产数据领域的关键参与者地位。

    Treefera由Jonathan Horn(前摩根大通董事总经理)和Caroline Grey(前UiPath首席客户官)于2022年创立,提供AI驱动的环保数据管理平台,专注于为碳信用和供应链可持续性等基于自然的资产报告带来透明度和准确性。通过整合卫星、无人机和地面真实数据,并结合AI算法,Treefera平台为客户提供持续的监控、保证和风险评估。

    (消息来源:Tech.eu

  • AI安全分析初创公司Dropzone AI获1685万美元A轮融资

    Dropzone AI

    2024年4月25日,总部位于美国西雅图的AI安全分析初创公司 Dropzone AI 宣布筹集了1685万美元的A轮融资。本轮融资由Theory Ventures领投,Decibel Partners、Pioneer Square Ventures和In-Q-Tel (IQT)等现有投资者和多位天使投资人也参与了投资。

    该公司计划将筹集的资金用于继续扩大其市场推广和工程团队的规模。

    Dropzone AI成立于2023年,提供经过预训练的自主AI分析师,与安全操作团队中的人类分析师一起工作,处理来自安全系统的大量警报。使用尖端的大型语言模型,Dropzone的AI分析师可执行端到端的调查,复制精英分析师的技术,使人类分析师能够专注于真正的威胁和更高价值的工作。

    (消息来源:BusinessWire

  • IDM-VTON – 逼真的开源AI虚拟试穿框架

    IDM-VTON是什么

    IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。该技术包含两个关键组件:一是视觉编码器,用于提取服装图像的高级语义信息;二是GarmentNet,一个并行UNet网络,用于捕捉服装的低级细节特征。IDM-VTON还引入了详细的文本提示,以增强模型对服装特征的理解,从而提升生成图像的真实度。

    IDM-VTON

    IDM-VTON的功能特色

    • 虚拟试穿图像生成:根据用户和服装的图像,生成用户穿戴特定服装的虚拟图像。
    • 服装细节保留:通过GarmentNet提取服装的低级特征,确保服装的图案、纹理等细节在生成的图像中得到准确反映。
    • 支持文本提示理解:利用视觉编码器和文本提示,使模型能够理解服装的高级语义信息,如款式、类型等。
    • 个性化定制:允许用户通过提供自己的图像和服装图像,定制化生成更符合个人特征的试穿效果。
    • 逼真的试穿效果:IDM-VTON能够生成视觉上逼真的试穿图像,不仅在视觉上与服装图像保持一致,而且能够自然地适应人物的姿态和体型。

    IDM-VTON

    IDM-VTON的官网入口

    IDM-VTON的工作原理

    IDM-VTON

    1. 图像编码:首先,将人物(xp)和服装(xg)的图像编码成模型可以处理的潜在空间表示。
    2. 高级语义提取:使用图像提示适配器(IP-Adapter),这是一个利用图像编码器(如CLIP模型)来提取服装图像的高级语义信息的组件。
    3. 低级特征提取:通过GarmentNet,一个专门设计的UNet网络,来提取服装图像的低级细节特征,如纹理、图案等。
    4. 注意力机制
      • 交叉注意力:将高级语义信息与文本条件结合,通过交叉注意力层进行融合。
      • 自注意力:将低级特征与来自TryonNet的特征结合,并通过自注意力层进行处理。
    5. 详细文本提示:为了增强模型对服装细节的理解,提供详细的文本提示,描述服装的具体特征,如“短袖圆领T恤”。
    6. 定制化:通过微调TryonNet的解码器层,可以使用特定的人物-服装图像对来定制化模型,以适应不同的人物和服装特征。
    7. 生成过程:利用扩散模型的逆过程,从加入噪声的潜在表示开始,逐步去噪生成最终的虚拟试穿图像。
    8. 评估与优化:在不同的数据集上评估模型的性能,使用定量指标(如LPIPS、SSIM、CLIP图像相似性得分和FID得分)和定性分析来优化模型。
    9. 泛化测试:在In-the-Wild数据集上测试模型的泛化能力,该数据集包含真实世界的场景,以验证模型在未见过的服装和人物姿态上的表现。

    IDM-VTON的应用场景

    • 电子商务:在线上购物平台中,IDM-VTON可以让用户在不实际穿上衣物的情况下,预览服装穿在自己身上的效果,从而提高购物体验和满意度。
    • 时尚零售:时尚品牌可以利用IDM-VTON来增强顾客的个性化体验,通过虚拟试穿展示最新款式,吸引顾客并促进销售。
    • 个性化推荐:结合用户的身材和偏好数据,IDM-VTON可以用于个性化推荐系统,为用户推荐适合其身材和风格的服装。
    • 社交媒体:用户可以在社交媒体上使用IDM-VTON来尝试不同的服装风格,分享试穿效果,增加互动和娱乐性。
    • 时尚设计和展示:设计师可以使用IDM-VTON来展示他们的设计作品,通过虚拟模特展示服装,而无需制作实体样衣。
  • ID-Animator – 腾讯等推出的个性化人物视频生成框架

    ID-Animator是什么

    ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图像生成个性化视频,同时保留图像中的人物身份特征,并能够根据文本提示调整视频内容。该框架通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现了高效的视频生成,且无需针对特定身份进行额外的训练。ID-Animator通过构建专门的数据集和采用随机面部参考训练方法,提高了视频的身份保真度和生成质量。

    ID-Animator

    ID-Animator的主要功能

    • 修改视频角色(Recontextualization): ID-Animator能够根据提供的参考图像和文本,改变视频中角色的上下文信息。例如,可以通过文本提示调整角色的发型、服装、背景,甚至执行特定动作,从而创造出全新的角色背景故事。
    • 年龄和性别修改(Age and Gender Alteration): 该模型能够根据需要对视频中角色的年龄和性别进行调整,以适应不同的视频内容和风格需求。如生成年轻人像变老、男生变女生的视频。
    • 身份混合(Identity Mixing): ID-Animator能够混合两个不同身份的特征,按照不同的比例生成具有综合特征的视频,这在创造新的角色或混合现实中的人物特征时非常有用。
    • 与ControlNet的结合: ID-Animator可与ControlNet等现有精细条件模块兼容,通过提供单帧或多帧控制图像,可以生成与控制图像紧密结合的视频序列,这在生成特定动作或场景的视频时非常有用。
    • 社区模型集成: ID-Animator还能够与社区模型(如Civitai上的模型)集成,即使没有在这些模型上进行过训练,也能有效地工作,保持了面部特征和动态生成的稳定性。

    ID-Animator

    ID-Animator的官网入口

    ID-Animator的工作原理

    ID-Animator的工作原理

    1. 预训练的文本到视频扩散模型:ID-Animator使用一个预训练的文本到视频(Text-to-Video, T2V)扩散模型作为基础,该模型能够根据文本提示生成视频内容。
    2. 面部适配器(Face Adapter):为了生成与特定身份一致的视频,ID-Animator引入了一个轻量级的面部适配器。这个适配器通过学习面部潜在查询来编码与身份相关的嵌入信息。
    3. 身份导向的数据集构建:研究者构建了一个面向身份的数据集,这包括解耦的人类属性和动作字幕技术,以及从构建的面部图像池中提取的面部特征。
    4. 随机面部参考训练方法:ID-Animator采用随机采样的面部图像进行训练,这种方法有助于将与身份无关的图像内容与与身份相关的面部特征分离,从而使适配器能够专注于学习与身份相关的特征。
    5. 文本和面部特征的融合:ID-Animator将文本特征和面部特征结合在一起,通过注意力机制(Attention Mechanism)进行融合,以生成既符合文本描述又保留身份特征的视频。
    6. 生成过程:在生成视频时,ID-Animator首先接收一个参考面部图像和相应的文本提示。面部适配器将参考图像的特征编码为嵌入,然后将这些嵌入与文本特征一起输入到扩散模型中,最终生成视频。
    7. 优化和训练:为了提高模型的性能,ID-Animator的训练过程包括使用随机面部图像作为参考,以减少参考图像中与身份无关特征的影响,并通过分类器自由引导(Classifier-Free Guidance)等技术优化视频生成质量。
    8. 兼容性和扩展性:ID-Animator设计为与多种预训练的T2V模型兼容,如AnimateDiff,这使得它可以轻松地集成到现有的系统中,并在不同的应用中进行扩展。
  • 韩国B2B AI初创公司DALPHA获120亿韩元Pre-A轮融资

    DALPHA

    2024年4月24日,总部位于韩国首尔的B2B AI解决方案初创公司 DALPHA 宣布筹集了120亿韩元(约870万美元)的PreA轮融资。本轮融资由Mirae Asset Venture Investment领投,新投资者包括Intervest、DSC Investment、IMM Investment和Partners Investment,现有投资者Primer Saze partners和Springcamp也参与了本轮融资。

    该公司计划将筹集的资金用于推出新的SaaS(软件即服务)产品,以促进B2B定制AI解决方案的更易采用。

    Dalpha成立于2023年1月,公司主要业务是创建和提供定制的AI解决方案,帮助企业最大化收入、降低成本并提升客户体验。Dalpha已在电子商务、时尚美妆、市场营销和内容等多个行业开发并提供了超过100种定制AI解决方案,并与超过150家企业在各种AI项目上进行了合作,包括KT Commerce、LG Uplus、Daehong Planning和CJ Olive Networks等大型企业以及My Real Trip、NRISE(Wippy运营商)和MAKEUS(Dingo运营商)等初创公司。

    (消息来源:WOWTALE