AI工具集实时追踪最新开源与非开源AI项目,为您提供前沿技术动态。涵盖多模态、推理、生成等热门领域。无论是企业还是开发者,是您获取最新AI项目资讯的权威平台。
Blog
-
阶跃星辰推出移动端AI智能问答助手跃问APP
AI工具集 6月14日消息,由微软前全球副总裁姜大昕所创办的人工智能初创公司阶跃星辰日前宣布上线其AI智能问答助手跃问的移动端APP,用户可在苹果App Store和各大安卓应用商店进行下载使用。
跃问背后,由阶跃星辰 Step 系列通用大模型提供强大支持,包括 Step-1 千亿参数语言大模型和 Step-1V 千亿参数多模态大模型。两个千亿模型加持,让跃问可以精准描述和理解图像中的文字、数据、图表等信息,出色地完成内容创作、逻辑推理、数据分析等多项任务。
过去2个月,阶跃星辰在联网搜索、文档解析、推理速度等许多方面进行了性能优化。同时,跃问已支持拍照识图、语音输入,pdf、doc/docx、csv、png、jpg等多种格式的文档分析。
跃问APP的主要功能
- 智能问答:无论是文字还是图像,跃问都能快速理解并给出最佳的答案,智能全网搜索并总结,让您轻松获取所需信息。
- 高效阅读:长篇报告、复杂合同还是学术文献,只需上传文档,即可进行文档问答,帮助您快速理解文档内容,为您提供深入的洞察和分析。跃问也支持多数网站链接的内容读取。
- 写作翻译:撰写文章、制作方案、跨语言沟通,跃问都能根据您的要求,生成高质量的内容,并提供多种语言的翻译服务。让您的创作更加流畅。
- 拍照识图:随手拍建筑地标、汽车、动物、日常物品并提问,跃问能准确识别解读并给出所需解答。无论是寻找相似图片、获取图片信息还是进行图片搜索。
- 多端同步:APP和网页端数据同步,工作生活高效加倍。
跃问APP的下载地址
-
AI内容检测初创公司GPTZero获1000万美元A轮融资
2024年6月13日,总部位于美国纽约的AI内容检测初创公司GPTZero宣布筹集了1000万美元的A轮融资,估值约5000万美元。本轮融资由Footwork的联合创始人Nikhil Basu Trivedi领投,其他投资者包括Reach Capital、Jack Altman的Alt Capital、Uncork Capital以及Neo(Ali Partovi的基金)。
GPTZero是由24岁的Alex Cui和26岁的Tian创办的AI内容检测初创公司,两人自高中以来就是朋友。该公司成立于2022年12月,提供一种AI检测工具,用以识别内容是否由人工智能生成。GPTZero在2023年1月正式推出,并迅速获得了市场的关注和认可。GPTZero的检测技术在准确性上具有优势,基于大量人类与AI生成文本的数据,并且结合了先进的开源工具和深度学习模型。公司的客户基础不仅包括教师,还扩展到了政府采购机构、撰写资助申请的组织、招聘经理以及AI训练数据标注者等。GPTZero的长期愿景是创建一个互联网的新层面,以确保人类和AI内容的适当责任和区分。
更多AI公司融资情况请查看👉:900+ AI初创公司融资数据库(消息来源:TechCrunch)
-
什么是Apple Intelligence?详解苹果的AI系统
在当今数字化时代,人工智能(AI)已成为推动技术进步和创新的关键力量。苹果公司,作为全球科技领域的巨头之一,一直在不断探索和创新,以提供更加智能和个性化的用户体验。2024年的WWDC大会上,苹果公司揭开了其最新力作——Apple Intelligence的神秘面纱,这是一款全新的个人智能化系统,旨在彻底改变用户与设备之间的互动方式。
Apple Intelligence是什么
Apple Intelligence是苹果公司开发的一款集成在 iPhone、iPad 和 Mac 平台上的个人智能系统,于北京时间2024年6月11日的WWDC大会(苹果全球开发者大会)上发布。该AI系统通过结合强大的生成模型和个人背景,为用户提供有用且相关的服务和体验。Apple Intelligence 的核心在于其先进的 AI 技术和隐私的重视,不仅能够理解用户的需求,还能预测用户的意图,在保护用户隐私的同时还能提供更加个性化的服务。
Apple Intelligence的核心功能
AI驱动的写作工具
写作工具是 Apple Intelligence 的一项系统级功能,能够帮助用户在各种应用程序中重写、校对和总结文本。无论是撰写电子邮件、润色博客文章还是整理课堂笔记,这些工具都能让用户在写作时更加自信。用户可以调整文本的语调、检查语法错误,甚至获得文本内容的简洁摘要。
Genmoji和Image Playground
Apple Intelligence 还为用户的图像和表情符号带来了乐趣和创造力。通过新的Image Playground,用户可以生成三种风格的有趣图像:动画、插图或草图。用户可以创建自定义的表情符号,即“Genmoji”,完美捕捉瞬间和独特的表达方式。此外,使用图像魔杖(Image Wand),用户还可以将草图转换成精致的图像。
改进的照片和视频体验
照片应用也得到了增强,新增了自然语言搜索功能,用户可以轻松找到视频中的特定时刻。新的清理工具可以去除背景中的干扰物,而不会改变主题。通过“记忆”功能,用户只需简单描述即可创建自定义的故事。
隐私和安全
Apple Intelligence 在 AI 领域设定了新的隐私标准。首先,它拥有在设备上完全运行的小模型,以本地处理请求。当更复杂的任务需要云处理时,它们有一个新的私有云计算功能,同时确保用户的数据不会被保留或暴露。
Siri的全面升级
Siri 通过 Apple Intelligence 得到了全面的升级。现在,Siri 更好地理解用户,能够跟随用户的思路,保持请求之间的上下文,甚至允许用户通过打字代替说话。Siri 还可以在应用程序中执行数百种新操作,例如从朋友那里获取书籍推荐或检查父母的航班状态。
ChatGPT集成
苹果公司还在其平台上整合了OpenAI旗下的ChatGPT。Siri 可以在用户允许的情况下,利用 ChatGPT 的专业知识来回答问题。ChatGPT 将在系统级的写作工具中提供帮助,生成内容和图像。ChatGPT 用户还可以连接他们的账户以访问付费服务。
Apple Intelligence的技术细节
Apple Intelligence 建立在苹果公司创建的一系列生成模型之上,包括设备上的和服务器基础模型、图像生成的扩散模型和编码模型。此外,Apple Intelligence 还可以根据需要调用第三方模型,如 ChatGPT,以处理更复杂的请求。
设备端的模型
设备上的模型拥有约 30 亿参数和 49K 的词汇量,采用低比特量化和分组查询注意力技术,以提高速度和效率。在 iPhone 15 Pro 上,该模型实现了每个提示token 0.6 毫秒的时间到生成第一个token的延迟和每秒 30 个token的生成速率。
服务器端的模型
服务器端的模型拥有 100K 的词汇量,能够使用私有云计算处理更复杂的任务,同时确保隐私和安全。该模型使用高级技术,如推测性解码和上下文修剪,以提高性能。建立在强化的 iOS 基础子集上,通过强大的加密和安全的启动过程确保用户数据的隐私。
训练和优化
苹果的模型是在精心策划的数据集上训练的,这些数据集不包含任何个人用户数据。训练数据包括授权数据、由 AppleBot 收集的公开可用数据和合成数据。训练后,苹果使用诸如拒绝采样微调和基于人类反馈的强化学习等新颖算法,以提高模型遵循指令的能力。
苹果实施了一系列尖端技术,以确保在移动设备上的最优性能和效率。通过使用分组查询注意力、共享嵌入表、低位palletization和高效的键值缓存更新等方法,苹果成功创建了高度压缩的模型,这些模型在满足移动设备的内存、功率和性能限制的同时,保持了质量。
低秩适应(LoRA)
与 Google 的 Gemini Nano 和 Microsoft 的 Phi 等通用模型不同,苹果的模型通过使用一种称为“低秩适应”的技术,对日常活动进行了微调,如摘要、邮件回复和校对。这种技术涉及将小型神经网络模块插入预训练模型的各个层中。这允许模型适应不同任务,同时保留其通用知识。重要的是,这些适配器可以动态加载和交换,允许基础模型针对手头的任务进行专门处理。
如何使用Apple Intelligence
Apple Intelligence面向用户免费提供,测试版将于今年秋季作为 iOS 18、iPadOS 18 和 macOS Sequoia 的内置功能推出,仅支持英语(美国)。部分功能、软件平台和其他语言支持将于明年陆续推出。Apple Intelligence 将仅支持 iPhone 15 Pro、iPhone 15 Pro Max 以及搭载 M1 或后续芯片的 iPad 和 Mac 设备,需将 Siri 和设备的语言设置为英语(美国)。
常见问题
Apple Intelligence基于什么大模型?Apple Intelligence 基于苹果公司开发的一系列生成模型,包括设备上的3B小型模型和服务器上的更复杂模型,以及必要时调用的第三方模型如ChatGPT。Apple Intelligence国内可以用吗?Apple Intelligence计划在秋季推出Beta版本,最初将只在美国英语中提供,暂不在国区提供服务,后续可能扩展到中国市场。Apple Intelligence如何保护用户隐私?Apple Intelligence使用在设备上运行的小模型来本地处理请求,并在需要云处理时使用Private Cloud Compute,确保数据不被保留或暴露。Siri在Apple Intelligence中有哪些改进?Siri现在能更好地理解用户,保持请求间的上下文,允许打字代替说话,并能执行跨应用的数百种新操作。延伸阅读
-
MimicBrush – 阿里等开源的AI图像编辑融合框架
MimicBrush是什么
MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含期望效果的参考图像进行图片编辑。MimicBrush能够自动识别和模仿参考图像中的视觉元素,将其应用到源图像的相应区域,支持如对象替换、样式转换、纹理调整等图像编辑操作。该技术特别适用于产品定制、角色设计和特效制作等场景,极大地简化了传统图像编辑的复杂流程,提高了编辑效率和灵活性。
MimicBrush的功能特色
- 参考图像模仿:用户在源图像上圈定希望编辑的特定区域,提供一张包含所需样式或对象的参考图像。MimicBrush便能分析并模仿参考图像中的特定视觉特征,将这些特征无缝应用到源图像的指定区域,实现风格或内容的一致性。
- 自动区域识别:MimicBrush利用先进的图像识别技术可自动检测和确定编辑区域。用户无需手动绘制遮罩或进行繁琐的选择,简化了编辑前的准备工作。
- 一键编辑应用:用户只需点击一个按钮,即可启动编辑过程。MimicBrush将自动执行从区域识别到特征模仿的整个编辑流程,编辑操作变得快速且用户友好,无需多步操作。
- 多样化编辑效果:支持对象替换,如将一种物体替换为另一种物体;可实现样式转换,比如改变服装的图案或颜色。还能进行纹理调整,如将一种材质的纹理应用到另一物体表面。
- 实时反馈:在编辑过程中,MimicBrush提供即时的预览功能。用户可以实时看到编辑效果,及时进行调整和优化,确保了编辑结果更符合用户的预期和需求。
- 灵活性和适应性:MimicBrush能够适应不同的图像内容,包括复杂场景和多样风格,提供多种编辑选项,使用户能够根据个人喜好进行个性化调整。
MimicBrush的官网入口
- 官方项目主页:https://xavierchen34.github.io/MimicBrush-Page/
- GitHub代码库:https://github.com/ali-vilab/MimicBrush
- Hugging Face Demo:https://huggingface.co/spaces/xichenhku/MimicBrush
- ModelScope模型:https://www.modelscope.cn/models/xichen/MimicBrush/summary
- arXiv技术论文:https://arxiv.org/abs/2406.07547
MimicBrush的技术原理
- 自我监督学习:MimicBrush通过自我监督的方式进行训练,利用视频帧之间的自然一致性和视觉变化。在训练过程中,系统随机选择视频中的两帧,一帧作为源图像,另一帧作为参考图像,学习如何使用参考图像的信息来补全源图像中被遮罩的部分。
- 双扩散UNets结构:MimicBrush采用了两个UNet网络,即“imitative U-Net”和“reference U-Net”。这两个网络分别处理源图像和参考图像,并通过共享注意力层中的键(keys)和值(values)进行信息交互,帮助系统定位参考图像中与源图像编辑区域相对应的部分。
- 注意力机制:在MimicBrush中,参考U-Net提取的注意力键和值被注入到模仿U-Net中,这种机制有助于模仿U-Net更准确地完成遮罩区域的生成,确保生成的区域与源图像的背景和其他元素和谐地融合。
- 数据增强:为了增加源图像和参考图像之间的变化性,MimicBrush在训练过程中应用了强烈的数据增强技术,包括颜色抖动、旋转、缩放和翻转等,以提高模型对不同姿态、光照和视角下图像的泛化能力。
- 遮罩策略:MimicBrush采用了一种智能的遮罩策略,通过SIFT特征匹配来确定源图像中的关键区域,并增加这些区域被遮罩的可能性,从而促使模型学习如何从参考图像中找到并模仿更有意义的视觉元素。
- 深度模型:MimicBrush还利用深度模型来预测源图像的深度图,作为形状控制的可选条件,这使得MimicBrush能够在纹理转移任务中保持源对象的形状,同时仅将参考图像的纹理或图案应用到源对象上。
- 评估基准:为了全面评估MimicBrush的性能,研究人员构建了一个包含部分合成和纹理转移任务的高质量基准,涵盖了多种实际应用场景,如时尚、产品设计等。
MimicBrush的应用场景
- 产品设计:设计师可以使用MimicBrush快速修改产品设计图,例如改变产品的颜色、纹理或形状,以匹配设计概念或满足特定需求。
- 时尚和服装:在时尚界,MimicBrush可以用来改变服装的图案、颜色或风格,帮助设计师和营销人员快速预览不同设计选项。
- 美容和肖像编辑:个人用户可以利用MimicBrush来美容肖像,例如改变发型、妆容或肤色,而无需专业的图像编辑技能。
- 广告和营销材料:营销人员可以快速调整广告图像,以适应不同的市场或促销活动,例如更改产品展示或背景元素。
- 社交媒体内容创作:社交媒体用户可以利用MimicBrush来增强或个性化他们的照片和视频,使其内容更加吸引眼球。
- 电子商务:在线零售商可以使用MimicBrush来定制产品图像,展示不同选项或变化,为客户提供更丰富的视觉体验。
-
Stability AI开源Stable Diffusion 3 Medium文生图模型
6月12日晚间消息,人工智能初创公司Stability AI宣布正式开源发布其最新的文本到图像生成模型——Stable Diffusion 3 Medium(SD3 Medium)。Stable Diffusion 3 Medium 包含 20 亿个参数,是 Stability AI 迄今为止最先进的文本到图像开放模型,更小的 VRAM 占用空间旨在使其更适合在消费级 GPU 以及企业级 GPU 上运行。
Hugging Face模型地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium
Stable Diffusion 3 Medium的基本信息
- 先进性:SD3 Medium 拥有20亿参数,是Stability AI 迄今为止最为复杂的图像生成模型,代表了生成式AI进化的重要里程碑。
- 适用性:这一模型的尺寸适中,使其成为在消费级PC、笔记本电脑以及企业级GPU上运行的理想选择,有望成为文本到图像模型的新标准。
- 开放性:SD3 Medium 的权重现已在非商业许可和低成本创作者许可下开放,鼓励专业艺术家、设计师、开发者和AI爱好者进行商业使用。
- 多平台支持:支持API试用,可在Stability平台、Stable Assistant(免费三天试用)和通过Discord的Stable Artisan上尝试。
Stable Diffusion 3 Medium的改进
- 照片级真实感:SD3 Medium 通过减少手部和面部的常见伪影,提供无需复杂工作流程即可生成的高质量图像。
- 提示遵循:模型能够理解并生成涉及空间关系、构图元素、动作和风格的复杂提示。
- 排版能力:借助Diffusion Transformer架构,SD3 Medium 在生成文本时实现了无伪影和拼写错误。
- 资源效率:模型设计考虑了资源效率,即使在标准消费级GPU上也能保持高性能,不牺牲性能。
- 微调能力:SD3 Medium 能够从小数据集中吸收细节,为定制化提供了强大支持。
合作伙伴
- NVIDIA:Stability AI 与NVIDIA 的合作,通过NVIDIA® RTX™ GPU和TensorRT™,为所有Stable Diffusion模型,包括SD3 Medium,提供了性能上的显著提升。
- AMD:AMD 对SD3 Medium 进行了优化,确保在AMD的最新APU、消费级GPU和MI-300X企业级GPU上提供高效推理。
开放与安全
- Stability AI 坚定地致力于开放的生成性AI,SD3 Medium 在Stability NonCommercial Research Community License下发布,同时推出了新的Creator License,以支持商业用途。
- 公司采取了全面的安全措施,从模型训练到部署,确保了SD3 Medium 的安全和负责任的使用。
未来计划
Stability AI 计划根据用户反馈持续改进SD3 Medium,扩展其功能,提高性能。公司的目标是为AI生成艺术设定新的标准,使SD3 Medium 成为专业人士和爱好者的重要工具。
(消息来源:Stability AI)
-
InScope完成430万美元种子轮融资,利用AI自动化企业财务报告和审计
2024年6月12日,总部位于美国旧金山的AI自动化财务报告的金融科技公司InScope宣布筹集了430万美元的种子轮融资。本轮融资由Lightspeed Venture Partners和Better Tomorrow Ventures领投,以及包括Vipul Ved Prakash(Together AI的创始人兼CEO)、Jake Heller(Casetext的创始人兼CEO)、Debbie Clifford(Autodesk的首席财务官)、Justin Coulombe(Miro的首席财务官)和Nadia Asoyan(Strike的首席财务官)在内的一群个人投资者。
该公司计划将筹集的资金用于扩大其客户基础至50家公司,扩展产品规模,增长团队,以及增强其人工智能能力。
更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库InScope成立于2023年,由Mary Antony和Kelsey Gootnick共同创立。两位创始人都具有会计背景,并在2018年在Flexport担任会计职能时相识。该公司利用机器学习和大型语言模型为中端市场和企业提供财务报告和审计流程。InScope的主营业务是自动化GAAP(普遍接受的会计原则)和非GAAP报告,包括现金流量表,并计划在今年晚些时候发布帮助客户起草年度和季度财务报告的功能。
(消息来源:TechCrunch)
-
AI数据安全计算平台Pyte完成500万美元的新一轮融资
2024年6月12日,总部位于美国洛杉矶的AI数据安全计算平台Pyte宣布筹集了500万美元的新一轮融资,本轮融资由Myriad Venture Partners领投,Innovation Endeavors、Liberty Mutual Strategic Ventures和Pillar VC等参投。
该公司计划将筹集的资金用于加速其安全计算平台的商业化。
更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库Pyte成立于2020年,是一家提供数据安全协作解决方案的公司,其尖端技术允许在不解密的情况下对加密数据进行计算,使企业能够在保持隐私合规和防止数据泄露的同时,无缝地利用其数据。Pyte的专有安全多方计算(SMPC)密码技术基于公司联合创始人Sadegh Riazi和Ilya Razenshteyn十年的学术研究,可以轻松对加密数据运行简单或复杂的人工智能 (AI) 或机器学习 (ML) 计算,而无需移动或解密敏感数据。团队由六位博士组成,其中三位是安全计算领域的世界领先专家,还有三位ICPC金牌获得者。
(消息来源:PR Newswire)
-
AI软件测试平台BlinqIO完成500万美元新一轮融资
2024年6月12日,总部位于美国特拉华州的生成式人工智能软件测试平台BlinqIO公司宣布筹集了500万美元的新一轮融资。本轮融资由Flint Capital领投,Inovia Capital Precede Fund I(由前谷歌首席财务官、前推特主席Patrick Pichette领导)、前Deliveroo首席财务官Raif Jacobs、TAL ventures和SeedIL也参与了投资。
该公司计划将筹集的资金用于在美国扩展业务开设新的美国办事处,并计划将现有员工人数增加15人。
更多AI公司融资情况请查看👉:800+ AI初创公司融资数据库BlinqIO成立于2023年,由Tal Barmeir和Guy Arieli创立,他们之前共同创立了Experitest并开发了其SeeTest SaaS数字测试自动化平台,该平台最终被TPG收购并重新品牌为Digital.ai。BlinqIO的主营业务是提供一个生成式AI软件测试平台,提供高级虚拟测试人员,帮助公司在其数字产品中实现无与伦比的质量。该公司的AI测试工程师能够理解需求并决定如何执行它们,自动创建和维护测试自动化代码(playwright),并且具有多语言能力,支持超过50种语言,提高了银行、旅游、航空公司、零售等行业的网站和应用程序的效率。
(消息来源:SiliconANGLE)
-
国家网信办发布第六批深度合成服务算法备案信息,腾讯混元等492个算法在列
6月12日消息,国家网信办今日发布公告,根据《互联网信息服务深度合成管理规定》,现公开发布第六批境内深度合成服务算法备案信息。
《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照履行备案和变更、注销备案手续。请尚未履行备案手续的深度合成服务提供者和技术支持者尽快申请备案。
AI工具集从《境内深度合成服务算法备案清单(2024 年 6 月)》文件获悉,本次共有 492 个算法通过备案,其中包括腾讯混元大模型多模态算法(应用产品为腾讯元宝)、零一万物大模型多模态生成算法、天翼数字生活智能应用算法、kreadoAI生成内容算法、PSAI内容深度合成类算法(虹软科技)、浪潮海岳大模型算法、科沃斯机器人大模型算法、喜马拉雅语音识别算法、腾讯音乐未伴虚拟人合成算法、理想汽车MindDiffusion图像生成算法、蝉镜数字人算法(应用产品为蝉镜)、天工图生文算法、影石Insta360-人工智能生成式算法、有道小P大模型算法、出门问问数字人合成算法、快手快意大模型生成合成算法、商汤V-ME视频合成算法、钉钉AI助理智能生成算法等、绘蛙电商模特试装图像合成算法。
更多已备案的算法请查看AI工具集推出的:深度合成服务算法备案清单和在线查询
(消息来源:中国网信网)