Author: Chimy

  • AI快讯:6月第1期(6月1日到6月10日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为6月第1期(6月1日到6月10日)的AI行业新闻集合。

    AI快讯6月第1期

    6月10日

    • 国内又一高校引入ChatGPT,为方便学校师生使用ChatGPT,南京理工大学信息化建设与管理处推出ChatPlus,支持GPT-3.5和GPT-4.0,目前ChatPlus处于公测阶段,仅对在校师生开放。(阅读全文:南京理工大学信息化公众号
    • 韩国教育部表示,为满足对多样化学习内容日益增长的需求,将从2025年开始在中小学引入人工智能(AI)数字教科书。从2025年春季开始,2028年以前实现全面覆盖。(阅读全文:财联社
    • 谷歌今天发布新闻稿,宣布推出 Secure AI Framework(SAIF),确保在安全的概念框架下,让机构负责任地部署人工智能技术。(阅读全文:IT之家
    • 甲骨文寻求与加拿大语言模型公司Cohere达成云AI协议,以向其云客户出售Cohere大型语言模型的访问权,并利用该模型为自家人力资源和供应链管理应用程序创建AI功能,类似于微软将ChaGPT技术接入Microsoft 365。(新闻来源:钛媒体
    • 中国电科旗下电科太极发布生成式人工智能大模型产品“小可”,突出“行业化、专业化、国产化、私有化”特点,目前已推出拟文助手、编码助手、智能标绘等一系列智能应用。(阅读全文:中国电科公众号

    6月9日

    • 在 2023 北京智源大会上,智源发布了完整的悟道 3.0 大模型系列,并进入到了全面开源的新阶段。此次悟道 3.0 包含的项目有「悟道・天鹰」(Aquila)语言大模型系列、FlagEval (天秤)大模型语言评测体系以及「悟道・视界」视觉大模型系列。此外 FlagOpen 飞智也带来了开源大模型技术体系最新进展。(阅读全文:机器之心
    • 科大讯飞召开“讯飞星火认知大模型”V1.5升级版发布会,会上展示了讯飞星火认知大模型的多项能力升级,包括开放式问答取得突破,多轮对话和数学能力再升级,文本生成、语言理解、逻辑推理能力持续提升。发布会上还推出了星火APP、星火助手中心、星火语伴APP、星火认知大模型+医疗诊后管理平台、星火认知大模型+工业互联网平台、星火认知大模型+讯飞听见智慧屏产品。(阅读全文:上游新闻
    • 据韩媒报道,三星已从6月初正式开始自主研发AI大语言模型,目前计划用于软件开发、文档摘要、翻译等内部任务。知情人士表示,三星旨在不依赖OpenAI和谷歌开发的外部大模型,目前该公司在大模型训练上投入了几乎所有的GPU资源,计划在两个月内完成第一版LLM的开发。(阅读全文:凤凰网
    • 消息称,字节跳动正内测一款 AI 对话类产品,其代号暂时为“Grace”,目前已处于“测试完善”阶段。字节相关负责人称:“Grace”是一个 AI 对话类测试项目的内部代号,目前仍然处于初级阶段,且仅供内部体验测试。(阅读全文:36氪
    • 微信宣布「订阅号助手 app」上线一系列新功能,让图片消息发布更简单。其中一个功能是「文字生成图片」,用户在发送图片消息时可以直接用文字生成图片。生成后,用户仍可调节文字大小和对齐方式,整体配色也能一键切换。(阅读全文:微信派公众号
    • 微软目前正在改善 Visual Studio 的开发体验,并将 GitHub Copilot 更深度融合入 Visual Studio 中,以提升“AI 写代码”的准确性。(阅读全文:IT之家
    • Tech星球独家获悉,百度计划推出一款全新的AI对话软件,采用一对一的对话式聊天场景,名字叫做“万话”,据企查查显示,百度旗下关联公司“北京百度网讯科技有限公司”已经申请注册万话软件著作权。(阅读全文:36氪
    • 家乐福推出了一个基于OpenAI的ChatGPT技术的聊天机器人,利用与微软、OpenAI和贝恩公司的合作,将生成式人工智能引入其在线购物平台。家乐福周四表示,其Hopla聊天机器人已经集成到了公司官网,顾客能够使用Hopla来帮助他们进行日常购物。(阅读全文:财联社
    • 据路透社报道,Meta 昨日向员工展示了其正在构建的一系列生成式 AI 工具,包括为 Messenger 和 WhatsApp 推出类似 ChatGPT 的聊天机器人,支持多种语言。(阅读全文:IT之家
    • AI初创公司 Cohere 已获得 2.7 亿美元的新一轮融资,本轮融资由英伟达、甲骨文和 Salesforce 领投。Cohere 总部位于加拿大多伦多,其核心业务与微软支持的 OpenAI 类似,专注于为企业客户构建 AI 模型。(阅读全文:品玩
    • OpenAI 首席执行官山姆·阿尔特曼(Sam Altman)将于当地时间周五到访韩国,与韩国总统尹锡悦和大约100家当地创企高管会面。(阅读全文:界面新闻

    6月8日

    • Runyway 正式上线基于其最新的 Gen-2 模型的AI文本到视频生成工具,并开启免费试用,用户可以直接使用文本提示生成“逼真的视频内容”并“自动剪辑视频”。(官方地址:Gen-2 | Runway
    • Automattic 公司近日宣布,为其 WordPress 新增 AI 写作助手——Jetpack AI Assistant,可以根据用户的提示,撰写博文、详情页、结构化列表和表格。(阅读全文:品玩
    • 谷歌在今天发布的新闻稿中,宣布进一步增强了 AI 聊天机器人 Bard 的能力,优化了数学处理、支持导入表格至 Sheets。(阅读全文:IT之家
    • iOS 版 ChatGPT 应用迎来更新,新增 Siri 和快捷指令支持,可以直接与 Siri 和快捷方式一起使用。此次更新还新增了 iPad 兼容,应用可以更好地利用 iPad 大屏。(阅读全文:IT之家
    • 小鹏汽车在此前申请注册“XMARTGPT”、“XPGPT”、“XGPT”等商标,有望未来小鹏汽车车机内置生成式 AI 语音助理铺路。(阅读全文:搜狐新闻
    • 谷歌 Google Cloud 云业务宣布与美国大型医疗公司 Mayo Clinic (梅奥诊所)达成合作,为医务工作者提供基于生成式 AI 的搜索服务。(阅读全文:财联社
    • 据日本《读卖新闻》报道,集英社 7 日宣布,停售其首部用生成式 AI 创作的数字写真集《诞生(生まれたて。)》。该公司表示,“(销售写真集的行为)对围绕生成式 AI 的各种问题考虑不周”。(阅读全文:IT之家
    • 国务院办公厅日前印发了《国务院 2023 年度立法工作计划》,其中显示,《生成式人工智能服务管理办法(征求意见稿)》等预备提请全国人大常委会审议。(阅读全文:IT之家

    6月7日

    • 今天2023年高考拉开帷幕,高考语文作文题再次成为议论焦点,华尔街见闻的编辑整理了各家AI创作的高考作文(包括ChatGPT、文心一言、讯飞星火、New Bing、通义千问等)。(阅读全文:华尔街见闻
    • 苹果CEO蒂姆·库克在接受外媒采访时表示,自己有用 ChatGPT 并且正在密切关注该领域,但苹果目前在AI领域仍持谨慎态度。他认为,在开发和部署大型语言模型时,要非常审慎和周密,因为这些模型可能带来偏见、误导甚至更糟糕的问题。(阅读全文:腾讯新闻
    • 虎博科技正式发布并开源其自研大模型 TigerBot 并同步上线基于该模型的对话 AI。同时,虎博科技还发布了大模型应用开发所需的全套 API,以及多领域专业数据。(阅读全文:量子位
    • 商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。该模型具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集。(阅读全文:商汤科技公众号
    • 据《华尔街日报》消息,澳大利亚第一大银行——澳大利亚联邦银行已禁止员工使用热门AI聊天机器人ChatGPT,并在内部采用自有AI系统。(阅读全文:华尔街见闻
    • OpenAI 首席执行官 Sam Altman 近日在阿布扎比的一次会议上表示,由于公司的结构非常“奇怪”,目前没有计划让 OpenAI 上市。(阅读全文:IT之家
    • 日本《读卖新闻》报道,NEC (日本电气)社长森田隆之在接受在线采访时表示,他对于生成式 AI 的前景相当看好:“我认为这是一个非常大的商机。”同时他还透露,NEC 正在独立开发自己的生成式 AI 服务。(阅读全文:IT之家
    • 微软在一篇博客中宣布,该公司正在使用其 Azure 云服务把 OpenAI 的强大的语言生成模型引入美国政府机构,这些模型包括 OpenAI 最新、最先进的大型语言模型(LLM)GPT-4,以及 GPT-3。(阅读全文:IT之家

    6月6日

    • 百度智能云推出“Comate”代码助手,并正式开放邀测。借助文心大模型的理解、推理能力,“Comate”可实现代码的快速补齐、自然语言推荐代码、自动查找代码错误,全面提升开发者研发效率。(阅读全文:封面新闻
    • 百度智能云在成都举行的文心大模型技术交流会上表示,自3月开始内测两个月以来,百度文心一言的推理性能已经提升10倍。(阅读全文:封面新闻
    • Zoom正式推出其AI会议助手「Zoom IQ」,第一组功能包括AI会议摘要和团队聊天撰写,用户可进行免费试用。后续第二组功能即将发布,包括起草电子邮件内容、总结团队聊天线程、组织想法和起草白板内容。(阅读全文:Zoom Blog
    • 国际货币基金组织(IMF)第一副总裁吉塔・戈皮纳特(Gita Gopinath)警告称,生成式人工智能将“严重扰乱劳动力市场”,并呼吁决策者迅速制定管理该技术的规则。(阅读全文:IT之家
    • 新加坡国立大学的研究人员提出了一个专供算术的模型山羊Goat,在LLaMA模型基础上微调后,实现了显著优于GPT-4的算术能力。(阅读全文:网易新闻
    • 中央气象台今日宣布,已初步构建基于人工智能的台风监测和预报系统。该系统可为提升我国台风监测预报业务智能化及拓展全球多海域热带气旋业务提供重要技术支撑。(阅读全文:央视新闻

    6月5日

    • OpenAI网站每月独立用户量(Monthly Unique Visitors)突破10亿次,上榜全球访问量最高网站 Top20。从去年秋天的每月约2000万,OpenAI的网站流量增加到了2023年4月的18亿。(阅读全文:网易新闻
    • 香港科技大学(广州)面向全校教职工及学生上线开放GPT服务,这也是国内率先在校内全面启用GPT服务的大学。内容包括GPT-4、ChatGPT,服务对象包括学校全体教职工、学生,服务区域为校园内,使用者仅可通过校园内网络接入。(阅读全文:搜狐新闻
    • 国产产品设计工具MasterGo推出基于设计系统的文生UI——「MasterGo AI」,并于今日起开启内测申请。AI + 设计系统,驱动 UI 设计新体验。(阅读全文:MasterGo公众号
    • Xmind思维导图收购ChatMind,进一步强化其AI布局。而在此前,Xmind已推出了AI思维导图助手Xmind Copilot。(阅读全文:品玩
    • 近期,刘慈欣(《三体》的作者)在做客俞敏洪直播间时表示,ChatGPT 肯定会对人类的生存方式、对社会造成很大的影响,但这种影响还达不到科幻小说里面那样人工智能统治人类等,并透露其在科幻大会上的一两个稿子便是使用了ChatGPT写作。(阅读全文:IT之家
    • 陈天奇官宣MLC Chat移动端App,让用户能够在 iPad 和 iPhone 上与开放语言模型进行本地聊天的应用,是爆火的AI项目「 MLC LLM」的一部分。(阅读全文:机器之心
    • 作业帮正在内测基于中国市场的教育大模型,包含多学科解题、中英文作文批改、多语言对话方向等多个教育应用场景,涉及工具类APP、智能硬件、图书等业务。据内部人士透露,教育场景中综合能力表现超出预期水平。(阅读全文:36氪
    • 全国首个旅游景区AI导游“小丹”亮相,该数字人AI导游由万达集团企业文化中心为贵州丹寨万达小镇量身打造。手机扫一扫小丹的身份识别“二维码”,即可领走你的专属度假助理,让游客享受全天候一对一贴身服务。(阅读全文:新浪财经
    • 瑞银(UBS)分析师迈克尔・布里斯特(Michael Briest)近日援引 IT 研究与咨询机构 Gartner 的一份报告表示称,2026 年将有超 1 亿人与生成式 AI 一起工作。(阅读全文:IT之家

    6月4日

    • 钛媒体从华为内部独家获悉,华为公司将发布一款直接对标ChatGPT的多模态千亿级大模型产品,名为“盘古Chat”。预计华为盘古Chat将于今年7月7日举行的华为云开发者大会 (HDC.Cloud 2023) 上对外发布以及内测,产品主要面向To B/G政企端客户。(阅读全文:钛媒体
    • 谷歌推出名为StyleDrop的文本到图像生成模型,只需要一张图作为参考,无论多么复杂的艺术风格,都能解构再复刻。不仅能定制风格,结合DreamBooth,还能定制内容。(阅读全文:虎嗅网
    • 据科技媒体The Information报道,微软Office 365 AI助手定价曝光,已有100家大客户各支付了高达10万美元的年费。与经典版本相比,这一AI版本的Office 365价格至少高出了40%,具有自动在Word文档中撰写文字和自动创建PPT等增值功能。(阅读全文:华尔街见闻

    6月3日

    • 据9to5Google报道,Google开始在其演示文稿幻灯片应用 Slides 中引入AI 图像生成功能,点击“Help Me Visualize”输入文本描述,便可以为演示文稿创建自定义背景。(阅读全文:9to5Google
    • 随着必应聊天等 AI 助手的大力推广,微软今日宣布,将于年底结束对 Windows 版 Cortana 语音助手的支持。暂不影响其他平台版本,比如 Outlook 移动版、Teams 移动版等。(阅读全文:IT之家
    • 世界上最受欢迎的线上计算机学习课程——来自哈佛大学的CS50计算机课程,正在进行ChatGPT时代的全新升级改造工作。据该课程的教授David J. Malan介绍,该课程计划使用AI来给作业打分,同时借助AI教授编程以及个性化学习技巧。(阅读全文:智通财经
    • 根据美国全国经济研究所(NBER)最新公布的报告显示,生成式AI的出现让客服生产力大幅提高了14%,并对职场“菜鸟”的帮助更大,且缩短了职场新人的上手时间,从6个月缩短至2个月。(阅读全文:华尔街见闻

    6月2日

    • 微软搜索和人工智能副总裁 Jordi Ribas 在最新推文中宣布,必应聊天(Bing Chat)进一步放宽限制,每轮会话最多支持 30 次,用户每天最多可进行 300 次交流。(阅读全文:IT之家
    • 继ChatGPT Prompt Engineering课程后,吴恩达教授再次推出三门AI课程,主题包括LangChain、扩散模型以及用ChatGPT API搭建系统,可在DeepLearning.AI平台上限时免费学习观看。(阅读全文:量子位
    • OpenAI 启动一项耗资 100 万美元的网络安全资助计划,旨在提升和量化 AI 驱动的网络安全能力,并促进高水平的 AI 和网络安全讨论。 (阅读原文:OpenAI Blog
    • 四川省成都市经济和信息化局发布通知,对《成都市关于进一步促进人工智能产业高质量发展的若干政策措施(征求意见稿)》公开征求意见。为鼓励AI产业发展,征求意见稿提出19项资金扶持措施,最高奖励1000万元。(阅读全文:澎湃新闻
    • 日前,AIGC公司出门问问已经向港交所递交了IPO申请。出门问问于2020年就推出了通用大模型(UCLAI),并于2023年4月将其升级为“序列猴子”。目前出门问问的大模型落地场景涵盖AI配音(魔音工坊)、写作(魔撰写作)和数字人(奇妙元)等。(阅读全文:华尔街见闻
    • 聊天软件 Line 于今日宣布上线 AI 自拍服务,通过人工智能技术将用户上传的照片生成多样风格的人像图片。(阅读全文:IT之家
    • 语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型,可以对长达 10 小时的录音进行转录、处理,然后帮用户总结语音中的核心内容,并回答用户输入的问题。(阅读全文:机器之心
    • 英伟达公司于本周宣布推出一款名为 Neuralangelo 的 AI 模型,该模型能够将视频片段转化为细节层次丰富、具备贴图的 3D 模型。(阅读全文:IT之家

    6月1日

    • 阿里云智能于 6 月 1 日发布通义听悟,并面向公众开放公测。阿里云智能 CTO 周靖人表示,通义听悟是依托通义千问大模型和音视频 AI 模型的 AI 助手,可进行实时语音识别,实现对话的实时记录、多语言翻译、发言总结、提取 PPT、内容规整等。(阅读全文:ZAKER资讯
    • 小冰公司两周前宣布在中国及日本市场启动“克隆人计划”,号称最短只要采集三分钟数据,即可为明星红人、专家学者或普通人创造源于本人性格、技能、声音、外貌的 AI 克隆人。目前,首批网红明星克隆人已提前上线,克隆人可在特定的 X Eva App 中与用户交流。(阅读全文:量子位
    • 腾讯官方今日在旗下多个设计师群中发布消息,宣布举行 2023 年 QQ 音乐 AIGC 创意设计大赛,参与者需要自备模型与提示词,根据腾讯提供的赛题进行 AI 生成稿件的创作。(阅读全文:IT之家
    • 机器学习和人工智能初创公司HumanLoop最近邀请人工智能研究公司OpenAI首席执行官萨姆·奥特曼(Sam Altman)以及其他20多位开发者,共同探讨了人工智能的未来。奥特曼非常坦率地分享了OpenAI未来两年的产品路线图,还谈到OpenAI的使命以及人工智能的社会影响等问题。(阅读全文:腾讯网
    • 中国最大AI模型社区「魔搭」举办首届AI编程马拉松挑战赛,胜出队伍最高可获3万人民币奖金,并且有望共享千万美金风投资金池。6月1日阿里云峰会现场,魔搭社区宣布赛事启动,面向全球的AI开发者和初创团队发出邀请。(阅读全文:量子位
    • Character.ai移动端应用上线不到一周,其App安装量超170万,而ChatGPT的App在首个六天内实现50万次下载量。通过该应用,用户不仅可以与喜欢的角色畅聊,还可以通过快速或高级角色创建模式创建属于自己的AI机器人并与之互动,并能与其他用户创建的角色进行交流。(阅读全文:36氪
    • 香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队训练并开源了一个新的医疗大模型 ——HuatuoGPT(华佗GPT),以使语言模型具备像医生一样的诊断能力和提供有用信息的能力。(阅读全文:机器之心
  • AI快讯:5月第3期(5月21日到5月31日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为5月第3期(5月21日到5月31日)的AI行业新闻集合。

    AI工具集5月第3期快讯

    5月31日

    • 百度创始人、董事长兼首席执行官李彦宏在摩根大通全球中国峰会期间宣布,百度将设立 10 亿元人民币的百度文心投资基金,旨在推动大模型生态繁荣,同时启动“文心杯”创业大赛,最高奖项为价值 1000 万元早期投资。(阅读全文:IT之家
    • DeepMind、普林斯顿大学和斯坦福大学的研究人员近日提出了一项名为 LATM(LLMs As Tool Makers)的创新框架,该框架可以将像 GPT-4 这样的大型语言模型转变为工具制造者(即让模型自己生成软件工具来处理新任务)。(阅读全文:IT之家
    • 接入阿里云通义大模型钉钉斜杠“/”,今日定向邀请企业用户进行体验,正式开启小范围邀测。(阅读全文:钉钉公众号
    • 即时设计推出的「即时AI」最新支持生成Web页面、设计稿一键发布上线,设计稿所有修改,均可同步更新到网页中,人人都能轻松上手,不会代码也能轻松做网页。(阅读全文:即时设计公众号

    5月30日

    • 突发!AI 领域传出一封重要的公开信——降低人工智能灭绝的风险,应该与其它社会规模的风险(如大流行病和核战争)一样,成为全球的优先事项。包括 「ChatGPT 之父」Sam Altman 、人工智能和深度学习专家Geoffrey HintonYoshua Bengio在内 350 位 AI 权威都签署了这封联名公开信,并对当前正在开发的 AI 技术可能会对人类构成生存威胁担忧。(阅读全文:爱范儿公众号
    • 游戏工作室 Luden.io 近日推出了名为《Generated Adventure》的新游戏。这款游戏最大的亮点在于艺术风格设计、剧情、角色、场景和背景音乐,完全由 Stable Diffusion,Midjourney 和 ChatGPT 等 AI 工具创建。(阅读全文:IT之家
    • 知名产品设计协作平台「墨刀」推出「墨刀AI」,可帮助用户生成原型页面、生成原型基础组件、AI助手对话、文字智能填充等。(阅读全文:墨刀公众号
    • 必和必拓集团周二表示,已与微软公司达成合作,通过使用机器学习和人工智能,提高其智利 Escondida 铜矿的铜回收率,该铜矿也是全球最大的铜矿。(阅读全文:IT之家

    5月29日

    • 著名导演詹姆斯·卡梅隆透露,他正在创作下一部「终结者」的剧本,而这次的灵感来自现实世界中AI的崛起,比如OpenAI的ChatGPT。(阅读全文:36氪
    • 商汤、清华发布通才智能体 “Ghost in the Minecraft”(GITM)玩转《我的世界》游戏,生存模式白手起家,拿到主世界的所有物品,挖钻石不在话下,还能制作附魔书!(阅读全文:机器之心
    • 英伟达在官网宣布将提供定制 AI 模型代工服务 ——Avatar Cloud Engine (ACE) for Games,可开发在云端和 PC 上运行的 AI 模型,开发者可以使用该服务在其软件和游戏中搭建和部署定制化的语音、对话和动画 AI 模型。(阅读全文:IT之家
    • 英伟达宣布推出一款新型大内存 AI 超级计算机——由 NVIDIA® GH200 Grace Hopper 超级芯片和 NVIDIA NVLink® Switch System 驱动的 NVIDIA DGX™超级计算机,旨在助力开发面向生成式 AI 语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。(阅读全文:澎湃新闻

    5月28日

    • 在今日 2023 中关村论坛上,创新工场董事长李开复对 AI 2.0 中短期做了预测,他称威力强大的大模型将彻底变革人工智能,更多训练数据会带来更高的威力,但同时,高质量数据非常重要,未来的大模型将拥有多模态的功能,和执行任务的功能。但李开复也表示,AI 2.0 可能制造虚假信息,这个缺陷不能完全被杜绝。(阅读全文:IT之家
    • 在美团的一季度财报电话会上,美团创始人王兴表示,坚信 AI 将改变我们生活的方方面面,对 AI 的应用也绝不仅仅局限在手机或互联网行业,目前美团的内部团队也在致力于打造自研基础模型及相关应用程序。(阅读全文:IT之家

    5月27日

    • 知乎联合面壁智能在“2023中国国际大数据产业博览会”上发布了最新的大语言模型成果。知乎合伙人、首席技术官李大海宣布,知乎模型应用“搜索聚合”即日开启内测,面壁智能研发的中文基座大模型CPM-Bee 10b全面开源,并发布了对话类模型产品“面壁露卡”。(阅读全文:IT之家
    • 谷歌开始在其 Messages 应用中推出名为 Magic Compose 的新功能,该功能可以利用人工智能来帮助用户写短信。(阅读全文:IT之家

    5月26日

    • 谷歌在今天发布的新闻稿中,邀请用户加入 Search Labs 项目,测试整合了生成式 AI 的全新 Search Generative Experience。目前这项全新体验仅面向注册 Search Labs 项目的用户开放,感兴趣的网友,可以点击这里,加入 Search Labs 候补名单。(阅读全文:IT之家
    • OpenAI 宣布已经在 40 多个国家和地区,推出了适用于 iPhone 和 iPad 的官方 ChatGPT 应用程序。官方版 ChatGPT 于上周率先在美国市场推出,OpenAI 承诺未来几周内会继续扩展到更多国家和地区。(阅读全文:IT之家
    • 根据App分析厂商Data.AI的消息,ChatGPT在推出后的六天内已经突破了50万次下载,成为美区最近两年内增长速度最快的新应用之一。(阅读全文:机器之心
    • 据透露,TikTok 正测试一款 AI 聊天机器人「Tako」,该工具可与用户交流短视频相关问题,并帮助他们发现内容。(阅读全文:TechWeb

    5月25日

    • 武汉大学宣布,武大版 ChatGPT 大模型 「CheeseChat」开启内测招募,但仅限武汉大学在校师生申请。该服务可以根据用户的指令,提供日常咨询、词条介绍、智能翻译、生活 Tips、学业帮助、灵感协助等功能。(阅读全文:IT之家
    • OpenAI 今日宣布,其官方聊天机器人应用 ChatGPT App 已经在更多国家上线。上周,OpenAI 首次推出了这款移动应用,当时只能在美国市场下载,现在欧洲、韩国、新西兰等地方的用户也可以在 App Store 上下载这款应用。(阅读全文:IT之家
    • 在小米财报发布后的电话会议中,小米总裁卢伟冰表示,会积极拥抱大模型,但不会像 OpenAI 一样做通用大模型,而是会深度和业务结合协同,利用AI技术提升内部效率。今年4月,小米正式组建AI实验室大模型团队。目前小米AI领域相关研发人员超1200人。(阅读全文:界面新闻
    • 英特尔将与阿贡国家实验室携手,用 Aurora 超级计算机开发生成式 AI 模型 Aurora genAI,参数量将多达 1 万亿,计划 2024 年完成。(阅读全文:ZAKER新闻

    5月24日

    • 今天是微软的秀场,在2023年的微软开发者大会(5月23日~5月25日)中,微软宣布系列AI产品更新和功能集成:
      • 微软的 AI 驱动的 Copilot 助手即将登陆 Edge 浏览器。Edge 中的 Copilot 可帮助用户当前正在访问的任何网站作为上下文来完成其他地方的任务——例如在 Office 文档、Outlook 电子邮件和 Microsoft 365 Copilot 可以访问的其他任何地方。(阅读全文:The Verge
      • 微软宣布Windows Copilot,将把AI助手添加内置到Windows 11系统中,类似在 Edge、Office 应用程序甚至 GitHub 中看到的 Copilot 侧边栏一样,Windows Copilot 将直接集成到 Windows 11 中,并且可以从任务栏中打开和使用所有应用程序和程序。(阅读全文:The Verge
      • OpenAI 将开始使用必应作为 ChatGPT 的默认搜索体验。新的搜索功能将于今天向 ChatGPT Plus 用户推出,并将很快通过 ChatGPT 中的插件为所有免费的 ChatGPT 用户启用。(阅读全文:The Verge
      • 微软将为Microsoft 365 Copilot引入插件生态,微软执行副总裁透露将提供三种类型的 Microsoft 365 Copilot 插件:利用 OpenAI 的 ChatGPT 技术的插件、Teams 消息扩展和 Power Platform 连接器。(阅读全文:The Verge
      • 微软将把 Copilot 引入其 Power Pages 低代码网站创建工具中,用户只需输入文本提示,Copilot 便可以生成文本、表格、聊天机器人和网页布局,以及创建和编辑图像和网站设计主题。(阅读全文:TechCrunch
      • 微软正在其 Windows Terminal 应用程序中构建自然语言 AI ​​聊天机器人。即将推出的 GitHub Copilot Chat 体验将提供给 Windows Terminal 用户。(阅读全文:The Verge
      • 微软正在对 Microsoft Store(微软应用商店) 进行一项以 AI 为中心的重大改变:AI 生成的评论摘要将开始出现在整个 Microsoft Store 中,除了通常最高五颗星的评级之外,还会显示评论的主要概要。(阅读全文:The Verge

    5月23日

    • Adobe Photoshop 将引入其生成式人工智能 Firefly,让用户可以通过文字提示快速扩展图像、添加或删除对象。据悉,该工具将叫做 Generative Fill,Photoshop 也是 Adobe 首批使用 AI 图像生成器 Firefly 的创意云应用之一。(阅读全文:IT之家
    • Meta 公司推出了 Massively Multilingual Speech(MMS)开源项目,为 1100 多种语言提供了先进的语言转文本、文本转语音服务,且支持将近 4000 多种未标记的口语。(GitHub项目地址:MMS: Scaling Speech Technology to 1000+ languages
    • 歌手孙燕姿回应“AI孙燕姿”走红事件,称“在这无边无际的存在之海中,凡事皆有可能,凡事皆无所谓,我认为思想纯净、做自己,已然足够。”(阅读全文:IT之家
    • 近日在广州举行的 2023 百度智能云合作伙伴大会中,百度展示了“文心”大模型在场景应用、生态建设领域的最新进展,称目前已有 15 万企业申请参与内测,其中有超过 300 家生态伙伴在 400 多个具体场景已取得测试成效。(阅读全文:IT之家
    • 百度副总裁、元宇宙产品“希壤”负责人马杰于近日宣布离职,根据 36 氪最新消息,多个独立信源称,马杰已加入李开复成立的创新工场,担任副总裁一职,并成立了 AIGC(生成式 AI)企业“北京零一万物”。(阅读全文:36氪

    5月22日

    • 全球首个无广告隐私型搜索引擎 Neeva 宣布将于 6 月 2 日关闭其消费者搜索引擎业务,以此集中资源开发人工智能和大型语言模型。而在今年 1 月,该公司推出了 NeevaAI,通过生成式 AI 技术回答使用者的问题。(阅读全文:IT之家
    • 据平安包头微信公众号消息,近日,包头警方发布一起利用人工智能(AI)实施电信诈骗的典型案例,福州市某科技公司法人代表郭先生10分钟内被骗子利用AI换脸冒充其朋友诈骗430万元。(阅读全文:封面新闻

    5月21日

    • 近日来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN,只要点击拖拽鼠标就能让图片中的狮子张嘴、大象转身等。(阅读全文:量子位
    • 据TechCrunch报道,苹果公司将招聘至少十几名新的生成式人工智能(AI)专家。苹果的招聘启事于4月27日开始出现,最新的招聘启事是上周早些时候发布的,招聘的是一系列“热衷于打造非凡自主系统”的机器学习专家,目前招聘的职位为集成系统体验、输入体验NLP、机器学习研发和技术开发小组。(阅读全文:TechWeb
    • 据华硕官方消息,华硕子公司台智云近日在 AIHPCcon AI 超算年会上发布企业级大型语言模型“福尔摩斯大模型”。(阅读全文:IT之家
    • 据自动化软件公司 UiPath 近期进行的调查显示,大多数员工(约 60%)认为,使用人工智能(AI)驱动的自动化解决方案可以缓解职业倦怠,显著提高工作满意度。(阅读全文:IT之家
  • 14个AI生成PPT的工具和网站,智能制作精美的幻灯片

    演讲和展示幻灯片是当今办公和学习中的一个重要部分,无论你是提出一个新的想法,展示你的研究,或是培训课程,一个精心设计的PPT幻灯片和演示文稿可以使你的观众参与其中,并使你的信息深入人心。随着人工智能(AI)技术的不断进步,现在有很多AI生成PPT的工具,可以帮助你以最小的努力创造出视觉上令人惊叹的高效演示。在这篇文章中,我们将介绍14个免费的AI制作和生成PPT的软件和网站,辅助你创建精美幻灯片。

    AIPPT 生成工具

    1. AiPPT

    AiPPT是一款AI驱动的PPT在线生成工具,无需复杂操作,只需要输入主题,AI 即可一键生成高质量PPT。支持在线自定义编辑和文档导入生成,配置超10w+定制级PPT模板及素材,助力快速产出专业级PPT。

    AiPPT支持将Word文档等资料一键转换为PPT,已有文档能迅速转化为演示文稿,提高工作效率。AiPPT提供丰富的PPT模板,用户可选择不同的模板,AI还能帮用户一键更换模板。AiPPT还提供思维导图编辑功能,帮助用户整理思路,使PPT内容结构更加清晰。除此之外,还支持根据PPT内容自动推荐配图,用户可以从推荐的图片中选择,简化了寻找合适图片的过程。

    2. iSlide AI

    iSlide AI是由知名的PPT插件工具和模板平台iSlide推出的AI PPT生成和设计工具,旨在辅助用户更快、更高效地制作和优化PPT演示文稿。该工具利用人工智能技术,提供了一系列的功能,以简化和加速PPT的创建过程,同时提升演示文稿的专业度和吸引力。

    iSlide AI

    3. 比格AIPPT

    比格AIPPT是一款高效的AI PPT生成办公工具,利用先进的人工智能大模型技术,为用户提供了一个快速便捷的PPT制作体验。用户只需简单地输入想要探讨的主题,该智能软件便能迅速地创建出一套专业的演示文稿。此外,比格AIPPT还内置了一系列精心设计的PPT模板,用户可以轻松地通过一键操作来更换这些模板,以适应不同的演示场合和风格。会员可解锁更多高级功能,支持免费体验。

    比格AI PPT

    4. 笔灵AIPPT

    笔灵AIPPT是笔灵推出的一款在线智能PPT生成工具,通过AI技术帮助用户快速创建高质量的演示文稿。用户只需输入主题内容,系统可自动生成PPT大纲,进一步生成完整的PPT和千字演讲稿。支持多种场景,如工作汇报、商业计划等,并提供安全存储及加密传输,确保用户信息安全。

    笔灵AIPPT

    5. Gamma App

    Gamma是一个在线网页版创建演示文稿的工具,用户可以最少的格式化和设计工作来创建和展示内容。在人工智能的支持下,Gamma允许用户仅通过输入文本和想法提示,点击按钮便可以生成设计美观和具有吸引力的幻灯片。

    在Gamma的帮助下,创建演示文稿制作幻灯片变得更快、更简单,而且比使用传统软件更有效率。该AI生成PPT软件旨在通过视觉和互动内容将想法变为现实,从而吸引任何设备上的受众,支持嵌入各种多媒体格式,包括GIF、视频、网站和图表,使观众更容易理解复杂的想法。

    Gamma AI PPT

    6. 文多多AiPPT

    文多多AiPPT是基于人工智能技术帮助用户快速制作演示文稿的工具。通过一键生成功能,让用户只需输入主题或标题,可自动创建专业PPT。文多多AiPPT拥有丰富的模板库,满足不同行业和场合的需求,同时也支持自定义模板,适应个性化需求。还能整合用户上传的文本、图片和数据表等资料,智能排版生成动画效果,使演示更加生动。文多多AiPPT的智能扩缩写功能,能根据需求调整文案长度,AI文生图功能则能一键配图,增强视觉效果。适合商务人士、教育工作者和设计师等,旨在提高工作效率和演示质量。

    wenduoduo

    7. ChatPPT

    ChatPPT是必优科技旗下面向PPT使用者提供的AI生成PPT软件,产品基于ChatGPT与韦尼克模型,面向PPT用户提供可通过自然语言指令与Chat模式进行PPT文档创作的AI创作服务。

    该产品已于3月15日进行全网公测,可申请加入公测,目前版本分为在线体验版和Office插件版:

    • 在线体验版,即在线体验AI生成PPT服务。
    • Office插件版,即基于微软Office与WPS提供完整的AI生成PPT的功能,包括AI生成PPT、AI指令美化与设置PPT,包括AI绘图配图、AI图标、文字云图等各类常见PPT文档操作。

    ChatPPT

    8. 美图AI PPT

    美图AI PPT是国内知名P图软件「美图秀秀」旗下的「美图设计室」推出的免费在线AI生成PPT设计工具,用户只需输入一句话,便可以轻松打造精美PPT。无论是什么类型风格的PPT,美图AI都可以帮你打造,如行业分析、工作汇报、创意设计方案、企业团建策划、部门工作总结等。

    美图AI PPT

    9. ChatBA

    ChatBA是一个强大的人工智能驱动的AI PPT生成工具,用于自动生成幻灯片。该工具使用OpenAI的API,根据用户提供的提示或主题快速生成幻灯片。你可以用该工具为不同的行业,如商业演讲到书籍和房地产市场等各种主题生成幻灯片。你还可以用ChatBA来为用户可能不了解的主题或时间紧迫的演示创建幻灯片,最终的呈现结果是专业级的简约大气设计的幻灯片。

    10. Tome

    Tome是一个利用人工智能来生成引人注目的演示幻灯片的网站,通过借助OpenAI的GPT和DALL-E 2的AIGC技术,该AI PPT生成工具将文本和图像无缝结合,创造出动态的视觉故事。通过Tome AI简单直观的操作和创建过程,用户可以轻松地用任何类型的内容制作引人入胜的演示文稿。在Tome网站上注册一个账户就可以使用这一创新工具,该平台是高度可定制化的,用户能够用表格、动画、图像等功能丰富他们的演示。

    Tome AI生成PPT

    11. Decktopus AI

    Decktopus是一个AI驱动的的在线PPT生成器,该AI生成PPT工具易于使用、操作直观,提供自动幻灯片布局和交互式表格等功能,只需要几分钟,用户便可以创建出效果令人惊叹的演示文稿。

    使用Decktopus制作PPT非常简单,只需选择一个Decktopus提供的演示文稿模板,然后输入你的内容和文本,Decktopus会自动调整你的内容、设计并为你做一切。你可以在线分享制作好的演示文稿,把带有演示文稿的链接发给你的观众或感兴趣的人,也可以PDF或者PPT格式分享和导出。

    Decktopus AI PPT

    12. Beautiful.AI

    Beautiful.AI是一个创新的由人工智能驱动的PPT工具,可以帮助你在没有任何设计经验的情况下设计出具有视觉吸引力的幻灯片。通过利用人工智能技术,Beautiful.AI可以根据你的内容自动生成幻灯片布局,让你快速、轻松地创建专业外观的演示文稿。

    Beautiful.AI 是一个基于云的工具,这意味着你可以从任何地方和任何设备上访问你的演示文稿。该平台提供了专家设计的60多个可定制的高质量智能模板库,选择模板和输入内容后,Beautiful.AI的人工智能算法会根据你的内容建议最佳的布局、配色方案和字体,确保你的演示文稿看起来精巧而专业。

    Beautiful.ai

    13. 歌者AI

    歌者AI是知名的彩漩PPT插件推出的AI PPT生成工具,只需输入一个主题,歌者 AI 将为你打造出一份具有吸引力、专业水准的 PPT,彻底告别枯燥、繁琐的 PPT 制作过程。

    用户可以通过两种方式来使用歌者AI:一是直接访问歌者 AI 网站,无需安装,立即使用,一次点击即可生成 PPT。二是在 PowerPoint 软件中安装「彩漩 PPT」加载项,即可在 PowerPoint 侧边栏召唤歌者 AI 助手。只需输入一个主题,歌者 AI 就能为你快速打造出一份图文并貌的 PPT 初稿。所有的内容都是可编辑的,你可以立即修改优化,高效的完成创作。

    歌者AI

    14. Powerpresent AI

    Powerpresent AI是知名AI写作工具Yaara推出的一款AI PPT工具,可以帮助用户快速创建具有视觉吸引力的演示文稿和幻灯片。用户不需要设计或人工智能专业知识,只需输入主题或文本,其余的交由人工智能技术来完成。支持导出到Google Slides或下载为PPTX文件,以方便编辑和演示。

    Powerpresent AI PPT

  • AI快讯:5月第2期(5月11日到5月20日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为5月第2期(5月11日到5月20日)的AI行业新闻集合。

    AI快讯5月第2期

    5月20日

    • 国家超算天津中心重磅发布了立足国产天河超级算力和智能算力打造的“天河E级智能计算开放创新平台”和“天河天元大模型”。(阅读全文:天津政务网

    5月19日

    • 重磅!ChatGPT 官方 iOS 版本应用上线!今天凌晨,OpenAI 正式在 App Store 推出了 ChatGPT 的 iOS app,但目前仅在美区 App Store 提供。(商店地址:https://apps.apple.com/app/openai-chatgpt/id6448311069)
    • 根据外媒报道和知情人士透露,苹果公司已经限制使用 ChatGPT 和其他外部人工智能 (AI) 工具,该公司正在开发自主类似技术。文件显示,苹果担心使用这类 AI 程序的员工可能会泄露机密数据。苹果还告诉员工,不要使用微软旗下代码托管平台 GitHub 的 Copilot,后者可以自动编写软件代码。(阅读全文:IT之家

    5月18日

    • StabilityAI 推出文生图工具 DreamStudio 的开源版本 StableStudio,其目标是与更广泛的社区合作,为用户完全控制的生成式人工智能创建一流的用户界面。(阅读全文:StabilityAI博客
    • 谷歌宣布了 Google Colaboratory(Colab)将加入全新的 AI 编码功能,该功能由全新的「文生代码」模型 Codey 提供支持,支持 20 多种编码语言,包括 Go、谷歌标准 SQL、Java、Javascript、Python 和 Typescript 等。(阅读全文:IT之家
    • 用户现在可以在不登录微软账号的情况下,使用必应聊天(Bing Chat)了。但有个限制是,用户每轮话题最多展开 5 次会话,而已登录用户可以达到 20 次。(阅读全文:IT之家
    • 云从科技发布「从容大模型」,在现场演示中,从容大模型可支持图文理解、文案写作、逻辑推理、多轮对话、编程、事实问答等功能。(阅读全文:界面新闻

    5月17日

    • OpenAI 首席执行官山姆·奥特曼首次在美国国会就人工智能技术的潜在危险参加听证会,奥特曼呼吁政府对生成式人工智能进行监管和干预。(阅读全文:量子位
    • 百度旗下的「小度」宣布将推出全新品牌「小度青禾」旗下首款产品——小度青禾学习手机,一款专为青少年打造的学习手机。该学习手机将搭载 AI 学习大模型,可实现AI拍照讲题、中英文AI作文专业辅导、AI口语练习等。(阅读全文:封面新闻
    • 知名会议办公软件 Zoom 向 Anthropic (OpenAI的强劲对手)投资,并将把 Anthropic 的 AI助手 Claude 与 Zoom 集成。(阅读全文:The Verge
    • 科大讯飞在互动平台表示,针对大模型普遍存在的问题,星火大模型有明确的升级迭代里程碑计划,称目前国内大模型厂商中提出追赶 ChatGPT 明确时间表的只有该公司一家。(阅读全文:IT之家

    5月16日

    • 金山办公今日宣布,WPS AI 将把大模型(LLM)能力嵌入四大组件:表格、文字、演示、PDF,支持桌面电脑和移动设备。(阅读全文:IT之家
    • 360与智谱 AI 达成战略合作,共同研发千亿级大语言模型 360GLM,360 官方称该模型已具备新一代认知智能通用模型水准。(阅读全文:IT之家
    • 小冰公司宣布启动“GPT克隆人计划”,首批限制300个名额,最短只要采集三分钟数据,即可创造源于本人性格、技能、声音、外貌的AI克隆人。(新闻来源:36氪

    5月15日

    • Midjourney AI 微信公众号消息,Midjourney 官方中文版已经开启内测申请,其将搭载在 QQ 频道上,每周一、周五下午 6 点统一开放,达到一定人数后会关闭入口。(阅读全文:IT之家

    5月14日

    • 据《韩国经济新闻》,韩国两大科技巨头 —— 三星电子和 Naver 公司 —— 达成了一项合作协议,共同开发一款生成式人工智能平台,用于企业应用,以与全球的 AI 工具如 ChatGPT 等竞争。(阅读全文:IT之家
    • AI 冒充英国著名男星“卷福”本尼迪克特·康伯巴奇向西班牙一小电影公司电话,称对电影剧本感兴趣想合作,但经几次邀约见面,康伯巴奇都拒绝了,甚至还提出要该公司先给他打款20万英镑。(阅读全文:封面新闻

    5月13日

    • 重磅!OpenAI 发推文称,将在下周向所有ChatGPT Plus 用户开放联网功能和众多插件!从Alpha 到 Beta,将允许ChatGPT 访问互联网并使用70多个第三方插件。(阅读全文:华尔街见闻
    • 第十四届华语科幻星云奖在广汉三星堆揭晓。颁奖典礼前,著名科幻作家刘慈欣接受了澎湃新闻采访,谈及对当下人工智能发展的看法,称「AI时代一定会来,但更应关注当下」。(采访视频:澎湃新闻
    • 国内 AI 公司云知声宣布将于 5 月 24 日召开云知声山海大模型暨成果发布会,还将发布基于山海大模型的智慧医疗、智慧物联和企业服务的产品与解决方案。(阅读全文:IT之家

    5月12日

    • 被称为 ChatGPT 最强对手的 Claude 迎来史诗级更新,将模型的上下文窗口token数提到了足足10万,相当于7.5万个单词!这意味着即使直接丢给它上百页上万字的材料,比如财报、技术文档甚至是一本书,而它都能在一分钟之内帮你分析总结完毕!(阅读全文:量子位
    • HuggingFace 推出 Transformers Agents,可以控制 10 万多个 Hugging Face 模型完成各种多模态任务。(阅读全文:机器之心
    • 在近日举行的业绩说明会上,软银公司 CEO 宫川润一宣布,该公司已于今年 3 月成立新的实体,并招募了近 1000 名员工参与研发“类 ChatGPT 产品”。(阅读全文:ZAKER新闻
    • 科大讯飞发布投资者关系活动记录表,针对关于“讯飞星火大模型”的争议,科大讯飞回复称:“谣言说讯飞星火大模型‘套壳 OpenAI 的 ChatGPT”不符合事实,也不符合逻辑。(阅读全文:ZAKER新闻
    • DLsite 的运营商 GEO 控股宣布禁止上传和销售使用 Midjourney 、 Stable Diffusion 等 AI 艺术工具生成的插图。在 PixivFANBOX 等网站做出类似决定之后,这是最新引入此类禁令的用户生成内容平台。(阅读全文:IT之家

    5月11日

    • Google I/O 开发者大会召开,会上 Google 发布和展示了一系列 AI 产品和研究,包括对抗 GPT-4 的 PaLM2大模型、Bard 升级和取消等候列表、Duet AI for Workspace、生成式 AI 加持的搜索引擎、AI 笔记本项目Project Tailwind等。(阅读全文:爱范儿
    • 大型插画网站 Fanbox 的运营商 PixivFANBOX 宣布禁止上传和销售使用 Midjourney 、 Stable Diffusion 等 AI 艺术工具生成的插图。正式生效日期和由 AI 生成的作品的定义将在以后公布。(阅读全文:IT之家
    • DeepMind 的联合创始人、前谷歌 AI 产品与政策副总裁 Mustafa Suleyman 近日在加州湾区的一场投资论坛上演讲时警告称,AI 将在未来十年严重威胁到白领阶层的生存,并带来“大量的失败者”。(阅读全文:IT之家
  • 重磅!百度今日上线搜索AI伙伴,用户可免费进行对话、AI绘画和其他内容创作

    百度今日上线搜索AI伙伴,用户可免费进行对话、AI绘画和其他内容创作,百度搜索AI伙伴是百度最新上线的基于文心大模型的AI搜索对话工具,目前处于免费测试中。申请了文心一言测试的用户可在桌面端百度网站或移动端的百度APP点击右上角的AI图标,即可进入AI聊天界面,或直接访问chat.baidu.com,使用前需要登录百度账号,且该账号需要与申请文心一言的账号一致。

    百度搜索AI伙伴

    除开进行AI对话以外,百度还提供了一个灵感中心,包括AI绘画、AI创作、AI趣味、AI职场效率工具、命理情感等。

    百度AI灵感中心

  • 什么是LoRA?一文读懂低秩适应的概念、原理、优缺点和主要应用

    近年来自然语言处理(NLP)的进步很大程度上是由越来越强大的语言模型推动的,比如 OpenAI 的 GPT 系列大语言模型。然而,这些模型的训练不仅在计算上很昂贵,而且还需要大量的数据、能量和时间。因此,研究人员一直在探索更有效的方法来微调这些预训练模型,使其适应特定的任务或领域,而不会产生重新训练的全部成本。

    其中一种方法便是低秩适应(Low-Rank Adaptation, LoRA),这种技术允许更快、更有效地将大型语言模型适应特定的任务或领域。本文将概述LoRA是什么、主要组成、工作原理、优点和局限性,以及它的潜在应用。

    LoRA低秩适应

    LoRA是什么?

    LoRA的英文全称是Low-Rank Adaptation,中文翻译为“低秩自适应”,是一类旨在通过用低维结构近似大型模型的高维结构来降低其复杂性的技术。在语言模型的上下文中,这意味着创建一个更小、更易于管理的原始模型表示,它仍然可以很好地执行特定的任务或领域。

    低秩适应背后的思想是,对于许多任务,大型模型的高维结构可能包含冗余或不相关的信息。通过识别和删除这种冗余,我们可以创建一个更有效的模型,保留其原始性能,但需要更少的资源来培训和部署。

    LoRA的主要组成部分

    LoRA是一种特殊的技术,用于使用低秩近似使预训练的语言模型适应新的任务或领域。它包括在预训练模型的权重矩阵中添加一个低秩矩阵,使模型能够更有效地学习特定于任务的信息。

    LoRA的主要组成部分包括:

    • 预训练语言模型:一种大规模的语言模型,如GPT或BERT,它已经在不同的任务和领域集上进行了训练。
    • 低秩适应层:在预训练模型的权重矩阵上添加一个低秩矩阵,可以在微调过程中更新以学习特定任务的信息。
    • 微调过程:更新低秩自适应层以最小化特定任务或领域上的损失的过程。

    LoRA背后的主要思想是利用预训练模型的一般知识,同时有效地学习新任务或领域所需的特定信息。

    LoRA的工作原理

    LoRA 通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型。该低秩自适应层初始化随机值,并在微调过程中更新。LoRA 适应过程的关键步骤如下:

    • 初始化:从一个预训练的语言模型开始,并在其权重矩阵中添加一个低秩适应层。该层由一个低秩矩阵表示,该矩阵初始化为随机值。
    • 微调:在新的任务或领域上训练模型,只更新低秩适应层,同时保持预训练模型的权重固定。这允许模型在不改变其一般知识的情况下有效地学习特定于任务的信息。
    • 预测:使用经过调整的模型对来自目标任务或领域的新的、未见过的数据进行预测。

    通过将适应过程集中在低秩矩阵上,LoRA实现了更有效的微调,与全面微调相比,减少了计算和内存开销。

    LoRA的优点和局限性

    LoRA的优点

    • 效率:LoRA可以更快、更高效地对大型语言模型进行微调,因为它只需要更新低秩适应层,而不是整个模型。
    • 节省资源:通过降低微调过程的复杂性,LoRA可以帮助节省计算资源、能源和时间。
    • 灵活性:LoRA可以应用于各种大规模语言模型,例如GPT或BERT,并且可以很容易地适应不同的任务或领域。
    • 性能:尽管降低了复杂性,但与全面微调相比,LoRA可以实现具有竞争力的性能,使其成为许多应用程序的可行替代方案。

    LoRA的局限性

    • 近似误差:使用低秩矩阵近似原始模型的高维结构可能会引入一些近似误差,从而影响模型在某些任务上的性能。
    • 特定于任务的性能:虽然LoRA可以在许多任务上实现有竞争力的性能,但它的性能可能不是所有任务或领域的最佳性能,特别是那些需要细粒度理解或与预训练模型的训练分布有很大不同的任务或领域。
    • 可伸缩性:尽管LoRA降低了微调的复杂性,但对于非常大的模型或适应大量的任务或领域时,它可能仍然需要大量的资源。

    LoRA的应用场景

    LoRA具有各种潜在的应用场景,特别是在需要对大型语言模型进行资源高效适应的情况下。一些例子包括:

    • 领域适应:将预训练的语言模型适应于特定领域,例如医学或法律文本,以提高其在特定领域任务上的性能。
    • 任务适应:针对特定任务微调预训练的语言模型,例如情感分析、机器翻译或问答。
    • 迁移学习:利用预训练模型在一项任务中学习到的知识来提高在另一项相关但不同的任务中的表现。
    • 多任务学习:调整预训练的模型,使其能够同时执行多个任务,从而更有效地利用计算资源。

    LoRA为有效地适应大型语言模型提供了一种很有前途的方法,支持对广泛的任务和领域进行更快、资源更高效的微调。随着NLP社区继续推动大语言模型的边界,像LoRA这样的技术将在使这些模型更易于访问和实际应用方面发挥关键作用。

  • AI快讯:5月第1期(5月1日到5月10日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为5月第1期(5月1日到5月10日)的AI行业新闻集合。

    AI快讯5月第一期

    5月10日

    • Meta 公司发布了一个新的开源人工智能模型 ImageBind,该模型能够将多种数据流,包括文本、音频、视觉数据、温度和运动读数等整合在一起。(阅读全文:IT之家
    • IBM 在年度 Think 会议上公布了企业级生成式人工智能和数据平台「IBM watsonx」。该平台包括新一代AI平台「watsonx.ai」、基于开放式Lakehouse架构搭建的数据仓库「watsonx.data」,以及AI治理工具包「watsonx.governance」三个产品集。(阅读全文:36氪
    • 知名流媒体音乐服务商 Spotify 删除了数万首由人工智能创业公司 Boomy 生成的歌曲,希望通过加大审查力度来回应日益严重的流量欺诈等问题。(阅读全文:36氪

    5月9日

    • 根据 SimilarWeb 统计,ChatGPT 上月(4 月份)全球访问量再创新高,达到 17.6 亿次,已超越必应、DuckDuckGo 等其他国际搜索引擎,并达到谷歌的 2%,百度的 60%。目前排在其前面的除了谷歌,只剩下中国的百度和俄罗斯的 Yandex。(阅读全文:IT之家
    • 继文本生成图片模型 DALL・E 之后,OpenAI 近日再次发布了 Shap・E 模型。用户可以输入文本,用于创建逼真且多样化的 3D 模型。(阅读全文:IT之家
    • 抖音发布关于人工智能生成内容的平台规范暨行业倡议。针对创作者、主播、用户、商家、广告主等平台生态参与者在抖音应用生成式人工智能技术的情况,抖音均做出了相关规范。(阅读全文:界面新闻
    • “LSTM之父” Jürgen Schmidhuber 谈AI威胁论,他认为 AI 将发展到超越人类智力的地步,将不会对人类产生大的兴趣,而人类将继续受益并使用 AI 开发的工具,呼吁暂停AI是一种误导。(阅读全文:36氪
    • 百度上线搜索AI伙伴,用户可免费进行对话、AI绘画和其他内容创作,百度搜索AI伙伴是百度最新上线的基于文心大模型的AI搜索对话工具,目前处于免费测试中。申请了文心一言的用户可在桌面端百度网站或移动端的百度APP点击右上角的AI图标,即可进入AI聊天界面,或直接访问chat.baidu.com。

    5月8日

    • 视觉中国旗下网站 vcg.com 上线AIGC新功能——基于生成式AI技术的创意工具。用户可通过使用AI创意工具——模特转换、插画转换功能在线对版权图片进行二次创作,从而获得更好的用户体验与更高的工作效率。但目前AI创意工具还属于Beta版本,仅对部分签约客户开放。(阅读全文:视觉中国公众号
    • 利欧数字宣布通过开源生态、合作开发、自主研发等多种模式,推出面向营销全行业的 AIGC 生态平台「LEO AIAD」,并与奥创光年达成合作,将人工智能对生产力的优化能力,从图文进一步扩展至视频内容的创作。(阅读全文:IT之家
    • 奇绩创坛创始人兼CEO、前微软全球执行副总裁的陆奇出席奇绩创坛北京分享会,并发表名为《新范式 新时代 新机会》的主题演讲,围绕 OpenAI 的横空出世进行了深入分析,陆奇指出,大模型领域发展机会巨大,全球唯二,要奋起直追。(阅读全文:品玩

    5月7日

    • 华为披露其「昇腾AI」迄今已发展 1100 多家伙伴,基于昇腾已孵化和适配 30 多个主流大模型,目前有 25 个城市基于昇腾构建人工智能计算中心,其中 14 个已经上线并饱和运行。(阅读全文:ZAKER新闻
    • 淘云科技推出的国内首个儿童认知大模型——阿尔法蛋儿童认知大模型正式发布。基于该模型打造的阿尔法蛋儿童GPT机器人精彩亮相,为孩子在练表达、塑情商、启创造、助学习等方面带来全新交互体验。(阅读全文:界面新闻
    • 亚马逊计划用 ChatGPT 技术改造 Alexa,提升语音助手的智能性和趣味性。(阅读全文:IT之家
    • 据《华尔街日报》报道,一份谷歌内部的泄露文件显示,谷歌计划用人工智能(AI)改造搜索引擎,让搜索结果更加“个性化”、“多样化”和“视觉化”,这些变化预计将在今年推出。(阅读全文:IT之家
    • AI 技术的发展引起了众多人的关注和担忧,其中就包括了著名投资家、伯克希尔・哈撒韦公司的 CEO 沃伦・巴菲特。在该公司在内布拉斯加州奥马哈市举行的年度会议上,巴菲特将强大的 AI 技术比作原子弹,认为它可能给人类带来灾难性的后果。(阅读全文:IT之家

    5月6日

    • 讯飞星火认知大模型成果发布会在安徽合肥如期举行。科大讯飞董事长刘庆峰、研究院院长刘聪发布讯飞星火认知大模型,现场实测大模型七大核心能力,并发布教育、办公、汽车、数字员工四大行业应用成果。(阅读全文:IT之家
    • 英伟达近日发布新闻稿,展示了全新的纹理压缩算法 Neural Texture Compression(NTC)。使用该算法相比较块压缩算法,可以将视频分辨率提高 4 倍,显存消耗减少 30%。(阅读全文:IT之家

    5月5日

    • 谷歌于今天宣布扩大 Trusted Tester 测试规模,扩大 10 倍,邀请更多用户参与测试Google Workspace的AIGC功能。用户可以点击“Labs in Google Workspace”加入,不过目前依然仅限于美国用户。(阅读全文:IT之家
    • 消息称微软正在与 AMD 合作,共同开发人工智能处理器,以保障人工智能处理器芯片的供应。在合作中,微软为 AMD 提供了资金支持,同时双方正在合作开发代号“雅典娜”、微软自研的人工智能处理器。(阅读全文:IT之家
    • 36氪报道,学而思正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心,目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。(新闻来源:36氪
    • 网易有道发布了基于“子曰”大模型研发的AI口语老师剧透视频,根据视频内容,网易有道AI口语老师不仅能提供灵活的练习场景,还可以根据用户需求扮演多种角色,循循善诱引导用户进行多轮对话。(阅读全文:品玩

    5月4日

    • 重磅!微软宣布 New Bing 聊天现已正式进入开放预览模式,任何人都可以使用。不用排队、不用安装插件、不用下载测试版的浏览器,现在使用 Bing Chat 只需 3 步:打开 Edge 浏览器、进入 Bing.com、点击顶部「聊天」按钮。(阅读全文:爱范儿
    • AI 作图工具 Midjourney 近日发布了最新的 5.1 版本,宣称能够为用户带来更高质量、更有个性的 AI 艺术作品。(阅读全文:IT之家
    • 国产在线设计工具“即时设计”宣布旗下的 AI 设计工具「即时AI」从今日起开始全面开放测试,不再需要内测码,人人都可以体验该 AI 设计工具。(阅读全文:即时设计公众号全文

    5月3日

    • 三星本周推出了一项新政策,要求员工不得在工作场所使用 OpenAI 的 ChatGPT 和谷歌 Bard 等生成式人工智能。(阅读全文:ZAKER新闻
    • 谷歌旗下人工智能子公司 DeepMind CEO 戴米斯・哈萨比斯 (Demis Hassabis) 周二表示,通用人工智能 (AGI) 或许在几年内就可以实现。(阅读全文:IT之家
    • 人工智能(AI)在好莱坞的应用越来越广泛,让好莱坞的编剧们感到了前所未有的威胁,他们担心 AI 会侵犯他们的创意和版权,甚至取代他们的工作。为了保护自己的利益,他们于本周一发起了罢工行动,要求限制 AI 在编剧领域的使用。(阅读全文:IT之家

    5月2日

    • 重磅!图灵奖获得者、深度学习之父 Geoffrey Hinton 从谷歌离职,Hinton 在4月份提出了辞职,以便畅所欲言地谈论人工智能的风险,在媒体的采访中,Hinton 甚至表示对自己毕生的工作感到后悔。(阅读全文:IT之家
    • 谷歌的一名前 AI 工程师日前爆料,该公司曾经开发出一款能够自主思考的人工智能对话系统,但后来因为担心其安全性而将其删除。他还称,谷歌目前还有更先进的人工智能技术没有公开。(阅读全文:IT之家
    • 消息称,微软 Azure 云服务部门计划销售一个在专用云服务器上运行的 ChatGPT 版本,其数据将与其他客户数据分开保存,类似“私有版”ChatGPT,但价格可能是常规版的 10 倍。(阅读全文:IT之家

    5月1日

    • 微软 Edge 浏览器正在进一步推广其 Bing Chat 聊天机器人,在最新的 Canary 版本中,这一功能已集成到了右键菜单。用户将可通过在 Edge 浏览器中用鼠标划词,然后在右键菜单中选择“Ask Bing Chat”,即可将划词内容发送给聊天机器人。(阅读全文:IT之家
  • 什么是RLHF基于人类反馈的强化学习? – AI百科知识

    基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)是人工智能(AI)领域的一个新兴研究领域,它将强化学习技术与人类反馈相结合,以训练能够学习复杂任务的个体。该方法在提高人工智能系统的性能方面显示出前景,使其在各种应用中更具有适应性和效率。

    RLHF基于人类反馈的强化学习

    强化学习

    在了解RLHF之前,我们需要先知道什么是RL,强化学习(RL)是一种机器学习,在这种学习中,个体(Agent)通过与环境的互动来学习做决定。个体采取行动以实现一个特定的目标,根据其行动接受奖励或惩罚形式的反馈。随着时间的推移,个体学会了做出决策的最佳策略,以使其收到的累积奖励最大化。

    阅读更多:什么是强化学习Reinforcement Learning?定义、概念、应用和挑战

    基于人类反馈的强化学习

    RLHF是一个将强化学习与人类反馈相结合的框架,以提高个体(Agent)在学习复杂任务中的表现。在RLHF中,人类通过提供反馈参与学习过程,帮助个体更好地理解任务,更有效地学习最优策略。将人类反馈纳入强化学习可以帮助克服与传统RL技术相关的一些挑战。人的反馈可以用来提供指导,纠正错误,并提供关于环境和任务的额外信息,而这些信息可能是个体(Agent)自己难以学习的。一些可以纳入RL的人类反馈的方式包括:

    • 提供专家示范: 人类专家可以示范正确的行为,个体可以通过模仿或利用示范与强化学习技术相结合来学习。
    • 塑造奖励功能: 人类的反馈可以用来修改奖励功能,使其更有信息量,并与期望的行为更好地保持一致。
    • 提供纠正性反馈: 人类可以在训练期间向个体提供纠正性反馈,使其从错误中学习并改善其表现。

    RLHF的应用

    RLHF已在不同领域的各种应用中显示出前景,如:

    • 智能机器人: RLHF可以用来训练机器人系统,使其以高精确度和高适应性完成复杂的任务,如操纵、运动和导航。
    • 自动驾驶: RLHF可以通过纳入人类对驾驶行为和决策的反馈,帮助自主车辆学习安全和高效的驾驶策略。
    • 医疗保健: RLHF可以应用于训练人工智能系统,用于个性化的治疗计划、药物发现和其他医疗应用,在这些方面人类的专业知识是至关重要的。
    • 学习教育: RLHF可用于开发智能辅导系统,以适应个体学习者的需求,并根据人类的反馈提供个性化的指导。

    RLHF的挑战

    • 数据效率: 收集人类的反馈意见可能很费时和昂贵,因此,开发能够在有限的反馈意见下有效学习的方法很重要。
    • 人类的偏见和不一致:人类的反馈可能容易出现偏见和不一致,这可能会影响个体的学习过程和表现。
    • 可扩展性: RLHF方法需要可扩展到高维的状态和行动空间,以及复杂的环境,以适用于现实世界的任务
    • 奖励的模糊性: 设计一个能准确代表所需行为的奖励函数是很有挑战性的,尤其是在包含人类反馈的时候。
    • 可转移性: 经过RLHF训练的个体应该能够将他们学到的技能转移到新的任务、环境或情况中。开发促进转移学习和领域适应的方法对于实际应用是至关重要的。
    • 安全性和稳健性: 确保RLHF个体是安全的,对不确定性、对抗性攻击和模型的错误规范是至关重要的,特别是在安全关键的应用中。

    基于人类反馈的强化学习(RLHF)是一个令人兴奋的研究领域,它结合了强化学习和人类专业知识的优势,以训练能够学习复杂任务的人工智能个体。通过将人类反馈纳入学习过程,RLHF有可能提高人工智能系统的性能、适应性和效率,包括机器人、自动驾驶汽车、医疗保健和教育等各种应用。

  • AI快讯:4月第3期(4月21日到4月30日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为4月第3期(4月21日到4月30日)的AI行业新闻集合。

    4月21日到4月30日的AI快讯

    4月30日

    • 米哈游《崩坏:星穹铁道》网页活动 —— 「无尽的三月七」上线,「无尽的三月七」基于米哈游自研的 AIGC 工具“模因共振机”,能够将所有图片转化《崩坏:星穹铁道》的主角之一的“三月七”。(阅读全文:IT之家

    4月29日

    • Stablility AI 发布了首个基于 RLHF 的开源LLM聊天机器人——StableVicuna,基于 Vicuna-13B 模型实现,是第一个使用人类反馈训练的大规模开源聊天机器人。(阅读全文:Stability AI Blog
    • OpenAI 发言人称,ChatGPT 在意大利恢复使用(阅读全文:IT之家
    • 据 TechCrunch 报道,OpenAI 最新一轮融资 3 亿美元,由老虎环球、红杉资本、A16Z、Thrive、K2 Global和Founders Fund等多家头部风险投资机构合力买入,最新估值为 270 亿至 290 亿美元。(阅读全文:36氪
    • 国内互联网医疗平台「医联」近日宣布研制国内大模型驱动的AI医生——medGPT。医联方面称,这款“医生版GPT”目前已经拥有近3000种疾病的首诊能力,覆盖80%以上的成年人疾病和90%以上的0-12岁儿科疾病。目前这款产品正在内部测试阶段,计划在5月份正式发布。(阅读全文:封面新闻

    4月28日

    • Andrew Ng 吴恩达联手 OpenAI 在其创建的 DeepLearning.AI 学习平台上线了限时免费的ChatGPT课程:《ChatGPT Prompt Engineering for Developers》,课程时长1个多小时,主要面向开发人员。(阅读全文:机器之心
    • 微软 AI 设计工具 Microsoft Designer 开启公测,支持 Edge 浏览器侧边栏。该工具于 2022 年 10 月首次发布,是一款由生成式 AI 功能提供支持的新设计工具。(阅读全文:IT之家

    4月27日

    • 近日一位名叫 Santiago 的工程师,将 ChatGPT 和波士顿动力公司的机器狗 Spot 结合起来,让这只机器狗能够用语音和人类交流。(阅读全文:IT之家
    • 谷歌下场优化扩散模型,在 GPU 驱动的设备上运行 Stable Diffusion 1.4 ,达到 SOTA 推理延迟性能(在三星 S23 Ultra 上,通过 20 次迭代生成 512 × 512 的图像仅需 11.5 秒)(阅读全文:机器之心

    4月26日

    • 国外知名人工智能社区HuggingFace上线了类似ChatGPT的聊天机器人「HuggingChat」,目前V0版本是由「Open Assistant」 LLaMA-30B的模型驱动。
    • 第四范式首次向公众展示了大模型产品「式说」3.0 版,并提出 AIGS 战略(AI-Generated Software):以生成式 AI 重构企业软件。(阅读全文:搜狐新闻
    • OpenAI 今日宣布,计划为 ChatGPT 引入一个新的订阅等级,名为 ChatGPT Business,专为满足企业客户的需求而定制。(阅读全文:IT之家

    4月25日

    • 国外知名社交平台Snapchat,宣布将对所有用户开放其基于Open AI 最新版 GPT技术的「My AI」聊天机器人并免费使用。(阅读全文:36氪
    • 「作业帮」举办学习机新品发布会,宣布已成为教育智能硬件行业出货量第一,并推出行业首款AI老师一对一学习机,开创学习机品类新模式。(阅读全文:机器之心
    • 微软支持的科技倡导组织商业软件联盟(BSA)公开发文,呼吁在美国隐私立法基础上制定管理人工智能使用的规则。(阅读全文:IT之家
    • 文心一言推出了内测专用独立 App,目前仅提供安卓版(点此进入下载页面)。(阅读全文:IT之家

    4月24日

    • 继Meta推出的SAM(Segment Anything Model)图像分割模型后,华人团队推出SEEM模型,该模型使用不同种类的提示,视觉提示(点、标记、框、涂鸦和图像片段)、以及语言提示(文本和音频)轻松分割图像。(阅读全文:IT之家
    • 俄罗斯联邦储蓄银行(Sberbank)将加入人工智能聊天机器人大战,宣布已发布了一项名为 GigaChat 的技术,与 ChatGPT 竞争。(阅读全文:IT之家
    • 三星向 Galaxy S23 系列手机发布了 Galaxy Enhance-X 照片编辑应用,该应用程序是一个“照片放大和编辑器”,使用AI 为图像添加 HDR、变亮、修复模糊、锐化、修复摩尔纹、去除反射或阴影、修复镜头失真等。(阅读全文:IT之家
    • Meticulous Research的研究报告称,预计到 2030 年,AI 在零售市场中的价值将达到 578 亿美元。

    4月23日

    • 国内知名思维导图软件Xmind宣布推出「Xmind Copilot」 AI 思维导图助手,目前在内测当中,感兴趣的用户可加入等待列表。(公众号介绍全文:Xmind Copilot:生产力真的来了!!
    • 微软总裁布拉德・史密斯(Brad Smith)在东京接受日经亚洲评论的采访时表示,中国的研究机构和企业将成为 ChatGPT 的重要竞争者,称中国在生成式人工智能的发展方面不会落后于美国科技巨头。(阅读全文:IT之家
    • 全球最大的编程开发问答网站 Stack Overflow 宣布,计划在今年年中向 AI 算法开发人员收费,训练数据将不再免费。(阅读全文:ZAKER新闻

    4月21日

    • 复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线,成为国内首个插件增强的开源对话大语言模型。MOSS 相关代码、数据、模型参数已在 GitHub 和 Hugging Face 等平台开放,供科研人员下载。(阅读全文:OSChina
    • IT之家报道,阿里云通义千问 AI 大模型即将接入天猫精灵,天猫精灵已开启相关内测招募,拥有任意天猫精灵音箱设备即可参与报名,时间为 4 月 13 日至 12 月 31 日。(阅读全文:IT之家
    • 谷歌母公司Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在官网发文宣布,公司将合并谷歌大脑(Google Brain)和DeepMind两大AI实验室,组成一个新部门Google DeepMind。(阅读全文:36氪
    • 据36氪报道,猿辅导将于今年下半年推出一款面向UI设计师的专业工具——Motiff,由看云控股集团研发,以成为“Figma的下一代产品”。(阅读全文:36氪
    • 木头姐 Cathie Wood 称:由于翻译等问题,ChatGPT可能会给用户提供不正确信息,此外她认为AI的快速增长可能会对算力带来巨大挑战。而在版权问题和隐私问题上,AI也存在相应挑战。(新闻全文:第一财经
  • 什么是卷积神经网络(CNN)?定义、工作原理和主要应用 – AI百科知识

    什么是卷积神经网络?

    卷积神经网络(Convolutional Neural Network,CNN)是一类主要用于计算机视觉领域的深度学习算法,它们在各个领域都有应用,包括图像和视频识别、自然语言处理,甚至是玩游戏。CNN已经彻底改变了计算机视觉领域,在物体检测、图像分割和面部识别等任务中提供最先进的性能。在这篇文章中,我们将简单介绍CNN的内部工作原理、其架构以及在现实世界中的应用。

    卷积神经网络CNN

    卷积神经网络的原理

    要理解CNN,必须熟悉神经网络的基本概念。神经网络是一个受人脑结构和功能启发的计算模型,它由相互连接的人工神经元组成。这些神经元被组织成层,每个神经元接收来自前几层的输入,并将输出发送到后续层。

    CNN是一种专门的神经网络类型,专注于处理具有网格状结构的数据,如图像。CNN的主要构成是卷积层,其目的是自动和自适应地从输入数据中学习空间层次的特征。

    卷积层

    卷积层(Convolutional Layers)是CNN的核心部分。它执行卷积运算,这是一种数学运算,将两个函数作为输入并产生第三个函数作为输出。在CNN的背景下,输入函数通常是一个图像和一个过滤器(也被称为内核)。卷积操作用于分析输入图像中的局部模式,方法是在图像上滑动滤波器,计算滤波器和它所覆盖的图像区域之间的点积。

    这个过程产生了一个特征图,它是输入图像的一个表示,突出了过滤器检测到的特定特征存在的区域。通过在卷积层中使用多个过滤器,CNN可以学会识别输入图像中的不同特征。

    典型的CNN结构

    典型的CNN结构 By Aphex34 – Own work, CC BY-SA 4.0

    池化层

    池化层(Pooling Layers)是CNN的另一个重要组成部分。它们被用来减少由卷积层产生的特征图的空间尺寸。池化层的主要目标是降低网络的计算复杂性,同时保持最相关的特征。

    有几种类型的池化操作,其中最常见的是最大池化。在最大汇集中,一个窗口(通常是2×2)在特征图上滑动,窗口内的最大值被选为输出。这种操作有效地减少了特征图的空间尺寸,同时保留了最重要的特征。

    完全连接层

    在一系列卷积层和池化层之后,CNN的最后一层通常是完全连接层(Fully Connected Layers)。这些层负责产生网络的最终输出。它们将前几层生成的特征图平铺到一个单一的向量中。然后,这个向量被送入一个标准的前馈神经网络,该网络可以被训练以产生所需的输出,如将输入的图像分类为不同的类别。

    卷积神经网络的训练

    CNN是用监督学习的方法来训练的,网络被提供了标记的训练数据。训练过程包括调整网络中的过滤器和神经元的权重和偏置,以最小化预测输出和地面真值标签之间的差异。这通常是使用梯度下降优化算法的一个变种,如随机梯度下降或亚当优化器来完成。

    在训练过程中,网络学习检测输入数据中的分层特征,低层学习简单的特征,如边缘和角落,而高层学习更复杂的特征,如形状和纹理。

    卷积神经网络的应用

    CNN已经在各个领域发现了广泛的应用,一些最突出的应用包括:

    • 图像分类: CNN在图像分类任务中表现出卓越的性能,其目标是将输入的图像分配到几个预定义的类别中的一个。
    • 物体检测: CNN被用来检测和定位图像中的多个物体,为检测到的物体提供类别标签和边界框。
    • 图像分割: 在图像分割任务中,CNN被用来将图像分割成多个部分,每个部分对应一个特定的物体或感兴趣的区域。
    • 面部识别: CNN已经成为现代面部识别系统的主要技术,根据个人的面部特征提供准确的识别和验证。
    • 自然语言处理: 虽然主要用于计算机视觉任务,但CNN也在自然语言处理任务中找到了应用,如情感分析和文档分类。

    卷积神经网络已经对计算机视觉领域及其他领域产生了重大影响,在各种任务中提供了最先进的性能。通过利用分层特征学习的力量,CNN已经使图像识别、物体检测、面部识别和自然语言处理的先进应用得到了发展。随着深度学习领域的研究不断深入,我们可以期待未来CNN的进一步发展和新的应用,最终提高人类处理和理解复杂数据的能力。