Blog

  • AI快讯:5月第1期(5月1日到5月10日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为5月第1期(5月1日到5月10日)的AI行业新闻集合。

    AI快讯5月第一期

    5月10日

    • Meta 公司发布了一个新的开源人工智能模型 ImageBind,该模型能够将多种数据流,包括文本、音频、视觉数据、温度和运动读数等整合在一起。(阅读全文:IT之家
    • IBM 在年度 Think 会议上公布了企业级生成式人工智能和数据平台「IBM watsonx」。该平台包括新一代AI平台「watsonx.ai」、基于开放式Lakehouse架构搭建的数据仓库「watsonx.data」,以及AI治理工具包「watsonx.governance」三个产品集。(阅读全文:36氪
    • 知名流媒体音乐服务商 Spotify 删除了数万首由人工智能创业公司 Boomy 生成的歌曲,希望通过加大审查力度来回应日益严重的流量欺诈等问题。(阅读全文:36氪

    5月9日

    • 根据 SimilarWeb 统计,ChatGPT 上月(4 月份)全球访问量再创新高,达到 17.6 亿次,已超越必应、DuckDuckGo 等其他国际搜索引擎,并达到谷歌的 2%,百度的 60%。目前排在其前面的除了谷歌,只剩下中国的百度和俄罗斯的 Yandex。(阅读全文:IT之家
    • 继文本生成图片模型 DALL・E 之后,OpenAI 近日再次发布了 Shap・E 模型。用户可以输入文本,用于创建逼真且多样化的 3D 模型。(阅读全文:IT之家
    • 抖音发布关于人工智能生成内容的平台规范暨行业倡议。针对创作者、主播、用户、商家、广告主等平台生态参与者在抖音应用生成式人工智能技术的情况,抖音均做出了相关规范。(阅读全文:界面新闻
    • “LSTM之父” Jürgen Schmidhuber 谈AI威胁论,他认为 AI 将发展到超越人类智力的地步,将不会对人类产生大的兴趣,而人类将继续受益并使用 AI 开发的工具,呼吁暂停AI是一种误导。(阅读全文:36氪
    • 百度上线搜索AI伙伴,用户可免费进行对话、AI绘画和其他内容创作,百度搜索AI伙伴是百度最新上线的基于文心大模型的AI搜索对话工具,目前处于免费测试中。申请了文心一言的用户可在桌面端百度网站或移动端的百度APP点击右上角的AI图标,即可进入AI聊天界面,或直接访问chat.baidu.com。

    5月8日

    • 视觉中国旗下网站 vcg.com 上线AIGC新功能——基于生成式AI技术的创意工具。用户可通过使用AI创意工具——模特转换、插画转换功能在线对版权图片进行二次创作,从而获得更好的用户体验与更高的工作效率。但目前AI创意工具还属于Beta版本,仅对部分签约客户开放。(阅读全文:视觉中国公众号
    • 利欧数字宣布通过开源生态、合作开发、自主研发等多种模式,推出面向营销全行业的 AIGC 生态平台「LEO AIAD」,并与奥创光年达成合作,将人工智能对生产力的优化能力,从图文进一步扩展至视频内容的创作。(阅读全文:IT之家
    • 奇绩创坛创始人兼CEO、前微软全球执行副总裁的陆奇出席奇绩创坛北京分享会,并发表名为《新范式 新时代 新机会》的主题演讲,围绕 OpenAI 的横空出世进行了深入分析,陆奇指出,大模型领域发展机会巨大,全球唯二,要奋起直追。(阅读全文:品玩

    5月7日

    • 华为披露其「昇腾AI」迄今已发展 1100 多家伙伴,基于昇腾已孵化和适配 30 多个主流大模型,目前有 25 个城市基于昇腾构建人工智能计算中心,其中 14 个已经上线并饱和运行。(阅读全文:ZAKER新闻
    • 淘云科技推出的国内首个儿童认知大模型——阿尔法蛋儿童认知大模型正式发布。基于该模型打造的阿尔法蛋儿童GPT机器人精彩亮相,为孩子在练表达、塑情商、启创造、助学习等方面带来全新交互体验。(阅读全文:界面新闻
    • 亚马逊计划用 ChatGPT 技术改造 Alexa,提升语音助手的智能性和趣味性。(阅读全文:IT之家
    • 据《华尔街日报》报道,一份谷歌内部的泄露文件显示,谷歌计划用人工智能(AI)改造搜索引擎,让搜索结果更加“个性化”、“多样化”和“视觉化”,这些变化预计将在今年推出。(阅读全文:IT之家
    • AI 技术的发展引起了众多人的关注和担忧,其中就包括了著名投资家、伯克希尔・哈撒韦公司的 CEO 沃伦・巴菲特。在该公司在内布拉斯加州奥马哈市举行的年度会议上,巴菲特将强大的 AI 技术比作原子弹,认为它可能给人类带来灾难性的后果。(阅读全文:IT之家

    5月6日

    • 讯飞星火认知大模型成果发布会在安徽合肥如期举行。科大讯飞董事长刘庆峰、研究院院长刘聪发布讯飞星火认知大模型,现场实测大模型七大核心能力,并发布教育、办公、汽车、数字员工四大行业应用成果。(阅读全文:IT之家
    • 英伟达近日发布新闻稿,展示了全新的纹理压缩算法 Neural Texture Compression(NTC)。使用该算法相比较块压缩算法,可以将视频分辨率提高 4 倍,显存消耗减少 30%。(阅读全文:IT之家

    5月5日

    • 谷歌于今天宣布扩大 Trusted Tester 测试规模,扩大 10 倍,邀请更多用户参与测试Google Workspace的AIGC功能。用户可以点击“Labs in Google Workspace”加入,不过目前依然仅限于美国用户。(阅读全文:IT之家
    • 消息称微软正在与 AMD 合作,共同开发人工智能处理器,以保障人工智能处理器芯片的供应。在合作中,微软为 AMD 提供了资金支持,同时双方正在合作开发代号“雅典娜”、微软自研的人工智能处理器。(阅读全文:IT之家
    • 36氪报道,学而思正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心,目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。(新闻来源:36氪
    • 网易有道发布了基于“子曰”大模型研发的AI口语老师剧透视频,根据视频内容,网易有道AI口语老师不仅能提供灵活的练习场景,还可以根据用户需求扮演多种角色,循循善诱引导用户进行多轮对话。(阅读全文:品玩

    5月4日

    • 重磅!微软宣布 New Bing 聊天现已正式进入开放预览模式,任何人都可以使用。不用排队、不用安装插件、不用下载测试版的浏览器,现在使用 Bing Chat 只需 3 步:打开 Edge 浏览器、进入 Bing.com、点击顶部「聊天」按钮。(阅读全文:爱范儿
    • AI 作图工具 Midjourney 近日发布了最新的 5.1 版本,宣称能够为用户带来更高质量、更有个性的 AI 艺术作品。(阅读全文:IT之家
    • 国产在线设计工具“即时设计”宣布旗下的 AI 设计工具「即时AI」从今日起开始全面开放测试,不再需要内测码,人人都可以体验该 AI 设计工具。(阅读全文:即时设计公众号全文

    5月3日

    • 三星本周推出了一项新政策,要求员工不得在工作场所使用 OpenAI 的 ChatGPT 和谷歌 Bard 等生成式人工智能。(阅读全文:ZAKER新闻
    • 谷歌旗下人工智能子公司 DeepMind CEO 戴米斯・哈萨比斯 (Demis Hassabis) 周二表示,通用人工智能 (AGI) 或许在几年内就可以实现。(阅读全文:IT之家
    • 人工智能(AI)在好莱坞的应用越来越广泛,让好莱坞的编剧们感到了前所未有的威胁,他们担心 AI 会侵犯他们的创意和版权,甚至取代他们的工作。为了保护自己的利益,他们于本周一发起了罢工行动,要求限制 AI 在编剧领域的使用。(阅读全文:IT之家

    5月2日

    • 重磅!图灵奖获得者、深度学习之父 Geoffrey Hinton 从谷歌离职,Hinton 在4月份提出了辞职,以便畅所欲言地谈论人工智能的风险,在媒体的采访中,Hinton 甚至表示对自己毕生的工作感到后悔。(阅读全文:IT之家
    • 谷歌的一名前 AI 工程师日前爆料,该公司曾经开发出一款能够自主思考的人工智能对话系统,但后来因为担心其安全性而将其删除。他还称,谷歌目前还有更先进的人工智能技术没有公开。(阅读全文:IT之家
    • 消息称,微软 Azure 云服务部门计划销售一个在专用云服务器上运行的 ChatGPT 版本,其数据将与其他客户数据分开保存,类似“私有版”ChatGPT,但价格可能是常规版的 10 倍。(阅读全文:IT之家

    5月1日

    • 微软 Edge 浏览器正在进一步推广其 Bing Chat 聊天机器人,在最新的 Canary 版本中,这一功能已集成到了右键菜单。用户将可通过在 Edge 浏览器中用鼠标划词,然后在右键菜单中选择“Ask Bing Chat”,即可将划词内容发送给聊天机器人。(阅读全文:IT之家
  • 什么是RLHF基于人类反馈的强化学习? – AI百科知识

    基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)是人工智能(AI)领域的一个新兴研究领域,它将强化学习技术与人类反馈相结合,以训练能够学习复杂任务的个体。该方法在提高人工智能系统的性能方面显示出前景,使其在各种应用中更具有适应性和效率。

    RLHF基于人类反馈的强化学习

    强化学习

    在了解RLHF之前,我们需要先知道什么是RL,强化学习(RL)是一种机器学习,在这种学习中,个体(Agent)通过与环境的互动来学习做决定。个体采取行动以实现一个特定的目标,根据其行动接受奖励或惩罚形式的反馈。随着时间的推移,个体学会了做出决策的最佳策略,以使其收到的累积奖励最大化。

    阅读更多:什么是强化学习Reinforcement Learning?定义、概念、应用和挑战

    基于人类反馈的强化学习

    RLHF是一个将强化学习与人类反馈相结合的框架,以提高个体(Agent)在学习复杂任务中的表现。在RLHF中,人类通过提供反馈参与学习过程,帮助个体更好地理解任务,更有效地学习最优策略。将人类反馈纳入强化学习可以帮助克服与传统RL技术相关的一些挑战。人的反馈可以用来提供指导,纠正错误,并提供关于环境和任务的额外信息,而这些信息可能是个体(Agent)自己难以学习的。一些可以纳入RL的人类反馈的方式包括:

    • 提供专家示范: 人类专家可以示范正确的行为,个体可以通过模仿或利用示范与强化学习技术相结合来学习。
    • 塑造奖励功能: 人类的反馈可以用来修改奖励功能,使其更有信息量,并与期望的行为更好地保持一致。
    • 提供纠正性反馈: 人类可以在训练期间向个体提供纠正性反馈,使其从错误中学习并改善其表现。

    RLHF的应用

    RLHF已在不同领域的各种应用中显示出前景,如:

    • 智能机器人: RLHF可以用来训练机器人系统,使其以高精确度和高适应性完成复杂的任务,如操纵、运动和导航。
    • 自动驾驶: RLHF可以通过纳入人类对驾驶行为和决策的反馈,帮助自主车辆学习安全和高效的驾驶策略。
    • 医疗保健: RLHF可以应用于训练人工智能系统,用于个性化的治疗计划、药物发现和其他医疗应用,在这些方面人类的专业知识是至关重要的。
    • 学习教育: RLHF可用于开发智能辅导系统,以适应个体学习者的需求,并根据人类的反馈提供个性化的指导。

    RLHF的挑战

    • 数据效率: 收集人类的反馈意见可能很费时和昂贵,因此,开发能够在有限的反馈意见下有效学习的方法很重要。
    • 人类的偏见和不一致:人类的反馈可能容易出现偏见和不一致,这可能会影响个体的学习过程和表现。
    • 可扩展性: RLHF方法需要可扩展到高维的状态和行动空间,以及复杂的环境,以适用于现实世界的任务
    • 奖励的模糊性: 设计一个能准确代表所需行为的奖励函数是很有挑战性的,尤其是在包含人类反馈的时候。
    • 可转移性: 经过RLHF训练的个体应该能够将他们学到的技能转移到新的任务、环境或情况中。开发促进转移学习和领域适应的方法对于实际应用是至关重要的。
    • 安全性和稳健性: 确保RLHF个体是安全的,对不确定性、对抗性攻击和模型的错误规范是至关重要的,特别是在安全关键的应用中。

    基于人类反馈的强化学习(RLHF)是一个令人兴奋的研究领域,它结合了强化学习和人类专业知识的优势,以训练能够学习复杂任务的人工智能个体。通过将人类反馈纳入学习过程,RLHF有可能提高人工智能系统的性能、适应性和效率,包括机器人、自动驾驶汽车、医疗保健和教育等各种应用。

  • AI快讯:4月第3期(4月21日到4月30日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为4月第3期(4月21日到4月30日)的AI行业新闻集合。

    4月21日到4月30日的AI快讯

    4月30日

    • 米哈游《崩坏:星穹铁道》网页活动 —— 「无尽的三月七」上线,「无尽的三月七」基于米哈游自研的 AIGC 工具“模因共振机”,能够将所有图片转化《崩坏:星穹铁道》的主角之一的“三月七”。(阅读全文:IT之家

    4月29日

    • Stablility AI 发布了首个基于 RLHF 的开源LLM聊天机器人——StableVicuna,基于 Vicuna-13B 模型实现,是第一个使用人类反馈训练的大规模开源聊天机器人。(阅读全文:Stability AI Blog
    • OpenAI 发言人称,ChatGPT 在意大利恢复使用(阅读全文:IT之家
    • 据 TechCrunch 报道,OpenAI 最新一轮融资 3 亿美元,由老虎环球、红杉资本、A16Z、Thrive、K2 Global和Founders Fund等多家头部风险投资机构合力买入,最新估值为 270 亿至 290 亿美元。(阅读全文:36氪
    • 国内互联网医疗平台「医联」近日宣布研制国内大模型驱动的AI医生——medGPT。医联方面称,这款“医生版GPT”目前已经拥有近3000种疾病的首诊能力,覆盖80%以上的成年人疾病和90%以上的0-12岁儿科疾病。目前这款产品正在内部测试阶段,计划在5月份正式发布。(阅读全文:封面新闻

    4月28日

    • Andrew Ng 吴恩达联手 OpenAI 在其创建的 DeepLearning.AI 学习平台上线了限时免费的ChatGPT课程:《ChatGPT Prompt Engineering for Developers》,课程时长1个多小时,主要面向开发人员。(阅读全文:机器之心
    • 微软 AI 设计工具 Microsoft Designer 开启公测,支持 Edge 浏览器侧边栏。该工具于 2022 年 10 月首次发布,是一款由生成式 AI 功能提供支持的新设计工具。(阅读全文:IT之家

    4月27日

    • 近日一位名叫 Santiago 的工程师,将 ChatGPT 和波士顿动力公司的机器狗 Spot 结合起来,让这只机器狗能够用语音和人类交流。(阅读全文:IT之家
    • 谷歌下场优化扩散模型,在 GPU 驱动的设备上运行 Stable Diffusion 1.4 ,达到 SOTA 推理延迟性能(在三星 S23 Ultra 上,通过 20 次迭代生成 512 × 512 的图像仅需 11.5 秒)(阅读全文:机器之心

    4月26日

    • 国外知名人工智能社区HuggingFace上线了类似ChatGPT的聊天机器人「HuggingChat」,目前V0版本是由「Open Assistant」 LLaMA-30B的模型驱动。
    • 第四范式首次向公众展示了大模型产品「式说」3.0 版,并提出 AIGS 战略(AI-Generated Software):以生成式 AI 重构企业软件。(阅读全文:搜狐新闻
    • OpenAI 今日宣布,计划为 ChatGPT 引入一个新的订阅等级,名为 ChatGPT Business,专为满足企业客户的需求而定制。(阅读全文:IT之家

    4月25日

    • 国外知名社交平台Snapchat,宣布将对所有用户开放其基于Open AI 最新版 GPT技术的「My AI」聊天机器人并免费使用。(阅读全文:36氪
    • 「作业帮」举办学习机新品发布会,宣布已成为教育智能硬件行业出货量第一,并推出行业首款AI老师一对一学习机,开创学习机品类新模式。(阅读全文:机器之心
    • 微软支持的科技倡导组织商业软件联盟(BSA)公开发文,呼吁在美国隐私立法基础上制定管理人工智能使用的规则。(阅读全文:IT之家
    • 文心一言推出了内测专用独立 App,目前仅提供安卓版(点此进入下载页面)。(阅读全文:IT之家

    4月24日

    • 继Meta推出的SAM(Segment Anything Model)图像分割模型后,华人团队推出SEEM模型,该模型使用不同种类的提示,视觉提示(点、标记、框、涂鸦和图像片段)、以及语言提示(文本和音频)轻松分割图像。(阅读全文:IT之家
    • 俄罗斯联邦储蓄银行(Sberbank)将加入人工智能聊天机器人大战,宣布已发布了一项名为 GigaChat 的技术,与 ChatGPT 竞争。(阅读全文:IT之家
    • 三星向 Galaxy S23 系列手机发布了 Galaxy Enhance-X 照片编辑应用,该应用程序是一个“照片放大和编辑器”,使用AI 为图像添加 HDR、变亮、修复模糊、锐化、修复摩尔纹、去除反射或阴影、修复镜头失真等。(阅读全文:IT之家
    • Meticulous Research的研究报告称,预计到 2030 年,AI 在零售市场中的价值将达到 578 亿美元。

    4月23日

    • 国内知名思维导图软件Xmind宣布推出「Xmind Copilot」 AI 思维导图助手,目前在内测当中,感兴趣的用户可加入等待列表。(公众号介绍全文:Xmind Copilot:生产力真的来了!!
    • 微软总裁布拉德・史密斯(Brad Smith)在东京接受日经亚洲评论的采访时表示,中国的研究机构和企业将成为 ChatGPT 的重要竞争者,称中国在生成式人工智能的发展方面不会落后于美国科技巨头。(阅读全文:IT之家
    • 全球最大的编程开发问答网站 Stack Overflow 宣布,计划在今年年中向 AI 算法开发人员收费,训练数据将不再免费。(阅读全文:ZAKER新闻

    4月21日

    • 复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线,成为国内首个插件增强的开源对话大语言模型。MOSS 相关代码、数据、模型参数已在 GitHub 和 Hugging Face 等平台开放,供科研人员下载。(阅读全文:OSChina
    • IT之家报道,阿里云通义千问 AI 大模型即将接入天猫精灵,天猫精灵已开启相关内测招募,拥有任意天猫精灵音箱设备即可参与报名,时间为 4 月 13 日至 12 月 31 日。(阅读全文:IT之家
    • 谷歌母公司Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在官网发文宣布,公司将合并谷歌大脑(Google Brain)和DeepMind两大AI实验室,组成一个新部门Google DeepMind。(阅读全文:36氪
    • 据36氪报道,猿辅导将于今年下半年推出一款面向UI设计师的专业工具——Motiff,由看云控股集团研发,以成为“Figma的下一代产品”。(阅读全文:36氪
    • 木头姐 Cathie Wood 称:由于翻译等问题,ChatGPT可能会给用户提供不正确信息,此外她认为AI的快速增长可能会对算力带来巨大挑战。而在版权问题和隐私问题上,AI也存在相应挑战。(新闻全文:第一财经
  • 什么是卷积神经网络(CNN)?定义、工作原理和主要应用 – AI百科知识

    什么是卷积神经网络?

    卷积神经网络(Convolutional Neural Network,CNN)是一类主要用于计算机视觉领域的深度学习算法,它们在各个领域都有应用,包括图像和视频识别、自然语言处理,甚至是玩游戏。CNN已经彻底改变了计算机视觉领域,在物体检测、图像分割和面部识别等任务中提供最先进的性能。在这篇文章中,我们将简单介绍CNN的内部工作原理、其架构以及在现实世界中的应用。

    卷积神经网络CNN

    卷积神经网络的原理

    要理解CNN,必须熟悉神经网络的基本概念。神经网络是一个受人脑结构和功能启发的计算模型,它由相互连接的人工神经元组成。这些神经元被组织成层,每个神经元接收来自前几层的输入,并将输出发送到后续层。

    CNN是一种专门的神经网络类型,专注于处理具有网格状结构的数据,如图像。CNN的主要构成是卷积层,其目的是自动和自适应地从输入数据中学习空间层次的特征。

    卷积层

    卷积层(Convolutional Layers)是CNN的核心部分。它执行卷积运算,这是一种数学运算,将两个函数作为输入并产生第三个函数作为输出。在CNN的背景下,输入函数通常是一个图像和一个过滤器(也被称为内核)。卷积操作用于分析输入图像中的局部模式,方法是在图像上滑动滤波器,计算滤波器和它所覆盖的图像区域之间的点积。

    这个过程产生了一个特征图,它是输入图像的一个表示,突出了过滤器检测到的特定特征存在的区域。通过在卷积层中使用多个过滤器,CNN可以学会识别输入图像中的不同特征。

    典型的CNN结构

    典型的CNN结构 By Aphex34 – Own work, CC BY-SA 4.0

    池化层

    池化层(Pooling Layers)是CNN的另一个重要组成部分。它们被用来减少由卷积层产生的特征图的空间尺寸。池化层的主要目标是降低网络的计算复杂性,同时保持最相关的特征。

    有几种类型的池化操作,其中最常见的是最大池化。在最大汇集中,一个窗口(通常是2×2)在特征图上滑动,窗口内的最大值被选为输出。这种操作有效地减少了特征图的空间尺寸,同时保留了最重要的特征。

    完全连接层

    在一系列卷积层和池化层之后,CNN的最后一层通常是完全连接层(Fully Connected Layers)。这些层负责产生网络的最终输出。它们将前几层生成的特征图平铺到一个单一的向量中。然后,这个向量被送入一个标准的前馈神经网络,该网络可以被训练以产生所需的输出,如将输入的图像分类为不同的类别。

    卷积神经网络的训练

    CNN是用监督学习的方法来训练的,网络被提供了标记的训练数据。训练过程包括调整网络中的过滤器和神经元的权重和偏置,以最小化预测输出和地面真值标签之间的差异。这通常是使用梯度下降优化算法的一个变种,如随机梯度下降或亚当优化器来完成。

    在训练过程中,网络学习检测输入数据中的分层特征,低层学习简单的特征,如边缘和角落,而高层学习更复杂的特征,如形状和纹理。

    卷积神经网络的应用

    CNN已经在各个领域发现了广泛的应用,一些最突出的应用包括:

    • 图像分类: CNN在图像分类任务中表现出卓越的性能,其目标是将输入的图像分配到几个预定义的类别中的一个。
    • 物体检测: CNN被用来检测和定位图像中的多个物体,为检测到的物体提供类别标签和边界框。
    • 图像分割: 在图像分割任务中,CNN被用来将图像分割成多个部分,每个部分对应一个特定的物体或感兴趣的区域。
    • 面部识别: CNN已经成为现代面部识别系统的主要技术,根据个人的面部特征提供准确的识别和验证。
    • 自然语言处理: 虽然主要用于计算机视觉任务,但CNN也在自然语言处理任务中找到了应用,如情感分析和文档分类。

    卷积神经网络已经对计算机视觉领域及其他领域产生了重大影响,在各种任务中提供了最先进的性能。通过利用分层特征学习的力量,CNN已经使图像识别、物体检测、面部识别和自然语言处理的先进应用得到了发展。随着深度学习领域的研究不断深入,我们可以期待未来CNN的进一步发展和新的应用,最终提高人类处理和理解复杂数据的能力。

  • 什么是情感分析(Sentiment Analysis)? – AI百科知识

    在今天这个数字连接的世界里,人们不断地在各种平台上分享他们的想法和意见,从社交媒体网站到在线评论论坛。这些用户生成的文本提供了海量的信息,企业、政府和其他组织可以利用这些信息来获得对其客户的偏好、意见和情感的宝贵见解。作为自然语言处理(NLP)的一个子领域,情感分析便是用来分析这些大量文本数据的关键技术之一。

    什么是情感分析

    什么是情感分析

    情感分析(Sentiment Analysis),也被称为观点挖掘(Opinion Mining)或情感人工智能(Emotion AI),是确定一段文本中所表达的情感或情绪的过程,如一个帖子或一条评论回复。它涉及识别和提取文本数据中的主观信息,以了解潜在的情感或情绪。情感分析使用NLP、机器学习和计算语言学技术,根据文本数据传达的情感进行分析和分类。

    情感分析的主要目标是将一个给定的文本划分为一个或多个情感类别,如积极、消极或中立。高级情感分析技术还可以识别和分类情绪(如快乐、悲伤、愤怒等)或意见(如积极、消极或混合)。

    情感分析的技术和方法

    情感分析技术可以大致分为三种主要方法:基于规则的方法、基于机器学习的方法和混合方法。

    1. 基于规则的方法

    基于规则的方法包括创建一套手工制作的规则,根据文本中的某些单词、短语或模式来识别情绪。这些规则通常依赖于情感词典,它是将单词和短语映射到其情感分数的词典,表明其极性(正面、负面或中性)和强度。

    • VADER(Valence Aware Dictionary and sEntiment Reasoner): VADER是一个词库和基于规则的情感分析工具,专门设计用于处理社交媒体文本。它考虑到单词的情感强度,以及语法和句法模式,以确定一段文本的整体情感。
    • SentiWordNet: SentiWordNet是一个基于WordNet的情感词典,WordNet是一个英语单词的词库。它根据极性和客观性给WordNet同义词集(同义词集)分配情感分数。

    2. 基于机器学习的方法

    基于机器学习的情感分析技术包括在标记的数据集上训练一个模型,其中每个文本都与一个情感标签(例如,正面、负面或中性)相关联。一旦训练完成,该模型就可以用来预测新的、未标记的文本的情感。情感分析的机器学习技术可以进一步分为监督学习和无监督学习:

    • 监督学习: 在监督学习中,一个模型在标记的数据集上被训练,学习将输入特征(如单词或短语)映射到输出标签(情感分数)。用于情感分析的常见监督学习算法包括朴素贝叶斯(Naive Bayes)、支持向量机(SVM),以及卷积神经网络(CNN)和循环神经网络(RNN)等深度学习技术。
    • 无监督学习: 在无监督学习中,模型在没有任何标记的例子下学习识别数据中的模式。无监督的情感分析技术通常涉及聚类或主题建模,以确定文本中的基本结构。一种流行的无监督技术是隐含狄利克雷分布(Latent Dirichlet Allocation,LDA),一个用于话题建模的生成性概率模型。

    3. 混合性的方法

    混合性的方法结合了基于规则和基于机器学习的技术,以提高情感分析的整体准确性和性能。这可以通过使用基于规则的技术来预处理数据或为机器学习模型提供额外的特征来实现。

    情感分析的主要应用

    1. 营销和品牌管理: 公司可以使用情感分析来跟踪公众对其产品和服务的意见,确定影响者并衡量营销活动的有效性。
    2. 客户服务: 通过分析客户反馈和社交媒体提及的内容,企业可以更有效地识别和处理客户投诉,并改善其整体客户体验。
    3. 金融和交易: 情感分析可以帮助投资者识别市场情绪,并根据公众意见和新闻文章预测股票价格的变化。
    4. 医疗保健: 情感分析可以用来分析病人的反馈和经验,使医疗机构能够改善他们的服务。
    5. 公共政策和治理: 政府和政策制定者可以利用情感分析来衡量公众对各种政策和举措的意见,帮助他们做出更明智的决定,更好地解决公众的关切。

    情感分析面临的挑战

    1. 模糊性和语境依赖性: 词语和短语的含义可能高度依赖于上下文,这使得情感分析算法难以准确确定情感。讽刺、挖苦和比喻性语言会使这一任务更加复杂。
    2. 语言的细微差别和领域的特殊性: 情感分析技术可能需要适应特定领域或行业,以考虑到专业词汇和行话。此外,语言的细微差别,如俚语和地区方言,会对情感分析技术构成挑战。
    3. 有限的标记数据: 监督学习技术依赖于大型的标记数据集,而创建这些数据集可能会很费时和昂贵。这对低资源语言或专业领域来说尤其具有挑战性。
    4. 多语言情感分析: 随着互联网的不断发展,变得更加多样化,多语言情感分析变得越来越重要。开发能够处理多种语言或适应新语言的模型是一个持续的研究领域。

    为了应对这些挑战并提高情感分析的性能,研究人员正在探索各种方法,包括转移学习,即在大规模数据集上预训练模型,并针对具体任务或领域进行微调;以及多模态情感分析,即把文本信息与其他数据源(如音频或视觉线索)相结合,以更好地理解背景和情感。

    总之,情感分析是自然语言处理的一个重要方面,它允许组织从非结构化文本数据中提取有价值的见解。通过了解人们的意见和情绪,企业、研究人员和政府可以做出更明智的决定并改善他们的运作。随着情感分析领域的不断发展,人们正在开发新的技术和方法来应对其挑战并增强其能力,使其成为一个令人值得期待的研究和创新领域。

  • 什么是数据标注?机器学习中数据标注的重要性、类型和挑战 – AI百科知识

    什么是数据标注

    机器学习(ML)已经成为各种行业的重要组成部分,如医疗保健、金融和运输,因为它能够根据大量的数据进行分析和预测。其中,机器学习过程的一个重要方面便是数据标注(Data Annotation),数据标注是一个对原始数据进行标记和分类的过程,使其可用于训练ML模型。本文将概述数据标注、其重要性以及该领域使用的各种技术。

    数据标注

    数据标注的重要性

    数据通常被认为是驱动机器学习算法的燃料。没有数据,这些算法就不可能学习和做出准确的预测。然而,原始数据往往是非结构化的,有噪音的,并且缺乏算法所需的背景,而这便是数据标注发挥作用的地方。

    数据标注有助于将原始数据转化为ML算法可以理解和学习的结构化格式。通过为数据提供背景和意义,标注过的数据可以作为训练ML模型的基础,以识别模式,进行预测,并执行各种任务。

    例如,在图像识别的情况下,数据标注可能涉及在图像中的物体周围画出边界框,并给它们贴上适当的类别(例如,汽车、人、树)。这样一来,ML模型可以学习每个物体的特征和特性,最终使模型能够识别和归类新的、未见过的图像。

    数据标注的几种类型

    根据数据的种类和正在训练的ML模型的具体任务,有几种类型的数据标注,一些最常见的数据标注类型包括:

    1. 图像标注

    图像标注是用相关信息标注图像的过程,如物体识别、分割和地标。图像标注的技术包括:

    • 边界框(Bounding Boxes): 最常见的一种标注方法,在物体周围绘制矩形框,以确定其位置和类别。
    • 语义分割(Semantic Segmentation): 将图像中的每个像素标上相应的物体类别,从而对图像有一个详细的了解。
    • 实例分割(Instance Segmentation): 与语义分割类似,但区分同一物体类别的各个实例。
    • 关键点标注(Keypoint Annotation): 标记物体上的特定点或地标,如面部特征或关节,以分析物体的结构和运动。

    2. 文本标注

    文本标注涉及对文本数据的标记和分类,这对自然语言处理(NLP)任务来说至关重要。文本标注的技术包括:

    • 实体识别(Entity Recognition): 识别和归类文本中的实体,如名称、组织或地点。
    • 情感分析(Sentiment Analysis): 给文本贴上情感分数的标签(例如,积极、消极、中立),以了解文本中表达的情感和意见。
    • 词性标注(Part-of-Speech Tagging): 将语法类别分配给句子中的词,如名词、动词、形容词等,以分析文本的结构。

    3. 音频标注

    音频标注是对音频数据进行标记和分类的过程,常用在语音识别和声音分类等任务中。音频标注的技术包括:

    • 转录(Transcription): 将口语转换为书面文本,使ML模型能够分析和处理语音。
    • 说话人辨认(Speaker Identification): 用说话人的身份给录音片段贴标签,使模型能够区分多个说话人。
    • 声音分类(Sound Classification): 对音频记录中的声音进行分类,如音乐、语音或环境噪音。

    数据标注的挑战

    数据标注可能是一个耗时和劳动密集型的过程,通常需要一个庞大的人工标注团队来准确标记大量的数据。为了应对这些挑战,已经出现了一些解决方案,包括:

    • 自动标注(Automated Annotation): 利用ML模型来执行最初的数据标注,然后由人工审查以保证质量。
    • 主动学习(Active Learning): ML模型建议哪些数据样本需要标注,从而减少所需的人工工作量。
    • 众包(Crowdsourcing): 通过如Amazon Mechanical Turk等众包平台,利用众包的标注队伍来分配标注任务,减少所需时间。

    数据标注是机器学习过程中的一个重要方面,该项工作使ML模型能够从结构化的、标记好的数据中学习。通过了解不同类型的数据标注和每种标注所使用的技术,我们可以更好地理解这一过程在训练准确和有效的ML模型中的重要性。

  • 7个免费的AI思维导图软件和工具,一键生成思维导图

    思维导图是一种流行的信息组织呈现形式,任何人都可以通过该可视化方式组织想法、思维和概念,以进行头脑风暴和灵感记录。随着人工智能(AI)的加持,思维导图变得更加强大和有效,AI技术驱动的思维导图工具可以帮助用户比以往更高效地创建、组织和分享想法。在本文中,我们将介绍国内外热门和最新的7个AI智能生成思维导图的软件和工具,帮助你提高生产力和创造力。

    1. TreeMind树图

    TreeMind树图是一个基于人工智能技术的新一代思维导图平台,该软件允许用户输入需求和文字提问后,便可以智能自动生成思维导图,提高学习和工作效率。只需简单输入指令提示,TreeMind树图便可以帮助你完成你想要的主题,无论是学校的读书笔记、考试重点和教学安排,还是办公党的运营方案、工作计划和商业分析,都能轻松拿捏🤌。

    TreeMind树图

    2. GitMind思乎

    GitMind思乎是国内知名的免费思维导图协作软件,可以帮助用户进行头脑风暴和灵感记录。近日,该思维导图工具推出AIGC能力的思乎AI机器人,允许用户和机器人对话便能快速生成思维导图,网页端、手机端和iPad端均可使用。使用思乎AI机器人便可以轻松制作读书笔记、快速对文档和报告进行信息检索、AI生成头脑风暴话题参考、全方面分析问题并提供建议。

    GitMind思乎AI思维导图

    3. AmyMind

    AmyMind是一个无需注册,开箱即用的轻量级在线AI思维导图工具。该软件目前仅提供网页版本,没有繁杂的操作菜单,界面设计简约易用,让你专注于灵感的绘制和记录。AmyMind的免费版允许用户制作文件数量20个,使用AI生成思维导图10次/天。而其付费版,月付会员需要9元/月,年付会员则59元/年,文件数量无限制,允许AI生成思维导图200次/天,并拥有文件夹管理功能。

    AmyMind AI思维导图

    4. ChatMind

    ChatMind是一个国内团队开发的帮助用户与AI对话便生成思维导图的软件,只需在其界面的输入框中输入问题/文章/数据,便可以一键生成思维导图。ChatMind还提供了丰富的模板库,比如适合学生的考试复习规划、适合老师的教学计划思维导图、适合营销人员的市场营销思维导图等等都有提供。无论你是做笔记总结、日程安排、项目管理,还是头脑风暴、框架梳理、内容演示,ChatMind智能思维导图软件都不在话下。

    ChatMind AI思维导图

    5. ProcessOn

    ProcessOn是一款专业的在线作图工具和分享社区,帮助用户轻松制作流程图和思维导图。该工具目前已添加AIGC功能,只需输入主题关键词,点击“AI帮我创作”按钮,便可以智能自动生成一张条理分明、清晰完整的思维导图。无论是老师的备课安排、学生的论文写作,还是健身爱好者的健身计划、产品经理的工作总结,ProcessOn都可以快速生成AI思维导图。

    ProcessOn AI思维导图

    6. 博思AI白板

    博思白板BoardMix是国内领先的在线协作白板平台,该工具已接入AI助手,提供AIGC创作模式,帮助用户智能生成思维导图。只需点击工具栏左上角的AI图标按钮,选择AI思维导图,然后输入你感兴趣的话题,AI助手便可以将搜索内容智能生成思维导图。博思白板的免费版提供200点AI点数,付费版可获得4000到50000的AI点数。除开AI思维导图功能外,博思白板提供了丰富的白板表达和批注功能,如画笔、便签、文档、图形、多媒体文件等,帮助你自由地进行创意表达。

    博思AI白板

    7. Whimsical

    Whimsical是国外知名的在线文档和图表协作平台,该平台于今年3月率先推出AI for Mind Maps,即AI思维导图工具。用户可以向AI选择或输入提示,为思维导图产生新的想法和建议,帮助用户快速生成点子和大纲,更快地进行头脑风暴。除了思维导图,Whimsical还提供了流程图、线框图等制作工具,用户可以实时与同一白板上的其他人协作。

    Whimsical AI思维导图

    以上便是AI工具集编辑为大家盘点的7个AI思维导图软件和工具,希望可以帮助你高效地生成脑图,迸发更多的灵感和想法。

  • AI快讯:4月第2期(4月11日到4月20日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为4月第2期(4月11日到4月20日)的AI行业新闻集合。

    4月11日到4月20日的AI快讯

    4月20日

    • 知名图像生成模型Stable Diffusion背后的公司Stability AI宣布开源类ChatGPT的大模型StableLM,该模型目前处于Alpha版本,拥有的参数量分别为30亿和70亿,后续还将推出150亿到650亿参数模型。(新闻全文:36氪
    • 科大讯飞发布消息称,讯飞星火认知大模型成果发布会定于5月6日14:00在安徽创新馆召开。讯飞AI学习机、讯飞听见、讯飞智能办公本、讯飞智慧驾舱、讯飞开放平台也将同步发布。(新闻来源:财联社
    • 世优科技正式发布了新一代AI数字人现象级产品——「世优BOTA」,可应用在PC、APP、小程序、VR\MR等各种终端场景,满足各行各业多元化的场景需求和服务。(新闻全文:机器之心

    4月18日

    • 据 The Information 报道,微软正在研究自己的 AI 芯片,为大语言模型提供支持,该款芯片的代号为雅典娜,早在2019年便已投入开发。(新闻来源:品玩
    • 重磅!钉钉接入通义千问大模型,宣布将开启全面的智能化,用户可通过输入“/”在钉钉唤起10余项AI能力。(新闻全文:机器之心
    • 金山办公近日宣布即将推出WPS AI,目前将率先应用其类似于Notion AI的在线协同文档工具「轻文档」,但目前尚未开放内测和公测,后续将陆续嵌入金山办公全线产品。(新闻全文:36氪
    • 字节跳动旗下火山引擎发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。(新闻全文:ZAKER新闻
    • 印象笔记宣布其「印象AI」正式开放使用,用户可在其「印象笔记」桌面端、「Verse」、「印象图记」、「印象时间」、「收藏家」和「扫描宝」等应用中体验。(官方全文:印象AI上线
    • 意大利数据保护监管机构的负责人在接受《晚邮报》采访时表示,如果 ChatGPT 的开发者 OpenAI 能够采取“有用措施”来解决该机构的担忧,他们将于 4 月 30 日重新上线 ChatGPT。(阅读全文:IT之家
    • 文心一言在百度内部全面应用在智能工作平台「如流」,已经为全体员工开通使用。「如流知识库」是百度推出的企业级知识管理平台,所有员工的文档编辑、协同创作、知识搜索等工作都在该平台上进行。(阅读全文:IT之家

    4月17日

    • Adobe宣布将引入其AIGC模型 Adobe Firefly 到其旗下视频、音频、动画和动效等图形设计应用程序中,Adobe Firefly for Video 可为视频创作音乐音效、添加字幕和文字效果、脚本和B-roll功能等。(阅读全文:Adobe Blog
    • 昆仑万维正式发布千亿级大语言模型「天工」,同时宣布即日起启动邀请测试,该模型由昆仑万维与国内领先的AI团队「奇点智源」联合研发,是国内首个对标ChatGPT的双千亿级大语言模型。(阅读全文:机器之心
    • 4月17日,马斯克在接受福克斯新闻采访时,首度公开了TruthGPT——一个更安全、更透明的类ChatGPT应用,目的是对OpenAI的路线予以修正,尝试创造OpenAI和谷歌以外的“第三种选择”。(阅读全文:虎嗅网

    4月15日

    • OpenAI 的 CEO Sam Altman 发言辟谣称目前并没有训练 GPT-5,短期内也不会立即开始训练。(阅读全文:36氪
    • 马斯克成立初创公司 X.AI,与 OpenAI 进行竞争。文件显示,马斯克在2023年3月9日就注册了这家公司。(阅读全文:华尔街见闻
    • Meta 开源其基于人工智能的动画工具 Animated Drawings,允许任何人将自己的涂鸦、绘画或照片变成动画。(阅读全文:澎湃新闻

    4月14日

    • 亚马逊云科技发布多款AIGC产品,涉及AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、AI编程工具Amazon CodeWhisperer等,CodeWhisperer对个人用户免费开放使用。(阅读全文:36氪
    • 欧洲数据保护委员会(EDPB)成立 ChatGPT 特别工作组,将就监管 AI 制定通用政策。(阅读全文:IT之家
    • 近日,GitHub社区上线了一个新的基于GPT-4的开源应用项目Auto-GPT,以实现自主人工智能,近6万人星标了该项目。(阅读全文:36氪

    4月13日

    • 国内知名问答社区知乎在北京举行的“2023知乎发现大会”中宣布了其与面壁智能合作的中文大模型“知海图AI”正式开启内测。同时,知乎平台上基于人工智能的“热榜摘要”开启内测。(阅读全文:华尔街见闻
    • OpenAI 开源比扩散模型更快、性能更好的一致性模型(Consistency Models),无需进行对抗训练,就能快速生成高质量图片。(阅读全文:36氪
    • 知名大数据平台 Databricks 开源 Dolly 2.0,一个120亿参数的类 ChatGPT LLM大语言模型,并可用于商业目的。(阅读全文:机器之心
    • 知名公关及广告服务商蓝色光标宣布为全面拥抱AIGC打下基础,将全面停用创意设计和文案的外包。(阅读全文:华尔街见闻

    4月12日

    • 微软开源DeepSpeed Chat ——一个可以在模型训练中加入完整RLHF流程的系统框架,大大节约了开发类ChatGPT模型的成本。(阅读全文:36氪
    • Google旗下类ChatGPT的聊天机器人Bard更新,新增了「Google it」按钮,增强了数学与逻辑能力,并发布了一个全新的功能更新公告板。(阅读全文:虎嗅网
    • 据Business Insider报道,特斯拉CEO埃隆·马斯克在推特内部启动了一项人工智能项目,不仅为此购买了约1万个GPU,还从谷歌的人工智能部门DeepMind招募了人才。(阅读全文:虎嗅网
    • OpenAI宣布开启漏洞赏金计划,报告ChatGPT漏洞,最高可以获得2万美元的现金奖励。(阅读全文:虎嗅网
    • 知名视频播放器VLC Media Player在其最新版本中增加了对 NVIDIA 的RTX 视频超分辨率技术的支持,以实现AI增强视频画面质量。

    4月11日

    • 重磅!国家网信办就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见,这是我国首次针对于当下爆火的生成式AI产业发布规范性政策。(阅读全文:中国网信网
    • 阿里巴巴和阿里云CEO张勇在阿里云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。目前,钉钉、天猫精灵等产品已接入通义千问测试。(阅读全文:智东西
    • 今日下午,字节跳动旗下协作办公平台飞书的微信公众号宣布将推出智能助手“My AI”,帮助用户撰写汇报文档、分析数据和总结会议,但未透露具体发布时间。(公众号全文:不藏了,飞书给你介绍一位AI新朋友
    • 商汤科技发布类ChatGPT产品——商量SenseChat,基于其日日新SenseNova大模型,除此之外商汤还推出了系列AI绘图、AI视频制作和生成工具平台,包括秒画、如影、琼宇、格物等。(阅读全文:36氪
  • 什么是预训练Pre-training?定义、重要性、技术和挑战 – AI百科知识

    随着人工智能(AI)不断重塑我们的世界,其发展的一个关键方面已经成为现代机器学习模型的支柱:预训练。在本篇文章中,我们将探讨预训练的概念,它在人工智能中的重要性,用于实现预训练的各种技术,以及该领域的研究人员所面临的一些挑战。

    预训练Pre-training

    什么是预训练?

    在人工智能和机器学习的领域,预训练(pre-training)是指在一个较小的、特定任务的数据集上进行微调(fine-tuning)之前,在一个大数据集上训练一个模型的过程。这个初始训练阶段允许模型从数据中学习一般的特征和表征,然后可以针对具体任务进行微调。

    预训练背后的主要动机是利用从大规模数据集获得的知识来提高模型在较小的、更集中的数据集上的性能。通过这样的方式,研究人员可以用较少的标记实例获得更好的结果,减少对大量特定任务、标记数据的需求。

    预训练的重要性

    预训练成为现代人工智能的一个重要组成部分有几个原因:

    1. 转移学习: 预训练使知识可以从一个领域或任务转移到另一个领域。通过从大规模的数据集中学习一般的特征和表征,可以对模型进行微调,以便在广泛的任务中表现良好。这减少了对特定任务训练数据的需求,使研究人员能够更容易地处理新问题。
    2. 计算效率: 预训练允许模型从大量的数据中学习,而不需要特定任务的、标记的例子。这可以大大减少训练所需的计算资源,使训练大规模模型更加可行。
    3. 模型性能: 经过预训练的模型在特定任务上的表现往往比从头开始训练的模型更好。在预训练期间学到的一般特征和表征可以针对广泛的任务进行微调,从而提高性能并加快收敛。

    预训练的技术

    有几种技术可用于人工智能模型的预训练,其中无监督和有监督的预训练是最常见的方法。

    无监督预训练

    无监督预训练(Unsupervised Pre-training)包括在一个没有任何标记的例子的大数据集上训练一个模型。该模型学会了在没有任何标签指导的情况下识别数据中的模式和结构。一些流行的无监督预训练技术包括:

    • 自动编码器(Autoencoders,AE): 自动编码器是学习对数据进行编码和解码的神经网络。它们被训练成通过最小化原始输入和重构输出之间的差异来重构其输入。通过学习数据的压缩表示,自动编码器可以捕捉到对后续任务有用的重要特征和模式。
    • 生成式模型(Generative models): 生成式模型,如变异自动编码器(VAEs)和生成对抗网络(GANs),学习生成与训练数据相似的新数据样本。通过学习基础数据分布,这些模型可以学习有用的特征和表征,可以转移到其他任务。

    有监督的预训练

    有监督的预训练(Supervised Pre-training)包括在一个有标签的大数据集上训练一个模型。该模型学习预测与输入数据相关的标签,然后可以为特定的任务进行微调。一些流行的监督性预训练技术包括:

    • 语言模型: 语言模型的训练是为了预测一个序列中的下一个词,给定前面的词。通过学习生成连贯的文本,这些模型捕捉重要的语言特征和表征,可以转移到其他自然语言处理任务中。预训练的语言模型的例子包括OpenAI推出的GPT和Google的BERT。
    • 图像分类模型: 图像分类模型的训练是为了预测输入图像的类别。预训练的图像分类模型,如ResNet和VGG,可以进行微调,以便在广泛的计算机视觉任务中表现良好,包括物体检测、分类等。

    预训练面临的挑战

    1. 可扩展性: 随着人工智能模型的规模和复杂性不断增加,预训练所需的计算资源也在增加。开发更有效的预训练技术和利用分布式计算资源将是推动该领域发展的关键。
    2. 数据偏差: 预训练的模型很容易受到训练数据中存在的偏差的影响。解决数据偏差和开发方法以确保预训练模型的公平性和稳健性是一个持续研究的领域。
    3. 可解释性: 随着模型变得越来越复杂,理解它们的内部运作和它们学习的表征变得越来越有挑战性。开发更好地理解和解释预训练模型的方法,对于建立信任和确保人工智能系统的安全至关重要。
  • 什么是LLM大语言模型?定义、训练方式、流行原因和例子 – AI百科知识

    近年来人工智能(AI)领域经历了巨大的增长,而自然语言处理(NLP)更是其中一个取得快速进展的领域。NLP中最重要的发展便是大语言模型(LLM),该项技术可能彻底改变我们与科技互动的方式,加上OpenAI的GPT-3的爆火,使得大语言模型在业界更加备受关注。在本篇文章中,我们将简单地介绍一下大语言模型,科普其定义、训练方式、流行原因、常见大语言模型例子以及其面临的挑战。

    大语言模型

    大语言模型的定义

    大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

    大语言模型的训练方式

    训练语言模型需要向其提供大量的文本数据,模型利用这些数据来学习人类语言的结构、语法和语义。这个过程通常是通过无监督学习完成的,使用一种叫做自我监督学习的技术。在自我监督学习中,模型通过预测序列中的下一个词或标记,为输入的数据生成自己的标签,并给出之前的词。

    训练过程包括两个主要步骤:预训练(pre-training)和微调(fine-tuning):

    • 在预训练阶段,模型从一个巨大的、多样化的数据集中学习,通常包含来自不同来源的数十亿词汇,如网站、书籍和文章。这个阶段允许模型学习一般的语言模式和表征。
    • 在微调阶段,模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练。这有助于模型微调其理解,并适应任务的特殊要求。

    大语言模型的流行原因

    为什么大语言模型越来越受欢迎,以下是其主要的流行原因:

    • 性能提升: 大语言模型的庞大规模使其能够捕捉复杂的语言模式,从而在各种任务中展现出令人惊叹的能力,尤其是在准确性和流畅性方面往往超过了以前最先进的方法。
    • 迁移学习: 大语言模型可以针对特定的任务进行微调,使得模型能够利用其一般的语言理解,迅速适应新的领域。这种迁移学习能力大大减少了对特定任务数据和训练时间的需求。
    • 多功能性: 大语言模型可以执行多种任务,而不需要特定任务的架构或模型,可用于文本生成、翻译、总结等,使其在各种应用中具有高度的灵活性和通用性。
    • 高互动性: 大语言模型理解和产生类似人类的反应的能力使其能够与人工智能系统进行更自然和直观的互动,为人工智能驱动的工具和应用提供了新的可能性。

    常见的大语言模型

    • GPT-3(OpenAI): Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,拥有1750亿个参数。该模型在文本生成、翻译和其他任务中表现出显著的性能,在全球范围内引起了热烈的反响,目前OpenAI已经迭代到了GPT-4版本。
    • BERT(谷歌):Bidirectional Encoder Representations from Transformers(BERT)是另一个流行的LLM,对NLP研究产生了重大影响。该模型使用双向方法从一个词的左右两边捕捉上下文,使得各种任务的性能提高,如情感分析和命名实体识别。
    • T5(谷歌): 文本到文本转换器(T5)是一个LLM,该模型将所有的NLP任务限定为文本到文本问题,简化了模型适应不同任务的过程。T5在总结、翻译和问题回答等任务中表现出强大的性能。
    • ERNIE 3.0 文心大模型(百度):百度推出的大语言模型ERNIE 3.0首次在百亿级和千亿级预训练模型中引入大规模知识图谱,提出了海量无监督文本与大规模知识图谱的平行预训练方法。

    大语言模型面临的挑战

    尽管大语言模型的能力令人刮目相看,但他们仍然面临着一些挑战:

    • 资源消耗巨大: 训练LLM需要大量的计算资源,这使得较小的组织或研究人员在开发和部署这些模型方面面临挑战。此外,与训练LLM有关的能源消耗也引起了一定程度的环境问题。
    • 输出可能带有偏见:由于训练数据中可能带有偏见,而LLM可以学习并延续其训练数据中的偏见,导致有偏见的输出,可能是冒犯性的、歧视性甚至是错误性的观念。
    • 理解能力受限: 虽然大语言模型有能力产生看似连贯和与背景上下文相关的文本,但LLM有时对其所写的概念缺乏深刻的理解,这很可能导致不正确或无意义的输出。