AI从“一专一能”迈向“多专多能”

“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

AI从“一专一能”迈向“多专多能”

  “紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

  近日,2022世界人工智能大会在上海举行,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界,元生无界’主题,恰好揭示了人类智能未来发展的两大方向,智联世界代表弱人工智能对物理世界的作用及改造,而元生无界则代表着利用人工智能技术构建元宇宙,实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。

  中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

  “紫东太初”具备部分类脑特性

  在闫怀志看来,通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器,因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果,远未形成不同感官之间的、相互确定的认知能力。

  传统的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo),在一些领域内已经“孤独求败”。不过,北京德火科技有限责任公司技术总监李岩表示,现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段,与科幻电影中设想的各类人工智能应用还相去甚远。

  在王金桥看来,人工智能一路发展至今,虽然取得了许多突破与进步,但仍存在三大主要局限:首先,人工智能模型的功能单一,一个模型只能解决一个任务;其次,人工智能模型的训练依赖于大量的样本,如果缺乏足够的样本支撑,训练也就无从谈起。以训练人脸识别数据库Webface为例,需要2.6亿张图片才能训练出一个可用的模型;最后,人工智能模型的泛化能力差,不能应用于广泛的应用场景。

  “我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题,基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。

  自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练,从而得到对下游任务有价值的表征,相比于传统的深度学习,是更接近人类的学习方式。

  “能否在同一个维度、同一个空间,面对不同的场景提供同一个多模态大模型,摆脱‘一专一能’,是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习,突破了当前AI技术局限,具备部分类脑特性,从“一专一能”迈向“多专多能”。

  闫怀志指出:“本质上,‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能,但它更接近于人类的理解和思考方式,因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”

  实现三模态内容的统一与重现

  曾经,“以图生音”和“以音生图”只是幻想,而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的?实现图、文、音三模态转化的真正关键以及底层逻辑是什么?

  据悉,“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。

  王金桥表示:“通俗地说,‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示,之后再次利用这种知识表示重新生成三模态内容,以此实现‘以图生音’和‘以音生图’。”

  同时,王金桥还表示,“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。

  具体来说,一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%—10%的数据标注,实现100%的有监督学习效果。

  打造典型人工智能行业应用

  “与单模态和图文两模态相比,‘紫东太初’采用图、文、音三模态大模型,可以灵活支撑全场景的人工智能应用。”王金桥说,“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,对更广泛、更多样的下游任务提供模型基础支撑。”

  “目前,我们已经整合了产学研用各方面的资源,打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域,“紫东太初”可以有效降低模型训练对于样本数量的依赖,同时提升算法性能。

  “紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。(记者 李诏宇)

内容链接:https://www.hpaper.cn/4375.html

(0)
上一篇 2022-09-19 下午4:56
下一篇 2022-09-19 下午4:59

相关推荐

  • 阿里京东物流“拆墙”进行时:有商家火速换快递,末端快递员担心收入下降

    本文来源:时代财经 作者:林心林 今年“双十一”,两大电商平台和物流商各自为阵的局面将正式终结。 图片来源:图虫创意 10月16日,京东物流与淘天集团正式达成合作,京东物流将全面接入淘宝天猫平台,平台商家将能够选择京东物流作为服务商,目前双方对接系统已基本完成,消费者也可以在淘宝和天猫APP内查询京东物流轨迹。 这意味着,淘宝与京东这一对电商竞对,将各自过去…

    2024-10-17
    32
  • AI圈顶流捧场!黄仁勋苏姿丰都来了,联想亮AI Now智能体大招,连甩10多个重磅AI产品

    刚刚,联想一场大会,把全球AI圈顶流聚齐了! 黄仁勋苏姿丰接连登场、英特尔AMD史无前例首次合作、英特尔CEO现场掏出下一代CPU、扎克伯格剧透XR新品,还有联想智能体大招AI Now正式登场。 昨晚,AI量大管饱,精彩镜头应接不暇。 智东西西雅图10月15日现场报道,刚刚联想创新科技大会2024正式开幕,联想一口气发布了PC个人AI智能体、搭载英伟达新核弹…

    2024-10-16
    27
  • AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎

    “超越人类智慧的AI可以用语言操纵我们,或许会试图说服我们不要关掉开关。” 今年3月,由ChatGPT掀起的AI(人工智能)技术革命背后的奠基性科学家、被誉为“AI教父”的杰弗里·辛顿(Geoffrey E. Hinton),曾对媒体提及他对AI“反噬人类”的担忧。如今,在他心中“危险和机遇并存”的AI,为他带来了诺贝尔物理学奖的荣誉。 当地时间10月8日,…

    2024-10-15
    1.9K
  • 苹果自动驾驶汽车项目画上句号:加州测试许可被取消

    IT之家 10 月 12 日消息,就在彭博社的马克・古尔曼报道苹果放弃了发布电动汽车的计划六个月后,据 macReports 报道,加州机动车辆管理局(DMV)取消了苹果的自动驾驶车辆测试许可证。 据悉,DMV 于 9 月 25 日收到苹果的确认,同意取消该许可证,该许可证于 9 月 27 日被取消。这意味着苹果公司持续了十年之久的电动汽车项目被彻底终结,没…

    2024-10-12
    1.1K
  • 大UP质问平台为什么视频越来越糊,答案比问题要复杂得多

    文|王毓婵 编辑|乔芊 10月8日,在全网拥有超千万粉丝的视频创作者@影视飓风发布了一条视频,标题为《清晰度不如4年前!视频变糊是你的错觉吗?》。这条视频揭示了视频平台为降低流量费用支出,通过降低码率和调整编码格式压缩视频画质的现象。 “2024年,4K视频你应该已经司空见惯。各家平台争先恐后在画质上做文章,我们也在不断更新设备,提升节目的质量。但我们在平台…

    2024-10-11
    1.5K
  • 特斯拉“命运日”即将到来:Robotaxi能否帮马斯克“翻身”?

    财联社10月10日讯(编辑 刘蕊)不到24小时之后,特斯拉将成为全球瞩目的焦点:特斯拉将在加利福尼亚州伯班克华纳兄弟工作室举行“Robotaxi Day”活动。届时,众多投资者和分析师们将看到期待已久的自动驾驶出租车Cybercab及其他产品的发布。 随着“Robotaxi Day”活动的逐步临近,特斯拉股价也在过去几周持续上涨,几乎抹平了年内跌幅——这也表…

    2024-10-10
    2.8K
  • 又发布两款新车的富士康还没在全新领域找到获胜之道

    致力于在电动汽车领域开辟新增长曲线的富士康发布两款全新电动汽车,将其乘用车产品阵容扩充至MPV领域。 10月8日,在一年一度的鸿海科技日上,富士康推出MPV车型Model D和中型电动巴士Model U。该MPV新车强调宽敞的内部空间,轴距达到3.2米。在800V电子电气架构的支持下,预计WLTP续航里程约为660公里。 富士康依然与意大利车身制造商宾尼法利…

    2024-10-09
    1.6K
  • 33亿增资,合肥为什么再次“抄底”蔚来?

    作为中国第一家在美国上市的电动车企,蔚来一度面临崩溃的边缘。 2019年年底,蔚来的股价触及1.32美元的低点,市值距离高点蒸发80%以上。 高瓴清空了蔚来股票,红杉也选择了减仓。 当时的李斌四处奔走请客吃饭,想为蔚来寻求融资输血。 一个故事是,一家国资的老总在席间直斥李斌”乱花钱”。 所谓的乱花钱,是指当时的新能源车企几乎都依赖补贴…

    2024-10-08
    59
  • 跨国车企销量都跌了,为何仅欧美“狂”裁员?

    自今年以来,欧美汽车企业掀起了一股裁员浪潮。 福特、特斯拉、通用汽车、大众集团、Stellantis集团等跨国车企相继宣布裁员计划。车企本次裁员人数大多在千人以上,其中大众集团(正在与工会谈判中)和特斯拉更是超过万人规模。 这股寒流已经蔓延至零部件供应链。芯片制造商英飞凌、充电设备制造商Blink Charging、瑞典电池制造商Northvolt等零部件企…

    2024-09-30
    41
  • 7.99万就能提车的Model Y,还顶得住新势力的围攻吗

    9月27日,特斯拉上海超级工厂迎来第100万辆车下线。 从一片泥洼地到变成全球电动汽车巨头最大的海外基地,特斯拉上海工厂在不到4年时间里实现了产能和制造工艺的双双飞跃。 而随着特斯拉副总裁陶琳在社交媒体上写下“感谢每一位新老车主的爱和支持”的同时,这家电动车公司正在被它从前的一众门徒视为必须要跨越的门槛,9月集中上市的新车乐道L60、极氪7X等尤为雄心勃勃。…

    2024-09-29
    57
  • 逼退张大奕的退货率,让丰巢一年狂揽9个亿

    9月19日,曾经的“淘宝女装第一人”张大奕用小号发微博称,她将无限期延迟十年老店“吾欢喜的衣橱”的上新,宣告了这个曾经最火的淘宝女装店将关店。她称闭店是因为女装毛利微薄支撑不了各项运营成本,以及,电商越来越高的退货率。 就在张大奕宣布关店的三周前,丰巢刚刚向港交所提交招股书,寻求以250亿元的估值上市。招股书显示,连亏八年的丰巢终于在2024年前5个月有了7…

    2024-09-27
    995
  • OpenAI高层再震荡:CTO官宣离职,Sora恐长期停滞?| 最前线

    文|袁滢靓 编辑|邓咏仪 北京时间9月26日凌晨3点,OpenAI 首席技术官(CTO)Mira Murati在X上官宣辞职。那张成就了ChatGPT时代的四人合照,如今两个离职,一人休假,只剩下Altman一人扮演独角戏了。 △图源:X网友 @brewmarkets OpenAI的腥风血雨体质,也在另一方面体现了什么是“明星”公司。前脚GPT-4o高级语音…

    2024-09-26
    63
  • TikTok Shop鏖战美区,内容电商的蛰伏与加速

    TikTok Shop的内容电商,能给全球商家带来新一个增长奇迹吗? 文 | 华商韬略 梁梁 跨境电商正在重新定义全球电商格局。 过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以核心电商平台为节点链接的全球商业网络。 这是一张史无前例的商业大网,它已经而且还在加速改变全球贸易和消费的格局,并且这张网还在不断进化与分化…

    2024-09-25
    1.4K
  • 华为三折叠黄牛价雪崩:从加近十万到仅加四千,黄牛气懵了

    正式发售不到48小时,华为三折叠屏手机Mate XT非凡大师黄牛价就崩了。 9月22日,很多数码博主在社交平台上发视频称,Mate XT三折叠手机价格雪崩,从加价六七万甚至十几万,暴跌至加价四千、两千。 甚至到了“每小时一个价”、“你要买我肯定有货;但你要卖我打死不收”的地步。 官方途径购买线上每天要“蹲点”抢‍‍‍‍‍‍‍‍线下无现货需排队几万人等待 ‍‍…

    2024-09-24
    2.2K
  • 马斯克终于“投降”,“我们的主权不容出售!”

    【文/观察者网专栏作者 蒂亚戈·诺加拉,翻译/ 陈佳芮】 在无视巴西最高法院的命令三周之后,马斯克终于“投降”,作出重大让步。 当地时间9月20日,在一份法庭文件中,社交平台X(原推特)公司的律师表示,X平台已遵守巴西最高法院的相关命令,希望法院能解除对其X平台在巴西境内的禁令。 有意思的是,在这次“X事件”中,一度曾是削弱国家主权和民主机构国际干预堡垒的巴…

    2024-09-23
    7.5K
  • 李斌的“县县通”,蔚来的新未来

    出品|网易科技《态度》栏目 作者|定西 这个中秋假期,李斌有点忙。 为了推进充电县县通和换电县县通计划的落地,他来到该计划最难的地方之一新疆进行实地考察。 时间紧迫。蔚来计划在2025年6月30日前,完成除台湾地区、香港特别行政区外,全国所有县级行政区充电桩全覆盖。今年10月前完成新疆14个地级行政区充电全覆盖,包框乌鲁木齐、克拉玛依、哈密、吐鲁番、昌吉、伊…

    2024-09-20
    1.3K
  • 小鹏回应MONA M03自动泊车撞上奥迪:不排除光线等因素致弱势场景

    IT之家 9 月 18 日消息,近期一起“小鹏 MONA M03 自动泊车撞上奥迪汽车”的事故,引起了IT之家网友的关注。据每日经济新闻今天下午报道,小鹏汽车相关负责人就此事回应称,“公司售后同学已经联系上客户,在积极处理解决中。” 关于自动泊车状态下发生剐蹭的原因,该负责人表示,目前不排除因光线及其他因素导致的弱势场景,具体原因还要结合具体的数据进行分析。…

    2024-09-18
    3.6K
  • 华为三折叠,炸出570万「黄牛」

    「核心提示」人人争当黄牛背后,是三折叠手机备受追捧。沉积的手机市场,太需要这样的“王炸”来唤醒了。 作者 | 陈法善 编辑 | 刘杨 备货量100万台,发布四天就有近570万人预约,华为三折叠手机Mate XT注定是今年最难抢的手机。 要知道,根据IDC的统计,2023年中国折叠屏手机总出货量约700.7万台。也就是说,华为这一个单品,就…

    2024-09-14
    1.1K
  • 比亚迪员工总数突破 90 万,技术研发人员近 11 万全球车企第一

    IT之家 9 月 13 日消息,比亚迪集团品牌及公关处总经理李云飞今日在微博上透露,今天,比亚迪员工总数突破 90 万,是 5300 多家 A 股上市公司里员工人数最多的,比第二名还要多 40 多万人。 李云飞还表示:“比亚迪 90 万员工中,技术研发人员近 11 万,是全球研发人员最多的车企。过去两年还招聘了近 5 万名优秀应届大学生,持续助力大学生就业。…

    2024-09-13
    558
  • 从Vertu到8848,奢侈品手机为何全军覆没

    华为三折叠终于发布了,19999元起售。 主要噱头是比折叠还多一折,但也引起了互联网的广泛争论。 在争论之中,黄牛早已率先抢购。 据网上消息,黄牛把三折叠已经炒到了一台65万。 一台38万,有人为了提升销量,黄牛给出的利好是全国可飞。 大家都知道这个溢价不可持续。可大家的疑惑点在于,华为三折叠的受众是谁? 为何有种魔幻的吸引力? 如果堆科技参数。 我可以告诉…

    2024-09-12
    812