您的位置:首页 > 互联网

生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作

发布时间:2023-09-06 22:28:43  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:蛋酱,授权转载发布。

特斯拉德国工厂计划每年生产50万辆电动汽车

在经典作品《小王子》中,有这样一幕情节:一个小孩子画下了蛇吞象的样子,他向大人们展示自己的作品,并问他们害不害怕。然而,所有的成年人都说:「一顶帽子有什么可怕的?」

但对于充满想象力的孩子来说,这并不是一顶帽子,而是一条正在消化大象的蟒蛇:

相信每一位读者都曾被这段情节所打动,这就是艺术创作的精髓所在。对于小朋友来说,即使是几笔简单的线条,也代表着最纯真可爱的想象。

比如,简单的几笔涂鸦,为何不能代表光怪陆离的科幻世界?借助 AI 的「画笔」,从灵感到完整作品也不过几秒的时间:

再比如,一条随手画出的波浪线,也能变成一段美妙的旋律:

这些神奇的「AI 魔法」,都来自于一个名为「腾讯 AI 编程第一课」的小程序。

孩子们的「AI第一课」

自2022年以来,生成式 AI 热度不减,以 Stable Diffusion、GPT-4、PaLM2为代表的大模型成为了热门关键词,并衍生出文本生成、图像生成、动画制作、视频生成等领域的落地产品,深刻改变了人们的生活方式。

不难想象,未来将是 AI 创造更多价值的时代。这个时代对青少年的 AI 认知与计算思维提出了新的要求,但这些「高大上」的技术,对孩子们来说仍然是有距离感的。

如何将最前沿的技术以易感知的方式传递给他们,增强青少年对科学技术的兴趣、深化青少年对 AI 领域发展的认知呢?

通过剧本式、「玩中学」的方式,腾讯与中国宋庆龄基金会共同发布「AI 编程第一课」公益项目,为全国零基础青少年提供 AI 和编程启蒙小程序平台,首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,让青少年在1小时中初识计算思维、AI基本原理、人机协同理念等。

开学之际,「腾讯 AI 编程第一课」正式上线。在腾讯音乐天琴实验室的技术支持下,小程序上线了「AI 创作」版块,分为「AI 作曲」和「AI 作画」两个功能,希望能让孩子们体验到最新 AI 技术的魅力。

今年10岁的静宜(化名)是「腾讯AI 编程第一课」的首批「用户」之一。几天试用下来,最让她好奇的就是「AI 创作」功能的实现原理:

「为什么不同的线可以生成不同的曲调?」

「曲线如何变成音乐?」

「AI 是怎么猜到我心中想画的是什么呢?」

这些问题的确令人好奇,所以这款宝藏应用背后有哪些 AI 技术?接下来,让我们一探究竟。

从一条线到「宫商角徵羽」的神奇之旅

提到 AI 音乐生成,大部分人并不陌生。今年1月,谷歌发布了「MusicLM」,实现了从文本或图像中生成高保真音乐。之后,Meta 开源了可生成各种音频的 PyTorch 库「AudioCraft」,能够基于用户输入的文本生成高质量、高保真的音频,不仅能生成有旋律的音乐,甚至还可以选择乐器。这一系列方法都有一个特点:直接从文本 / 图像生成音频。

在「AI 作曲」功能研发过程中,天琴实验室首先对上述方法进行了尝试与评估。他们发现,现有的从文本到音频的音乐生成大模型确实取得了不错的进展,但距离大规模商用还有一个挑战必须解决:采样率低的问题。

「音乐的标准采样率为44.1kHz 或48kHz,语音的采样率是16kHz,目前大部分方法生成的音乐只有24kHz 或者32kHz,音质有待提升。」天琴实验室 AI 作曲团队技术人员泽文表示。

来自 QQ 音乐负责此次「AI 作曲」功能研发的团队成员都有过音乐创作经历,有人曾担任乐队吉他手,也有人曾是音乐制作人。这些经历让他们对于生成音乐的质量要求更加极致,同时也带来了重要的启发:他们忽然想到,或许可以采用与人类创作过程非常相似的生成方式,以保证音乐的连贯性和高质量。

最终,他们决定采用「符号音乐生成」这一技术路线。「从自然语言处理的角度来看,乐符本来就可视为一种语言,不同的是乐谱包含的信息密度比文本更高,还包括旋律、节拍、乐器、流派等。」天琴实验室 AI 作曲技术人员哲旭表示。

经过与一线产品团队的交流,技术团队还获得了一个重要洞察:相比于常见的「哼唱识曲」,「画线谱曲」对于青少年来说是更具新鲜感的生成方式,更能引发他们对 AI 的兴趣。

在这个设想的推动下,技术团队以「曲线」作为输入,以乐谱转化为音频作为输出,打造出了颇具创意的「AI 作曲」功能。具体来说:

  • 第一步是从划线图像到音符的识别。孩子们画线的起伏高低就象征着旋律的变化,界面中的横轴为时间,纵轴对应不同的音符「do re mi sol la」,同时,也对应着中国传统的五音「宫商角徵羽」。

  • 第二步是旋律的续写。有了五个音符的组合,AI 就有了灵感,并将其扩展为一段16秒的旋律。模型基于自回归的方式逐个音符进行预测,每个时刻的输入都依赖于上一个时刻的输出,直到生成一段连贯的音乐。

  • 第三步就是编曲。编曲模型会分析旋律的节奏、调子、和弦,给旋律加上不同的乐器和节奏,并提供了流行、古典和电子三种编曲风格。

  • 第四步是算法渲染,乐谱将被转化为音频。

至此,一首完整的音乐就完成了。

天琴实验室 AI 作曲负责人 Ethan 表示,符号音乐生成技术的价值远不止于娱乐向、教育向的 C 端产品,更值得期待的是成为高效的音乐人创作工具。从文本直接到音频的过程像一个「黑箱」,而「符号音乐生成」有完整的乐理系统支撑,生成结果也是可编辑的,音乐人可以在生成的乐谱中进行二次创作。

这种对于技术落地价值的考量,在天琴实验室的技术探索中是一以贯之的。作为腾讯音乐旗下首个音视频实验室,他们希望真正将 AI 创新技术融入到产品之中,为用户提供高度个性化及差异化的音乐娱乐体验。

目前,天琴实验室在 AI 音乐生成的技术积累已经覆盖了作曲、混音、编曲、作词、演唱等全部音乐创作环节。除了提供「作曲、混音、编曲」能力的一站式音乐生成技术「琴乐」,以及AI 辅助作词平台「觅词」。此外,腾讯音乐 AI 伴侣「小琴」和「小天」两款虚拟人产品均已应用于歌曲的智能演唱之中。

比如,本次「AI 编程第一课」的主题曲《魔法字符》,就是由腾讯、QQ 音乐、腾讯音乐天琴实验室共同打造的,从作曲到演唱全链路均由 AI 完成。其中,「琴乐」一站式音乐生成技术完成作曲、混音及编曲,「觅词」辅助创作了趣味十足的魔法歌词,虚拟人「小琴」负责最终演绎。

与音乐的意义类似,绘画也是一种表达情感的方式。

当前,AI 在绘画生成方面的应用已经比较成熟,比如通过文字 Prompt 生成图像的 Stable Diffusion、Midjourney。但用过的人都知道,如何设计 Prompt 也是一大难点,生成结果未必总能「如人所愿」。

问题来了:AI 能不能接住小朋友的奇思妙想呢?

天琴实验室 AI 作画团队的成员们意识到,对于「AI 作画」功能的用户群体6-12岁的孩子来说,以文字形式去生成图像仍然存在一定的门槛,特别是仅使用文本难以控制生成细节,无法对图片进行细化编辑。

因此,他们将目光锁定在一种更能发挥想象力和创造力的方法:线稿成画。

在「AI 编程第一课」的「AI 作画」中,不同于传统的「文生图」需要输入非常复杂的 Prompt,用户只需要简单描绘几笔,就能让「草图」变成「精品」。

这种方法不仅需要扩散模型强大的生成能力,还需要精确的条件控制方案。「AI 作画」这一功能能够在短时间内顺利上线,很大程度上得益于天琴实验室在图像生成领域的技术积累。

从2022年,天琴实验室开始布局生成式 AI 技术,并在 QQ 音乐和全民 K 歌中应用落地,比如直播礼物、歌词海报、歌曲背景图、AIGC 播放器、歌曲封面图等多项功能。对生成图像风格 / 内容的精确控制,一直是天琴实验室在重点研究的方向。

比如,「AI 歌曲封面」就是 AI 技术与音乐理解结合的一大成果,为 QQ 音乐曲库中大量封面留空的作品自动生成封面,不仅能够让音乐人和作品的关注度得到提升,更重要的为新上作品提供了降低制作成本的选择。

此外,天琴实验室还推出了 AI 音乐视觉生成技术 MUSE(Music Envision),「以歌生图」能力就是其一大亮点:用户选择一首歌或一段歌词,就可以将歌曲的意境用 AI 技术具象化呈现出来,包括歌词海报、歌词动效视频等视觉内容。

800美元的iphone中国卖多少钱

这种「意境」与「具象」的转化,在本次「AI 作画」中也有所体现。「小朋友的绘画作品可能会更加写意,对于这种情况,我们专门使用儿童涂鸦和最终成品图进行了搭配训练,为模型定制相关能力以提升最终生成效果。」天琴实验室 AI 作画负责人 Ben 表示。「我们在精确描绘和物体识别之间进行了一种平衡,一方面让草图的线条起到引导作用,另一方面通过简单的线条进行内容本身的识别,同时给到模型一定的自由发挥空间。」

而这些成果和经验不只用于腾讯音乐的内部业务,也正在赋能全行业。

很多 AI 应用面向的用户数量都比较庞大,这将带来极高的大模型推理成本。对于这个问题,天琴实验室推出了MUSE Light 大模型推理加速引擎,并在 HuggingFace 公开发布了 lyraSD、lyraChatGLM、lyraBELLE 三项开源大模型的加速版本,实践效果均为行业领先,在 B 端助力技术从业者和科研工作者节约时间和成本。

在「AI 编程第一课」的研发实践中,MUSE Light 帮助节省了90% 以上的推理成本,使图像的生成加速了10倍,且有效提升了用户体验。

此外,团队还观察到:「从草图生成图像的技术已经取得不错的效果,但如果他人想去尝试一件同样的事情,前期会花很多的时间,才能找到比较合用的模型。」

为了解决这个痛点,天琴实验室将过往的技术实践经验汇集在AI 绘图创作平台「MUSE UI」之中。该平台融合了 MUSE Light 大模型推理加速等多项行业领先的创新技术,提供了「一键出图」、「模型广场」、「图搜模型」、「动图生成」、「一键定制绘图加速服务」、「多场景绘图应用」等多项功能。借助 MUSE UI,设计师、插画师和其他专业人士将节约更多时间成本并最大程度地提高效率。

据了解,经过内部业务实践的检验之后,MUSE UI 平台也将在不久后面向全行业开放。

当万物皆可 AI 生成的时代来临

这两年来,与生成式 AI 相关的技术创新与应用总能成为热门话题。

虽然从内容生产的维度去评价,AI 生成音乐、图像作品的艺术价值还存在诸多争议。但可以期待的是,随着技术的不断发展,现阶段的很多问题将被克服,AI 生成内容的水准必然会有所突破。

从生产力发展的角度看,生成式 AI 使得内容生产的门槛不断降低,效率不断提高,这对于各行各业来说都是巨大的变革。例如,使用 AI 生成营销文案,成本仅为人工撰写的几十分之一,且内容更加多样化。

可以确定的是,未来的社会生产分工,将会更注重人机协作模式,对人的计算思维能力的培养也更加重要。我们必须适应这种变化,找到自身在新时代的定位,更充分地去感受科技带来的美好。

在这种背景下,科学教育理念也需要随之进化。对于今天的青少年来说,他们未必需要过多关注 AI 的底层技术,未必需要一行一行地编写代码,更重要的是先学会如何「Prompt」。

对于「AI 编程第一课」的青少年用户来说,这可能是他们的「AI 第一课」,也是他们成为智能时代新型人才的起航点。


返回网站首页

本文评论
京东有贵就赔吗「京东宣布买贵双倍赔服务规则 将于2月28日生效」
2月21日 消息:今日,京东商家中心发布《京东开放平台“买贵双倍赔”服务规则》,规则于2023年2月28日生效,适用于在京东开放平台JD.COM入驻开店的第三方商家,不含京东小店。iphone...
日期:02-22
三星第一次公开2nm:2025年量产_三星2nm工艺
  在代工市场上,唯一可以和台积电抗衡的,就是三星了(Intel高调杀入但还需进一步观察),双方在先进工艺进展上也是互不相让,7nm、5nm、3nm、2nm你追我赶。   在最新举办的三...
日期:07-17
网传字节智能语音负责人离职,当事人辟谣
  近日有媒体爆料称,字节跳动AI Lab智能语音负责人梅晓已经离职。对此梅晓本人表示,其并不是团队负责人,希望澄清此事。  字节跳动AI Lab智能语音团队总监马泽君也回应称:...
日期:07-18
中长视频的新格局:流量出走与战火重燃「中长视频要求」
声明:本文来自于微信公众号 壁虎看KOL(ID:bihukankol),作者:三玖是天,授权转载发布。近年攻城略地增长速度十分迅猛的短视频,开始触及流量的天花板,而随着与之频繁短兵相接的中长...
日期:04-13
数字人民币卡式钱包「数字人民币SIM卡硬钱包功能来了!断网、没电也能支付」
快科技7月10日消息,数字人民币属于法定货币的一种,其属性等同于纸质人民币、目前综合表现最好的折叠屏手机国家食品药品监督管理总局经过几年发展,北京、天津、重庆、广州、福...
日期:07-11
玩转金山卫士一键清理 轻松释放上G磁盘空间
  电脑使用时间长了,经常会出现很多系统垃圾文件,并保存大量的操作系统和软件使用痕迹,经常执行软件安装、卸载操作,也会保留很多冗余的注册表键值等耗费大量的磁盘空间,同时,...
日期:07-26
电脑“黑屏”搞晕网友原是木马“团伙作案”(电脑中木马开机黑屏)
  360安全中心近来接到不少网友求助,电脑开机后一片“黑屏”,显示器中央还会弹出一个奇怪的空文件夹。大多网友怀疑自己误安装了传说中的Windows“黑屏补丁”。对此,360安全...
日期:07-25
传高通清库存芯片大降价 幅度高达一至二成_高通芯片价格上涨
通信世界网消息(CWW)手机市场复苏不如预期,业界传出,为刺激客户拉货意愿并加快出清库存,高通近期启动杀价战,锁定中低端5G手机芯片,且降价程度“相当有感”,高达一至二成,预计高通这...
日期:08-14
超越iPhone15的3纳米A17!vivo新机首发最强旗舰芯!
8月一过,即将到来的9月随着苹果iPhone15系列的发布,手机圈也将迎来彻底的洗牌。因为iPhone15系列相当于提前让手机进入了次世代。虽然高通已经加紧脚步,在10月份发布新款旗舰芯...
日期:08-25
黄光裕的车图片_黄光裕“弃车保帅”
  21世纪经济报道记者 贺泓源 北京报道;  黄光裕已经做出了选择。  8月19日晚间,国美零售发布公告称,有条件向国美地产收购鹏融地产的全部股权。这笔交易实质是把国美创...
日期:08-24
团购券过期了怎么办_QQ团购券过期就作废 QQ团购定霸王条款
  足不出户轻点鼠标,小到耳环手镯,大到汽车房屋都可以买。网购,已经成为越来越多人的消费习惯。但是,伴随而来的还有越来越多的陷阱——虚假宣传、货不对板、网络盗刷、“钓...
日期:07-28
rtx3080用750w电源「NVIDIA澄清:RTX 4090供电采用850W电源即可」
早在NVIDIA发布RTX 40系显卡之前,就曾有消息称RTX 4090显卡将需要超过900W的高额功耗,引起了不少消费者的担忧。现在,NVIDIA更新了其客户支持页面,终于澄清了这一传言。华为谈全...
日期:10-01
工信部:5G牌照很快发放 今年流量费要降20%以上(工信部正式发放5g牌照)
  据中国证券报报道称,工信部长苗圩接受采访时表示,5G牌照将很快发放。   苗圩表示,我们预计到今年的下半年,真正能够具备商业使用的这个产品将会投放市场,也就是像5G的手机...
日期:06-03
「搭载3.2GHz骁龙8 Gen 2 「一加Ace」-3曝光」_一加8t和ace2参数对比
来源:中关村在线苹果是否涉嫌垄断近日,博主@数码闲聊站爆料称,一加将推出一款搭载3.2GHz骁龙8 Gen 2处理器的新机。该机正面配备6.74英寸左右的1.5K高频调光单孔微弧柔性屏,机身...
日期:09-05
欧洲欲迎罕见寒冬:欧美疯抢中国箱包、中国高领毛衣也火了、暖气都不敢开等
在天然气供给受限、价格大涨的情况下,为了能安然过冬,如今,越来越多的欧洲人向中国制造寻求解决方案”。在此背景下,电热毯、电暖器等取暖设备出口呈现爆发式增长。对于接下来的...
日期:10-14
互联网泡沫的破灭_上马物联网要吸取互联网泡沫破灭教训
  针对时下各地纷纷上马物联网项目的现状,在宁波出席上海世博会首个主题论坛的信息科技领域专家认为,对时下的物联网热要保持清醒,防止重复建设。   与会专家认为,物联网在...
日期:07-29
上市一个半月销量超豪华品牌旅行车全年总和!蔚来ET5旅行版更名“ET5T”
快科技8月17日消息,日前,工信部日前发布申报第374批《道路机动车辆生产企业及产品公告》车辆变更扩展产品公示清单,蔚来ET5T车型尾标拓展相关信息位列其中。该车在上市时以ET5...
日期:08-17
王者荣耀周年庆皮肤免费领取「《荣耀》七周年庆新活动上线:今日登陆免费送史诗级皮肤」
最近几天,《王者荣耀》手游迎来了7周岁的生日,官方也举办了一场七周年庆活动,给玩家们带来了丰富的福利。根据官微消息,《王者荣耀》游戏内今天正式开启两场新活动:【很高兴遇见...
日期:11-11
11月新能源销量榜:比亚迪近23万辆 能抵两个特斯拉_特斯拉的销量是比亚迪的好几倍
国内新能源汽车渗透率持续提升,随着传统自主品牌的发力,除了比亚迪继续领跑之外,造车新势力的销量排名也开始逐步下滑。乘联会数据显示,11月新能源乘用车批发销量达到72.8万辆,同...
日期:12-09
骁龙870旗舰机「骁龙870手机卖到3000多 格力被曝解散手机核心团队 公司回应了」
快科技5月20日消息,日前有消息称格力手机核心团队被解散,公司不再从事手机开发,不过这一传闻也遭到了格力否认,称还在研发。格力电器回应媒体报道称,格力手机研发持续进行中,TOSOT...
日期:05-20