您的位置:首页 > 互联网

AI破译2000年前上古卷轴登Nature头版!21岁计算机天才,谷歌华人工程师共获大奖

发布时间:2024-02-06 19:59:23  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】2000年前碳化的古卷轴,成功被AI破译了近5%的内容。三人天才团队拿下70万美元大奖,谷歌华人工程师一人拿下并列亚军。

2000年前碳化的古卷轴,如今成功被AI破译!背后三人团队还拿下70万美元大奖!

AI在考古领域的重大进步,甚至登上了今天Nature的头版。

特斯拉超级充电站与目的地充电桩

要说这件事的起源,还得追溯到公元79年一次火山爆发, 直接将一座珍藏古老的纸莎草卷轴——Herculaneum Papyri的图书馆埋葬。

而这些卷轴,直到18世纪才被挖出,却早已成为炭焦的木块。由于太过脆弱,根本无法轻易展开。

今天,正式获奖的作品,展示了超过15栏的数百个单词,相当于整个卷轴的5%的内容。

值得一提的是,三人拔得头筹的团队中,有一位年仅21岁计算机天才少年Luke Farritor,成功用AI从图像裂缝中破译内容。

当时,他还在SpaceX暑期实习,偶然发现这场挑战赛的英雄贴。

另外,这场AI破译卷轴的大赛还有3个团队获得亚军,包括一位谷歌华人工程师单独获5万美元大奖。

从破译文字转录后可以读出,古代哲学家对如何享受生活快乐的探讨与争辩,还揭示了人们对音乐和冒险的沉思。

这一壮举为AI完整破译其余古卷铺平了道路,研究人员表示,这可能会对我们对古代世界的理解产生革命性的影响。

谷歌DeepMind的首席执行官:我迫不及待地想阅读这些被认为已经失传的古籍!

2000年后,我们终于可以阅读卷轴了!

下图3D还原了,岩浆吞噬图书馆的情境。

这些卷轴在公元79年维苏威火山的爆发中被碳化

直到18世纪,这些卷轴被挖掘出来。

目前,有800多卷被保存在意大利那不勒斯的一个图书馆中。

一位艺术家对珍藏卷轴图书馆的渲染

然而,这些碳化的卷轴无法在不损害的情况下展开。

一份卷轴不同的拍摄视角,看得出已经完全碳化,像一个木头块。

当任何人尝试展开卷轴,结果就是支离破碎。

那么,问题来了,我们该如何阅读这些卷轴?

2023年3月15日,Nat Friedman、Daniel Gross和Brent Seales发起了Vesuvius Challenge,就是为了解决这一世纪难题。

十个月前,我们发起了Vesuvius Challenge,旨在解决赫库兰尼姆莎草纸书卷这一古老问题。这是一批在公元79年维苏威火山爆发时被高温烤焦的莎草纸卷轴图书馆。

今天,我们欣喜若狂地宣布,我们疯狂的项目成功了。2000年后,我们终于可以阅读卷轴了!

这场挑战赛,要求参赛者在卷轴的4平方厘米区域内,至少找到10个字母。

最诱人的是,挑战赛为成功破译者提供超100万美元的奖金。

来自法国科学院的卷轴在牛津附近的Diamond Light Source粒子加速器进行了成像,然后公布了这些卷轴的高分辨率CT扫描图像。

以艺术化的方式构建3D卷轴

古卷是如何展开的?

大体说,虚拟展开卷轴分三个步骤进行:

-扫描:利用X射线断层扫描技术对卷轴或碎片进行3D扫描。

-分割:在3D扫描图像中追踪卷曲的纸莎草层,随后将其展开或铺平。

-墨迹检测:借助机器学习模型,识别铺平后段落中的墨迹区域。

这些卷轴是在位于英格兰牛津附近的Diamond Light Source(一种粒子加速器)扫描的。

该机器可以产生的高强度平行X射线束,使得成像快速、准确且分辨率高。通过断层重建算法,X射线图片被转化为3D体素体积,形成一系列的切片图像。

接下来,需要在3D空间中识别出单独的纸莎草纸张,这一步骤主要依赖于一个名为Volume Cartographer的工具。

Seth Parker在Diamond Light Source粒子加速器扫描卷轴

如下动画向我们展示了在Volume Cartographer中如何进行手动和自动分割操作。

最终步骤是,墨迹检测。

对于完整卷轴的大规模扫描,墨迹检测一直是个挑战,直到最近挑战赛发起团队在两个方向上取得了突破:

- 裂纹模式

去年夏天,Casey Handmer在检查平铺后的表面体积时,发现了一种奇特的裂纹模式,这些裂纹似乎组成了文字。

Casey因这一发现赢得了首个墨迹奖,并与社区共享了他的发现,随后引发了一系列的研究活动。

- Kaggle竞赛

与此同时,数百支团队在Kaggle竞赛中努力构建出最佳的机器学习模型,目标是检测那些在几百年前卷轴物理解卷过程中脱落的碎片上的墨迹。

与之前不同的是,他们利用了这些碎片照片上的真实数据进行训练,而不是标记尚未发现的裂纹。

虽然这些努力产生了一些优秀的模型,但它们在分割团队处理的平铺图像上似乎并不奏效。

直到谷歌华人工程师Youssef Nader应用了领域适应技术,这一技术最终帮他赢得了第一字母奖的亚军。

在得到训练数据后,全球众多参与者通过计算机视觉、机器学习不懈努力,不到一年时间,立刻攻克破解古卷阅读这一难题。

10个月的时间,他们取得了成功。

终于,在经过275年漫长的时间中,我们有能力阅读这些卷轴:

下图是PHerc.Paris.4(法国科学院)的部分文本,2000年来首次被人阅读。大约95%的卷轴内容仍待揭晓。

卷轴字体被揭晓那刻,就会发现,被两千年的泥土和灰烬封存的祖先思维再次展现在世人面前!

那么,都有谁拿下了这次的大奖?

三人团队,斩获70万美元大奖

在众多参赛作品中,有一份作品非常突出。

评审结果公布,三人团队获得了Vesuvius Challenge70万美元大奖,他们分别是Youssef Nader、Luke Farritor和Julian Schilliger。

这三位成员的名头可不小,而且是这场挑战赛中最重要的贡献者。

值得一提是,21岁的Luke Farritor是一名计算机学生,曾在SpaceX实习,是史上第一位从赫库兰尼姆卷轴读出整个单词ΠΟΡΦΥΡΑϹ(意为紫色)的人,并赢得了首字母奖的第一名。

就连他的个人主页,字体都有种年代久远的感觉。

柏林自由大学的博士生Youssef Nader在去年10月就读出了几列文本,并赢得了第二名的首字母奖。他的成果特别清晰易读,自然成为了团队的lead。

还有Julian Schilliger,是来自苏黎世联邦理工学院(ETH Zürich)机器人学学生,因其在Volume Cartographer上的卓越工作而赢得了三个分割工具奖,让我们能够看到如今的纸莎草区域3D映射。

为了拿下最终的大奖,三人组建了一个强大的团队,并向评审提交了一份,如今被评为最易读的作品。

提交的文件中,包含了三种不同的模型架构的结果,互相印证。其中基于TimeSformer的模型输出了最佳图像。

为了防止过拟合和数据幻读,他们采取了多种措施,包括采用多架构结果、研究不同的输入/输出窗口大小、应用标签平滑和多样化的验证方法。

这个墨水检测代码已经在GitHub上开源。

获奖者的主提交图片(TimeSformer64x64)

除了卓越的墨迹检测能力,这份作品还展示了迄今为止,我们见过的最强大的自动分割技术。

便是由Julian开发的ThaumatoAnakalyptor(大致意为奇迹揭示者)能够从多个卷轴中生成大量纸莎草片段。

对已知区域的重新分割验证了之前的墨迹发现,全新的分割则揭示了如卷轴最外层包裹等其他地方的文字。

来自自动分段的输出。顶行与提交图像重叠,底行有新的分段。

谷歌华人工程师拿下亚军

此外,除了第一名拿下大奖,Vesuvius Challenge还评出了三个并列的亚军,将各自获得50,000美元奖金。

这些团队在墨迹标记和采样的细节处理上各有创新。

谷歌华人工程师Shao-Qian Mah

技术细节是对UNETR++模型进行了定制调整。这是一种基于变压器的 UNET 衍生工具,在医学成像中用作3D特征提取器,对深度层进行最大池化处理,然后使用基于Segformer B-5的最终特征提取器。

另外,还有2个团队共同获得亚军。

团队二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。

团队三:Louis Schlessinger和Arefeh Sherafati。

5%的卷轴,写了什么?

到目前为止,研究团队已经成功展开,并阅读了第一卷卷轴的约5%,并对露出的文字进行了初步转录。

初步的阅读提供了这篇哲学文本的一瞥,根据学者的解读:

这篇文本主要探讨的是快乐,正确地理解快乐,在伊壁鸠鲁哲学中是最高的善。在卷轴的两段连续的文字中,作者探讨了食物等商品的可用性是否,以及如何影响它们提供的愉悦。

那些稀缺的东西是否比大量存在的东西带来更多的快乐?作者认为不是:就像食物一样,我们不会马上相信稀缺的东西绝对比丰富的东西更令人愉快。但是,我们是不是更容易放弃那些大量存在的东西呢?这样的问题经常会被频繁地提出讨论。

由于这是卷轴的结尾,这种表述可能意味着在同一系列作品的后续书籍中还有更多内容。在文本的开头,提到了一位名叫Xenophantos的人,可能是同一位人物——假设是一位音乐家——也在Philodemus的《关于音乐》一作中被提及。

Philodemus,作为伊壁鸠鲁学派的一员,被认为是别墅中的常驻哲学家,在那里发现卷轴的小图书馆里工作。

初步、粗略的转录草稿如下:

在卷轴的后面:

苏州欧图欧

在文本的结尾部分,作者对他的对手进行了尖锐的批评,他们在定义快乐的问题上,无论是从总体上还是具体上,都无话可说。

最后,卷轴以这样的话结束:

……我们不是不对某些事情提出质疑,而是对其他事情有所理解/记忆。并且,当这些事情经常显露出来那样,我们明白说出真相是很重要的!

学者们或许会将其称之为一篇哲学论文。

但对我们而言,是如此地熟悉,古轴的第一篇竟是讲述如何享受生活的两千年前的文章。

在结尾段落里,Philodemus是否在批评斯多葛学派,声称斯多葛主义是一个不完整的哲学。因为它对于快乐一无所知?

他似乎在讨论的问题——生活的快乐以及什么让生活变得有价值——仍然是我们今天思考的话题。

图片识别准确度如何?

人人皆知,机器学习模型通常会产生幻觉,即输出与其训练数据相似、但实际上是虚构的文本或图片。

同样,参赛者可能通过自己编造图像来作弊,例如将图像嵌入到模型权重中。

那么,如何确保这件事不会发生?这里有几种验证方法:

- 技术复现

Vesuvius Challenge技术审查团队亲手复现了获奖作品,确保完全理解了代码的每个细节,并独立运行代码时,得到了与原作品相似的图像。

- 多次提交相同区域的图片

你可能注意到,所有提交的图片都展示了卷轴的同一区域。Vesuvius Challenge向所有参赛者提供了分割团队用CT扫描创建的3D映射的纸莎草片段。

- 小范围的输入/输出

墨迹检测模型并不是基于希腊字母、光学字符识别(OCR)或语言模型。它们是独立地识别CT扫描中的微小墨点,这些墨点聚集起来后才形成了文字。因此,图片中显示的文本并非机器学习模型虚构出来的,而是直接基于CT扫描中的实际数据。

模型采用了较小的数据处理窗口:在一些情况下,它的输出结果甚至仅限于两种状态:有墨迹和无墨迹,这极大地降低了模型错误地生成类似字母形状的可能性

下一步是破译一部完整的作品。

Nat Friedman宣布了下一轮2024年Vesuvius Challenge奖,目标是在年底前阅读85%的卷轴。

与此同时,他表示,仅仅是走到这一步就感觉像是一个奇迹,我不敢相信它竟成功了。

参考资料:

https://scrollprize.org/grandprize

https://www.nature.com/articles/d41586-024-00346-8


返回网站首页

本文评论
《狂飙》爆红,100万人涌入“强盛集团”直播间
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:王亚琪,授权转载发布。春节档厮杀惨烈。《满江红》以票房26.08亿元的好成绩拿下冠军,但口碑不一;原本的领跑选手《无...
日期:01-31
全球变暖加剧:专家称本世纪末全球三分之二冰川或消失_由于全球气候变暖,北极冰层加速融化
据央视财经报道,近日《科学》杂志上发布的一份最新研究表明,世界冰川萎缩和消失的速度比科学家们想象得还要快。如果以当前的气候变化趋势来预测,到本世纪末,预计世界三分之二的...
日期:01-07
moto razr 40明日开售:折叠屏3999「moto razr2019」
摩托罗拉前不久刚刚发布moto razr 40系列手机,共有moto razr 40和moto razr 40 Ultra两款机型,moto razr 40将于明日开售,3999元起,这也是目前行业中最便宜的折叠屏手机了。moto...
日期:06-24
5G、电竞、青春:这一夜,我们如何不狂欢_5g 电竞
通信世界网消息(CWW)11月26日,动感地带“20周年”电竞狂欢夜暨5G校园先锋赛全国总决赛在武汉体育学院体育馆隆重举行。这场青春的狂欢,将电子竞技与动感地带品牌精神完美契合,成...
日期:11-29
爱回收实际回收价格_爱回收启动限时高价回收活动
  2021年1月29日,作为全国最大的二手3C产品回收平台爱回收启动了限时高价回收活动。在活动期间,针对部分机型的全新手机,满足活动参与条件的用户可获得以其原价9折的价格高...
日期:07-10
科创板定增新规「创业黑马:拟定增募资不超5.07亿元 用于科创大模型建设」
7月21日 消息:创业黑马公告称,拟向特定对象发行A股股票拟募集资金总额不超过5.07亿元,将用于科创大模型建设项目及智能中台建设项目。据介绍,本次所涉募投项目不属于通用大模型...
日期:07-21
微星b550主板推荐「微星首批AMD B650主板售价曝光 AM5中端新选199美元起」
由于高昂的首发定价和仅支持新一代 DDR5 内存,AMD 锐龙 7000 系列台式处理器和 X670 / X670E 芯片组主板也劝退了不少铁杆粉丝。不过熟悉近些年 DIY 市场规律的消费者,显然更...
日期:10-06
苹果手机消费者购买行为分析_调查报告称两成美国消费者有意购买苹果iPad
  据ChangeWave Research日期发表的调查报告称,积极的新闻报道和每一个满意的用户的赞扬已经说服五分之一的美国消费者想购买苹果的iPad平板电脑。   在对3400名消费者...
日期:07-29
阿里云宣布“飞天智算平台”发布,可将AI训练效率提升11倍_阿里云计算系统飞天
  讯 8月30日下午消息,阿里云宣布推出全栈智能计算方案“飞天智算平台”,并启动两座超大规模智算中心,以公共云和专有云两种模式,面向科研、公共服务和企业机构提供智能计算服...
日期:08-31
短视频里随意配乐或涉嫌侵权 有人已陪2800元_短视频里的配乐
7月23日消息,近日,浙江省桐乡市人民法院审理了一起侵害信息网络传播权纠纷案。该案件中,2022年,国内音乐制作公司小旭音乐将《望月之城》等音乐作品在互联网广告中影音同步行为...
日期:07-23
对刷视频赚钱套路说“不”_所谓的刷视频赚钱可靠吗
  来源:法治日报  □ 丰 收  “边刷视频边赚钱”“轻松日赚百元”……在部分短视频平台、社交媒体平台上,我们经常能看见这样的广告语。这些广告语颇具诱惑力,一般被用于...
日期:10-01
史上最强暑期档!中国电影票房连续39天破亿 刷新影史纪录「中国电影票房历史纪录」
快科技7月29日消息,据灯塔专业版数据,截至7月29日,全国大盘单日票房连续39天破亿,刷新中国影史大盘票房连续破亿纪录。与此同时,截至7月29日11时22分,2023年暑期档(6月1日-8月31日)...
日期:07-29
华为智选车首款轿车智界S7亮相:颜值不输保时捷_华为智选汽车百度百科
快科技11月9日消息,今日晚间,华为智选车首款轿车智界S7发布会召开,智界S7于会上正式发布。智界S7整体呈流线型,前格栅使用封闭式设计,泪眼式前贯穿灯配合线条设计,前脸与保时捷Tay...
日期:11-09
「心系天下三星W系列新品发布在即 「传承经典历久弥新」」
来源:中关村在线作为弥足珍贵的超高端智能手机系列,心系天下三星W系列历经十六载传承拓新,以卓越品质成就智能手机中的奢华典范。9月15日,心系天下三星W系列全新产品即将携创新...
日期:09-15
魅族2023新年礼盒来了!过年回家的元素齐了「魅族新品2021」
对魅族来说,已经过去的2022无疑是难以忘记,值得纪念的一年;而刚刚启程的2023,同样也是值得期待的一年。今天,魅族正式公布了2023年的新年礼盒。现代mpv库斯途配置从这款礼盒顶层...
日期:01-13
收到背去世老人下楼订单?顺丰回应引围观 网友感叹这单也敢接
日前,四川自贡一则同城取送平台收到背去世老人下楼订单”的信息引发网络关注。有网友称,订单太过惊悚。”敢接这种单子的外卖小哥,不仅胆大,也够拼的。”但也有网友质疑,莫不是恶...
日期:03-07
600多元没白花:RTX 4060 Ti显卡16GB版狂虐8GB版
快科技7月28日消息,NVIDIA的RTX 4060 Ti显卡都已经上市了,8GB版3299元,最近推出的16GB版则是3899元,多花600元才能换来8GB显存。这600块到底值不值?此前有厂商测试了RTX 4060 Ti...
日期:07-28
索尼音乐喜迎新人:甄子丹女儿官宣出道 仅19岁「甄子丹女儿弹唱视频」
7月29日消息,索尼音乐-RCA唱片中国宣布,创作型唱跳新人@Jasmine甄济如 加入RCA唱片中国,首发出道单曲《idk(对等关系)》,以轻快有力的POP RB风格,展开女孩自主、自爱的发现旅程。谷...
日期:07-29
ai视频工厂「AI在线视频剪辑工具Opus Clip 长视频一键变高质量短视频」
8月21日 消息:Opus Clip 是一款生成式人工智能视频工具,可以将长视频一键转换成高质量短视频,让您可以在 TikTok、YouTube Shorts 和 Reels 等平台上分享,以增加社交媒体的影响...
日期:08-22
vivo超品日来了!庞博为你开启超品日直播福利
  很多人购物一般会选择在折扣福利比较大的时候,天猫超级品牌日便是一次大型“让利”活动。今天晚上8点,有一场不同凡响的超级品牌日活动将盛大开启,品牌方是知名手机厂商vi...
日期:08-05