大数据文摘出品
一个高中生,给宇宙来了个“大扫除”,直接揪出150万个以前没人知道的“太空新邻居”!
主角Matteo Paz(马特奥·帕兹),帕萨迪纳高中的学生。他凭着一套全新的AI算法,不仅挖出了这150万个太空“新星”,还顺带拓展了NASA一项任务的潜力,更以独立作者身份,在顶刊《天文学杂志》上发了篇硬核论文。
就这操作,Paz直接在“再生元科学天才奖”中拔得头筹,斩获25万美元大奖!
一、天才的火花与“点灯人”导师
这帕兹小哥,还在上小学的时候,他老妈就带他去加州理工听公共的“观星讲座”,那会儿,宇宙的种子就在他心里发了芽。
到了2022年夏天,他直接杀到加州理工校园,参加了由天文系教授安德鲁·霍华德(Andrew Howard)领衔的“加州理工行星发现者学院”,猛补天文和相关的计算机科学。
2023年,他又报名了加州理工为期六周的“夏季研究连线”项目。该项目是另一个由教学、学习与推广中心(Center for Teaching, Learning, and Outreach)运营的神仙项目,专门把本地高中生跟校园实验室的导师们“配对”。
这时候,帕兹的“贵人”出现了:天文学家、IPAC高级科学家戴维·柯克帕特里克(Davy Kirkpatrick,下文统称柯老师)。这位柯老师,在过去的五个夏天里,除了带本科生、公民科学家和访问研究生学者,还坚持指导高中生。
帕兹提起导师,那是赞不绝口:“能遇到柯老师,我真是太幸运了。我记得第一次跟他聊,我就说我想整个大活儿,搞一篇论文出来。他非但没劝退我,反而说:‘行啊,那咱聊聊这个。’ 他给了我一个毫无束缚的学习体验。”
而柯老师自己,也是在良师的指引下才走上天文学之路的。他成长于田纳西州的一个农业社区,是他的九年级化学和物理老师点燃了他的天文学梦想。当时,柯老师的老师告诉他和他的母亲,他有潜力,并指导他该如何选课为大学做准备。
柯老师说:“我想把这种指导传承下去,希望能帮到更多的人。如果我看到他们的潜力,我会确保他们能充分发挥出来,我会尽我所能去帮助他们。” 这 mentorship 的传承,简直了!
二、NEOWISE的“数据金矿”与导师最初的“小目标”
图注:NEOWISE,近地小行星红外广域巡天探测器
柯老师心里一直惦记着一个叫NEOWISE(近地天体广域红外巡天探测器)的红外望远镜。这台望远镜虽然现在已经“退休”了,但它在过去十多年里,可是兢兢业业地扫描了整个天空,搜寻小行星和其他近地天体。
在它忙着追踪小行星的时候,其实也探测到了其他更遥远宇宙天体的热量变化——那些剧烈闪耀、规律脉动或者被遮挡时亮度变暗的天体。天文学家管这些叫“变源”(variable objects),比如类星体、爆发的恒星、互相掩食的双星等等,都是些“神出鬼没”的家伙。
但问题来了,这些关于变源的数据,之前一直没被好好利用。如果NEOWISE团队能把这些变源识别出来,整理成一个目录共享给天文界,那将为了解这些宇宙实体如何随时间演变提供宝贵的线索。
柯老师回忆道:“那时候,我们那个记录了十多年来每一次探测的表格,数据量已经快接近2000亿行了!” 我的天,2000亿行!手动翻?那不得翻到地老天荒?
“所以我当时给暑期项目的想法是,先挑一小块天空区域,看看能不能手动找到一些变星。然后我们可以把这些发现展示给天文界,说:‘瞧,这是我们手动发现的新东西;你们想象一下这个数据集里还藏着多大的潜力!’”
三、高中生的“AI外挂”:从“大海捞针”到“宇宙级扫描”
图注:Matteo Paz 在 2023 年的一次研讨会上介绍了他项目的研究初期工作。照片:Kitty Cahalan
于是,这个事儿就交给了帕兹。
帕兹在学校选修的一门整合了编程、理论计算机科学和形式数学的课程,早就深谙AI之道。
帕兹心里门儿清:AI训练,最喜欢的就是像柯老师给他的这种量大管饱、还井井有条的数据集。而且,他编程所需的大学高阶数学知识,在帕萨迪纳联合学区的数学学院(Math Academy)里啃完了。
帕兹开始开发一种机器学习技术,目标是分析整个NEOWISE数据集,并标记出潜在的变源。就在那短短的六周里,他的AI模型初稿就搞出来了,而且效果初显。期间,他不断跟柯老师请教,学习相关的天文和天体物理知识。
“每次和柯老师开会,都是10%的工作,剩下90%的时间我俩就是瞎聊,”帕兹笑着说。“能有个人这样一起聊科学,感觉超酷的。”
柯老师还把他引荐给了加州理工的天文学家舒巴内·赫马蒂(Shoubaneh Hemmati)、丹尼尔·马斯特斯(Daniel Masters)、阿希什·马哈巴尔(Ashish Mahabal)和马修·格雷厄姆(Matthew Graham)。这些大牛们在天文机器学习技术以及短时标、长时标变源研究方面,都给了帕兹不少专业指导。
现在,帕兹已经把他的AI模型打磨得炉火纯青,处理了NEOWISE观测到的所有原始数据,并对结果进行了分析。这个被训练来探测望远镜红外测量中微小差异的算法,在数据中标记并分类了150万个潜在的新天体!师徒二人计划在2025年,把NEOWISE数据中亮度变化显著的天体的完整目录发表出来。
四、“不务正业”的AI与导师的“人生高光”
你以为这AI只能看星星?那格局就小了。
帕兹说:“我实现的这个模型,不仅能用于天文学的其他时域研究,理论上还能用于任何以时间序列格式出现的数据。我能预见到它在(股市)图表分析方面的应用潜力,因为那些信息也是时间序列,周期性成分可能至关重要。你甚至可以用它来研究大气效应,比如污染,其中季节性和昼夜循环就扮演着重要角色。”
帕兹在科学奖上的成功,也让柯老师对“为人师表”有了新的感悟:“当他们宣布马特奥是科学竞赛的冠军时,那是我人生中经历过的最激动人心的时刻。我自己以前也获过奖,那当然很刺激,但是当你帮助别人发挥了他们的潜力,并因此得到认可时,那种感觉太美妙了。”
2025 年再生元科学人才搜索一等奖得主马特奥·帕兹手持他的奖杯。照片:科学协会
柯老师补充道:“我们能多大程度上发掘本地社区里那些真正聪明的年轻人,指导他们,确保他们的潜力不被埋没和流失,我们整个社会就会变得更好。”
现在,帕兹一边完成他的高中学业,一边已经是加州理工的正式员工了。他在IPAC为柯克帕特里克工作,参与管理、处理、存档和分析来自NEOWISE以及NASA和NSF支持的其他几个空间任务的数据。这可是帕兹小哥人生第一份带薪工作!