久久国产乱子伦精品免|亚洲午夜国产精品|国产欧美日韩二区在线观看|精品无码一区二区三区四区五区

設(shè)為首頁 - 加入收藏  
您的當(dāng)前位置:首頁 >娛樂 >985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的? 正文

985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的?

來源:銖積寸累網(wǎng)編輯:娛樂時間:2024-11-15 01:10:45

文|《中國科學(xué)報(bào)》記者 徐可瑩

“真相只有一個”,打假這是博士陳路最愛的動漫《名偵探柯南》中的一句標(biāo)志性臺詞。上百集的年領(lǐng)番劇,陳路刷過不止一遍,域內(nèi)連微信頭像都換成了主人公“新一”。開山他是瞎編個不那么典型的“二次元”,酷愛日本動漫,打假但性格安靜、博士內(nèi)向,年領(lǐng)骨子里有點(diǎn)“理想主義”。域內(nèi)

2022年9月,開山還在中國人民大學(xué)信息學(xué)院讀博二的瞎編陳路在知乎上講了個故事,充滿戲劇性——他研究了4年的打假一篇領(lǐng)域內(nèi)“開山”級論文竟然是“假”的。

起初,博士這篇帖子并未引起多少關(guān)注,年領(lǐng)直到陳路的復(fù)現(xiàn)報(bào)告被ICASSP2023接收。一大批網(wǎng)友涌入這片原本無人問津的評論區(qū),豎起大拇指。原帖還被一些微博大V、知名公眾號轉(zhuǎn)載。至此,這個頗具荒誕色彩的“打假”故事才被更多人了解:

一篇源自世界頂尖名校麻省理工學(xué)院(MIT)的領(lǐng)域內(nèi)“開山之作”被質(zhì)疑造假。而舉起這把長矛的人,正是名不見經(jīng)傳的陳路——一位自稱“資質(zhì)平庸”的二次元“土博”。

“該不會是假的吧”

當(dāng)質(zhì)疑的念頭第一次出現(xiàn)在腦海,陳路甚至有些不自信。那是2020年秋天的一個深夜,讀博3個月的陳路喪氣地躺在床上,望著天花板。碩士畢業(yè)一年后,他放棄了一份國字頭的“鐵飯碗”和馬上到手的北京戶口,破釜沉舟般地回到人大繼續(xù)讀博。

由于和碩士階段是同一位指導(dǎo)老師,陳路很自然地?fù)炱鹆四菚r未完成的項(xiàng)目。2018年6月,研一即將結(jié)束,陳路的導(dǎo)師讓他去研究一個名為“語音向量”的前沿領(lǐng)域。該領(lǐng)域的“開山之作”于2017年問世,第一作者是來自MIT的Yu-An Chung,后者曾是臺灣大學(xué)知名教授李宏毅的學(xué)生。

985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的?

MIT的“開山之作”

由于作者出身頂級名校,且其文章中的實(shí)驗(yàn)效果極佳,陳路在接手該任務(wù)之初,并未對實(shí)驗(yàn)的真實(shí)性和權(quán)威性有過懷疑。畢竟,那時的他才接觸AI領(lǐng)域不久,是個資歷不足的“生瓜蛋子”。

最開始的一年,陳路像極了滾石上山的西西弗斯?!爸芏鴱?fù)始,陷入困局”,他在回憶貼中如此形容道?!澳莻€時候主要是想復(fù)現(xiàn)Yu-An Chung的論文,也缺乏經(jīng)驗(yàn),就把所有的精力都投入實(shí)驗(yàn)中,每天就是悶頭做實(shí)驗(yàn),今天改改這兒,明天調(diào)調(diào)那兒?!标惵氛f。

他將每周的實(shí)驗(yàn)結(jié)果都匯總成報(bào)告,整整齊齊排列在文件夾。可等到研究生快畢業(yè)了,實(shí)驗(yàn)仍然沒有任何效果。當(dāng)時,陳路的兩位博士師兄都做出了“十分了得”的成果,連尚未入學(xué)的碩士師弟也是“攜paper進(jìn)組”。陳路夾在中間,“比上不足,比下也不足”。

他實(shí)在想不明白,為什么這個實(shí)驗(yàn)就是復(fù)現(xiàn)不出來,感覺好似面前橫著一堵墻。見陳路每天忙忙碌碌卻沒有進(jìn)展,連導(dǎo)師都質(zhì)疑他,“是不是心思不在上面”。對此,陳路深感歉疚。他答應(yīng)導(dǎo)師,工作后仍會繼續(xù)這項(xiàng)研究。

陳路和女朋友都很喜歡“二次元”文化。在女友心目中,陳路是那種比較理想主義、富有冒險(xiǎn)精神的人?!爱?dāng)時,她認(rèn)為我應(yīng)該去一些大公司,做一些更有挑戰(zhàn)性的事情。”陳路回憶道。但他最后還是退縮了。為穩(wěn)妥起見,他接下了一份國字頭的體制內(nèi)工作。為此女朋友有些失望——“她覺得我應(yīng)該去爭取那些成為‘英雄’的機(jī)會,那樣我會更高興”。

進(jìn)入單位后,陳路被現(xiàn)實(shí)上了一課。他發(fā)現(xiàn),之前對方承諾的很多東西都無法兌現(xiàn)。身處非核心業(yè)務(wù)崗位,陳路被置于一種“身心俱疲,賺不到錢,發(fā)展又很受限”的尷尬境地。不出一個月,他就向單位遞交了辭職申請,逃離這個“圍城”。同時丟掉的,還有即將進(jìn)入流程的北京戶口和珍貴的“應(yīng)屆生身份”。

但陳路那時并沒有多想。他只知道,有些選項(xiàng)必須采用排除法。

從單位離職后,陳路進(jìn)入一家校友建立的創(chuàng)業(yè)公司,度過了一段自由快樂的職場時光。但冥冥之中,他總是不甘心。后來,陳路得知碩士階段的室友正在申請博士,于是便抱著背水一戰(zhàn)的心態(tài)和他一起申請了博士。出乎意料的是,他收到了好幾位導(dǎo)師拋來的橄欖枝。最終,陳路選擇回到人大,回到曾經(jīng)的碩導(dǎo)身邊。因?yàn)樗?,有件事情一直在等他畫上句號。

2020年夏天,陳路重返校園。彼時,對于兩年前沒能復(fù)現(xiàn)的那篇“開山之作”,陳路摩拳擦掌,下定決心要搞出個結(jié)果。開學(xué)后,陳路把自己關(guān)在實(shí)驗(yàn)室,又悶頭研究了3個月。為此,他甚至自費(fèi)購買了一臺實(shí)驗(yàn)設(shè)備。

985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的?

中國人民大學(xué),2020年秋。受訪者供圖

還是沒有效果。陳路的信念趨于崩塌,他整晚整晚睡不著覺。如果說碩士階段是因?yàn)榻?jīng)驗(yàn)不足、不夠?qū)W⒆霾怀鰜?,現(xiàn)在又全身心投入3個多月,卻依然不見起色,到底怎么了?

“像我的同學(xué)們,哪怕他們是做一個新領(lǐng)域,快的話也就兩三個月就可以把實(shí)驗(yàn)做出來,甚至論文都寫好了。而我,前前后后整了一年半?!标惵飞钜躬?dú)自躺在床上,百思不得其解,“就算別人比我聰明4倍,我也付出了4倍的努力,卻連最基本的實(shí)驗(yàn)都做不出來。為什么?”

突然,一個念頭不受控制地冒了出來:

“那篇文章該不會是假的吧?”

關(guān)于假的論證

第一作者世界頂尖名校畢業(yè)、出身著名教授實(shí)驗(yàn)室,論文被奉為領(lǐng)域內(nèi)“開山之作”,甚至榮獲Interspeech2020的“Best Student Paper Award”……怎么看,這些都是可信的強(qiáng)大背書。但除這些“title”之外,周路實(shí)在找不出其他能夠驗(yàn)證其真實(shí)性的有力證據(jù)?!按蚣佟?,成了唯一的選項(xiàng)。

很快,陳路就想好了驗(yàn)證思路?!膀?yàn)證實(shí)驗(yàn)有沒有造假,思路實(shí)際上非常簡單,甚至沒有任何技術(shù)含量。”他不好意思地?fù)蠐项^。

相比利用語音生成詞向量,在AI領(lǐng)域還有一種相對成熟的詞向量產(chǎn)生途徑,叫做“文本詞向量”。陳路懷疑,這篇論文提供的“語音向量”方法根本不成立,作者是用“文本向量”做的數(shù)據(jù)。

他對《中國科學(xué)報(bào)》講述了自己的驗(yàn)證思路。

首先,在語音中存在同音異義詞。例如“ate”和“eight”這兩個單詞,在發(fā)音上非常相近。對于論文作者所提出的模型而言,輸入一致,輸出結(jié)果就必定一致。因此,兩個同音異義詞的輸出結(jié)果也一定會非常相近。相反,文本的相似性則會非常低。陳路取了一些同音異義詞向量組,對其做了相似性概算,發(fā)現(xiàn)和用文本向量得出的結(jié)果幾乎一模一樣。

“這也能解釋他的實(shí)驗(yàn)效果為什么那么好了,就是用文本做的?!?/p>

此外,陳路還對文章中語料的詞表構(gòu)成做了核查。“語音語料在預(yù)處理過程中相較文本語料多了一個音頻切分過程,這個過程并不完美,使得最后得出的詞匯構(gòu)成發(fā)生變化,不像文本那般一一對應(yīng),這意味著最后得出的詞匯數(shù)是有損的。”

陳路發(fā)現(xiàn),文中的詞表似乎并不符合語音處理的一般邏輯。于是,他開始嘗試用文本作為語料,輔助一些特定處理規(guī)則,驗(yàn)證會不會得到與文中相同的詞匯數(shù)?!白詈笪疫€真找到了他是怎么處理的。”陳路用這種文本處理方法得到的詞數(shù),竟然與作者發(fā)布的數(shù)量完全相同!

當(dāng)然,陳路也聯(lián)系過作者。事實(shí)上,他在2018年初次接手該復(fù)現(xiàn)工作時,就郵件聯(lián)系過Yu-An Chung。當(dāng)時,陳路抱著虛心請教的態(tài)度,向作者列出了自己在實(shí)驗(yàn)中遇到的種種問題。Yu-An Chung回復(fù)郵件很及時,對陳路進(jìn)行了指導(dǎo)。兩人有來有往,甚是友好。

做過相似性和詞匯數(shù)比對后,陳路出于穩(wěn)妥考慮,還切換了一個“小號”,用一個外國人的假名字給Yu-An Chung發(fā)去了郵件,希望他能夠提供代碼作為參考。意外的是,Yu-An Chung竟爽快地發(fā)來了代碼。陳路抱著最后一絲希望,重新用作者提供的代碼,嚴(yán)格按照作者的實(shí)驗(yàn)步驟,卻依然無法實(shí)現(xiàn)文章中的效果。

事已至此,陳路基本在心里定了案——原文絕對有問題。但迫于博士畢業(yè)的壓力,陳路無法繼續(xù)全力投入這項(xiàng)“打假”工作,他必須做出其他更漂亮的成果,先讓自己順利畢業(yè)。

接下來的一年多時間,陳路便將精力全部投入在新課題上。直到2022年下半年,才得空重新回歸“打假”。他將完整的復(fù)現(xiàn)過程整理成報(bào)告,這時身邊也開始出現(xiàn)一些勸阻的聲音。

同學(xué)勸陳路,這種工作耗時耗神,又不具備什么技術(shù)創(chuàng)新點(diǎn),無論對做學(xué)術(shù)還是找工作而言,都“不好用”。

但陳路不想草草了事。在這件事情上,他耗費(fèi)了整整4年。讀研之初,他滿懷希望,對女友許下承諾:“碩士畢業(yè)前我要把語音向量搞出來,然后去找個算法方面的工作!”他看起來像位即將出征的騎士,身邊有著最崇拜自己的小公主。“那時,我打心眼里認(rèn)為這項(xiàng)研究是‘偉大且富有價(jià)值’的?!?/p>

等他真正拿到“結(jié)果”,已是4年后。而所謂的“結(jié)果”,也并不是想象中那般堂皇、閃耀,充滿氣概。

這是陳路最難捱的4年,也是實(shí)現(xiàn)自我蛻變的4年。他發(fā)現(xiàn),在很多研究中,特別在AI這種瘋狂進(jìn)擊的前沿領(lǐng)域,很多人早已不在意一項(xiàng)工作是否做得扎實(shí)、做得沒有漏洞,只在乎它有多“漂亮”,跑得有多快。

他對標(biāo)準(zhǔn)產(chǎn)生了懷疑。“做科研有時候越fancy越好。而我其實(shí)更像一個工程師,做工程無所謂fancy與否,一個小漏洞都能決定其是否成功?!?/p>

為了給自己的4年畫上一個完整的句號,陳路果斷將自己的復(fù)現(xiàn)報(bào)告公布在了arXiv預(yù)印本網(wǎng)站上。公布前,陳路再一次給第一作者Yu-An Chung及通訊作者發(fā)去了郵件,詢問能否解釋一下自己的復(fù)現(xiàn)結(jié)果?!拔蚁朐俳o他一個機(jī)會?!钡l(fā)出的郵件卻石沉大海。

反常的沉默在陳路的意料之中,這進(jìn)一步印證了他的判斷。

意外之喜

報(bào)告出現(xiàn)在預(yù)印本網(wǎng)站后,有很多來自全世界各地的研究人員對陳路表示感謝。他們和陳路一樣,都是苦苦復(fù)現(xiàn)原論文中的實(shí)驗(yàn)卻沒有結(jié)果的人。陳路的報(bào)告讓一些人恍然大悟,避免在這個也許根本不成立的研究方向上,投入更大的“沉沒成本”。

在預(yù)印本網(wǎng)站收獲正向反饋后,陳路決定投稿。投出前,陳路和導(dǎo)師做了全面的討論,“多次論證我是否會誤傷對方,但最后討論的結(jié)果是‘不會’。”出于關(guān)心,導(dǎo)師也曾勸陳路:“以后還要在一個圈子里混,這種事情要慎重?!?/p>

可陳路鐵了心要投。為了給自己一個說法,也為曾陪伴自己許久、最終遺憾分開的女友。“我心里下定決心,不管能不能投中,至少我要投十個會議,不給自己留遺憾?!?/p>

2023年2月,陳路驚喜地收到了ICASSP2023的接收通知。這篇論文需要做poster報(bào)告,地點(diǎn)在希臘。但由于距離太遠(yuǎn),陳路沒去成。

985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的?

ICASSP2023會議

“我印象比較深刻的是最后ICASSP的評委主席也給了意見。他說這篇報(bào)告盡管在學(xué)術(shù)上沒有提供什么比較創(chuàng)新的想法,但它是一項(xiàng)非常有價(jià)值的工作,能夠幫助反思我們之前取得的一些結(jié)果。”陳路說。

他將投稿結(jié)果更新在知乎原帖的開頭,帖子瞬間爆了。熱度最高的留言是這樣說的:

“我個人非常appreciate這樣的工作,這種發(fā)現(xiàn)可以讓很多人避免進(jìn)坑,不覺得你浪費(fèi)了四年。我感覺你這幾年的失敗讓你有這個結(jié)論,遠(yuǎn)比搞出兩三個成功的算法對學(xué)術(shù)界更有意義和影響力……”

事實(shí)上,陳路的這項(xiàng)工作的確為他帶來了意外之喜。帖子被更多人看到后,有位來自微軟的資深研究員向他拋來了橄欖枝,為他提供了一份含金量很高的實(shí)習(xí);博士畢業(yè)前不久,一家新興AI公司的負(fù)責(zé)人也找到陳路,稱對他所做的工作非常欣賞,并提供了一份漂亮的offer。

985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的?

微軟亞洲研究院。受訪者供圖

在整個過程中,還出現(xiàn)過一個宿命般的小插曲。2023年6月,陳路的文章被ICASSP2023接收后,曾收到過一封來自臺灣的郵件。

對方自稱是臺灣大學(xué)李宏毅教授實(shí)驗(yàn)室的一名學(xué)生。他向陳路透露,他們實(shí)驗(yàn)室有好幾位同學(xué)都曾嘗試復(fù)現(xiàn)過Yu-An Chung的那篇論文研究過程,皆一無所獲,甚至還有一人因此差點(diǎn)畢不了業(yè)。陳路的文章發(fā)表后,實(shí)驗(yàn)室有同學(xué)將他的文章放入meeting的排程中,李宏毅本人還為此寫下“這篇太勁爆了!一定要有人來講一下”的批注。同學(xué)講解完畢后,李宏毅還激動地表示他曾經(jīng)也復(fù)現(xiàn)失敗,有很多人因此受害等。

“您的文章讓我們實(shí)驗(yàn)室為之震撼,我們很佩服您有這樣的勇氣與決心通過完整實(shí)驗(yàn)將整件事情公諸于世?!睂Ψ皆卩]件中寫道。

陳路回復(fù):“我現(xiàn)在感覺,這篇文章還是有意義的?!?/p>

沒錯。因?yàn)?,真相比一切都重要。

(文中陳路為化名)

0.4684s , 8785.5390625 kb

Copyright © 2024 Powered by 985博士耗時4年“打假”:領(lǐng)域內(nèi)“開山之作”是瞎編的?,銖積寸累網(wǎng)  

sitemap

Top