想象一下,大伯大媽和機(jī)器人用杭州話談天說(shuō)地,年輕人“一鍵生成”杭州話說(shuō)唱,小伢兒捧著杭州話AI“從早間頭話到夜到頭(杭州方言:從早說(shuō)到晚)”,這是什么魔幻場(chǎng)景?
其實(shí),AI距離會(huì)說(shuō)正宗杭州話,只差“臨門(mén)一腳”了!由浙江大學(xué)文學(xué)院、阿里巴巴AI Data團(tuán)隊(duì)牽頭,浙大城市學(xué)院杭州語(yǔ)言服務(wù)協(xié)同創(chuàng)新研究中心協(xié)辦的“杭州方言系統(tǒng)化采集工程”正在緊鑼密鼓進(jìn)行中。
AI看似無(wú)所不能,但讓它學(xué)會(huì)說(shuō)杭州話,其實(shí)是有難度的。這和杭州方言的特殊性有關(guān)。
“95后”杭州方言研究者高任飛是本次項(xiàng)目的主要參與者之一。他介紹,杭州話(杭州小片)屬于漢語(yǔ)族下的吳語(yǔ)太湖片區(qū),難就難在杭州話保留了古漢語(yǔ)中的清濁音、入聲等語(yǔ)音特征,足有7個(gè)聲調(diào),甚至杭州話在連讀時(shí)還會(huì)“再變調(diào)”,比如“西、湖”和“我到西湖”,“西、湖”兩字的聲調(diào)就不同。
“如果沒(méi)有廣大杭州市民動(dòng)嘴錄下來(lái)的數(shù)據(jù)支撐,AI說(shuō)杭州話,只會(huì)說(shuō)得一口‘洋涇浜’(指語(yǔ)言不規(guī)范)?!?/p>
目前,“杭州方言系統(tǒng)化采集工程”發(fā)出征集令,只要符合以下條件:自幼大部分時(shí)間生活在杭州老城區(qū);能說(shuō)一口自然、地道的杭州話,就可以加入杭州話AI的打造工程。
這個(gè)借助高科技的語(yǔ)言采集項(xiàng)目,更深層的含義是杭州方言的傳承和保護(hù)。
“在杭州老城區(qū),能流利說(shuō)地道杭州話的人越來(lái)越少。年輕一代中,能自然用杭州話交流的,更是寥寥。承載歷史記憶的杭州話,正面臨傳承的危機(jī)。我們不想讓這份獨(dú)一無(wú)二的聲音,就這樣沉默下去?!备呷物w表示。
“只要你愿意為家鄉(xiāng)話出一份力,我們都真誠(chéng)歡迎你加入。加入方式很簡(jiǎn)單,用手機(jī)錄制你朗讀的杭州話,我們會(huì)提供簡(jiǎn)短文本,你用自然語(yǔ)速朗讀即可。錄音時(shí)長(zhǎng)也自由安排,10分鐘也好,幾個(gè)小時(shí)也行。你的每句地道發(fā)音,都將被永久保存,進(jìn)入杭州方言高質(zhì)量數(shù)據(jù)庫(kù),成為未來(lái)研究、技術(shù)訓(xùn)練、文化傳承的珍貴原料。對(duì)參與錄音的志愿者,我們還將支付一定報(bào)酬?!?/p>
本次杭州方言采集主要針對(duì)杭州老城區(qū)及西湖周邊龍井、梅家塢一帶的方言,余杭、蕭山、彭埠、轉(zhuǎn)塘等地方言暫不納入。2月13日起,市民可以用手機(jī)登錄網(wǎng)站報(bào)名,并完成小測(cè)試。
“這個(gè)測(cè)試主要看你的杭州話是否地道,能否輕松應(yīng)對(duì)。比如請(qǐng)你用杭州話說(shuō):‘我清個(gè)老早爬起來(lái),望橫河橋嗰把兒里走過(guò)去?!?/p>
杭州話AI模型何時(shí)出爐?“參加錄音的人越多,語(yǔ)料越豐富,這個(gè)模型就能越快發(fā)布?!苯窈?,杭州話AI模型可以生成大段的杭州話文本以及語(yǔ)音,面向各種場(chǎng)景,包括公共服務(wù)、學(xué)術(shù)研究、杭州話學(xué)習(xí)等。
“我們的愿景就是用現(xiàn)代科技,為杭州話留下一份真實(shí)、完整、鮮活的‘?dāng)?shù)字聲音檔案’,讓鄉(xiāng)音在人工智能時(shí)代,依然能被聽(tīng)見(jiàn)、被讀懂、被傳遞?!备呷物w說(shuō)。





