在最初的大數(shù)據(jù)學(xué)習(xí)階段,AI需要學(xué)習(xí)“正反語料”素材,反語料通常包括網(wǎng)絡(luò)上搜集來的不雅詞匯或污言穢語等。有趣的是,一些網(wǎng)絡(luò)新詞更迭速度過快反而成了程序員們當(dāng)下最棘手的難題,“有些詞昨天聽著還很正常,今天就變成了敏感詞匯,比如2017年熱炒的的‘黃鱔女’,出事之后,我們還不能對黃鱔這個(gè)詞一刀切地屏蔽,因?yàn)榭赡軙ζ浔緛硪饬x,但還得讓機(jī)器聰明地判斷出這個(gè)詞出現(xiàn)的場景和語義。這就要求我們的技術(shù)不斷更迭。
亓超表示,在數(shù)據(jù)搜集難題上,他也期待未來能夠和有關(guān)政府部門合作,以便收集到更多的原始素材來提高機(jī)器快速學(xué)習(xí)的能力。
由于擔(dān)心兒童成為網(wǎng)絡(luò)黃色暴力主要的受害群體,三角獸在其“兒童聊天引擎”的設(shè)計(jì)中也更加謹(jǐn)慎處理對內(nèi)容的把控,使其內(nèi)容不良率降低到萬分之零點(diǎn)六。亓超告訴記者,在兒童應(yīng)用設(shè)備中他們會屏蔽過濾掉如戀愛、結(jié)婚、懷孕等成人可接受,但不適合兒童接觸的用語,為兒童營造一個(gè)安全和健康的聊天環(huán)境。
AI鑒黃的準(zhǔn)確度和效率如何?
阿里巴巴安全部高級算法工程師威視對《環(huán)球時(shí)報(bào)》記者表示:AI鑒黃師每天可審核數(shù)億張圖片,識別準(zhǔn)確率高于99.5%。
“舉個(gè)例子,一天要審核4億張圖片的話,單純由人工來審,一人一天審1萬張,需要4萬人,而AI鑒黃只需將其中20萬張可疑的圖片篩出來,由人工再審一道,只需要20人即可。”
圖普科技姜澤榮告訴記者,AI完成鑒別分類后,只會把判斷結(jié)果和概率告訴使用方,使用方再根據(jù)結(jié)果做對應(yīng)處理,比如自動(dòng)刪除、或者人工接入復(fù)審。
AI上崗后,人工鑒黃師都會下崗嗎?
作為早期的人工鑒黃標(biāo)注師,姜澤榮坦言人工鑒黃師其實(shí)是一個(gè)枯燥的體力活,就像“流水線上的工人,遲早會被機(jī)器替代。AI的出現(xiàn)讓人類把這個(gè)體力活外包出去,然后投身到更有意義的工作中去?!?/p>
打開每個(gè)人心靈的窗口,沐之以春風(fēng)、潤之以細(xì)雨,往往就能于無聲處成風(fēng)化人、凝心聚力