在大部分人看來(lái),人工智能是個(gè)有些“科幻”的詞匯,代表小說(shuō)電影中和人類長(zhǎng)相相似、或溫柔或冷酷的機(jī)器人。
稍微熟悉一點(diǎn),這份印象又變成冷冰冰的GPU陣列、復(fù)雜多層的神經(jīng)網(wǎng)絡(luò)和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學(xué)家。
也許這份印象需要再度刷新一次——人工智能,真的需要不少“人工”。
標(biāo)注這件“小事”,還需要人幫忙
秦嬌今年剛滿30歲,幾個(gè)月前剛剛從呼叫中心跳槽到一家“數(shù)據(jù)加工”公司。雖然跨了行業(yè),她并不覺(jué)得兩份工作有什么不同,都是按照甲方的要求和己方的工作節(jié)奏,把人手安排到一個(gè)又一個(gè)項(xiàng)目中去。
公司剛成立不到一年,眼下業(yè)務(wù)大多是標(biāo)注數(shù)據(jù),即根據(jù)項(xiàng)目方要求,人工為圖片、視頻和語(yǔ)音內(nèi)容打標(biāo)簽、做標(biāo)記。標(biāo)注好的數(shù)據(jù)會(huì)被人工智能公司用來(lái)訓(xùn)練算法模型,然后應(yīng)用到圖像識(shí)別、語(yǔ)音識(shí)別等不同領(lǐng)域。
通常來(lái)說(shuō),數(shù)據(jù)標(biāo)注得越準(zhǔn)確、數(shù)量越多,模型的效果就越好。自然,產(chǎn)品的效果就會(huì)更好。
一旦要求質(zhì)量,每個(gè)人的產(chǎn)出量就不會(huì)太多。
熟練者平均一天可以標(biāo)注40張圖片,前提是只需要為圖片中的物體打框、標(biāo)注類別和前后關(guān)系。如果涉及到刻畫建筑物邊緣等復(fù)雜細(xì)節(jié),一天標(biāo)注10張已是極限。
圖片為簡(jiǎn)單標(biāo)注方式的一種
但需要處理的數(shù)據(jù)訂單往往以“萬(wàn)”為單位。最新的需求是6萬(wàn)張圖片,7天內(nèi)完成。理論上這個(gè)訂單需要214個(gè)人共同工作7天,秦嬌手頭只有不到100個(gè)人,其中一部分還要完成其它項(xiàng)目。幾次秦嬌都對(duì)著電話那頭擺出不耐煩的神情,“你跟他說(shuō),要我去死好不好”。
與擁有1,500萬(wàn)張標(biāo)注圖片的數(shù)據(jù)集Image Net相比,只有6萬(wàn)張圖片的項(xiàng)目顯得十分渺小。不過(guò)大部分人可能很難想象,是來(lái)自167個(gè)國(guó)家的48,940名工作者,花費(fèi)了2年時(shí)間,清理、分類、標(biāo)記了近十億張通過(guò)互聯(lián)網(wǎng)搜集到的圖片,才得到這個(gè)有1,500萬(wàn)張圖片的數(shù)據(jù)集。其所耗費(fèi)的時(shí)間與人力,遠(yuǎn)非一般項(xiàng)目可比。
數(shù)據(jù)龐大又開(kāi)源,ImageNet很快成為研究圖像識(shí)別的首選。不論Andrew Ng(吳恩達(dá))還是Jeff Dean,涉足這一領(lǐng)域研究者都使用過(guò)ImageNet。但I(xiàn)mageNet有自己的弱點(diǎn),標(biāo)注框太大、標(biāo)注方式少和不時(shí)出現(xiàn)的錯(cuò)誤,使它難以被用來(lái)訓(xùn)練實(shí)際應(yīng)用的算法模型。
人工智能公司們必須想盡辦法,積累符合自身應(yīng)用方向,標(biāo)注得更細(xì)致、更準(zhǔn)確的數(shù)據(jù)。在初創(chuàng)公司招聘工程師的需求中,“有收集標(biāo)注數(shù)據(jù)的能力”有時(shí)也會(huì)被寫進(jìn)其中。某種程度上,高質(zhì)量的標(biāo)注數(shù)據(jù)決定了一家人工智能公司競(jìng)爭(zhēng)力。
盡管互聯(lián)網(wǎng)的確催生了浩如煙海的內(nèi)容,但標(biāo)注這件需要耐心和專注的“小事”,暫且還要靠人的幫忙。
大數(shù)據(jù)就是呼叫中心
在專業(yè)的數(shù)據(jù)標(biāo)注公司出現(xiàn)前,眾包平臺(tái)往往是大部分公司的選擇。
人們認(rèn)為靈活性更高的眾包方式能適應(yīng)不穩(wěn)定的數(shù)據(jù)需求,價(jià)格成本也更低。某知名數(shù)據(jù)眾包平臺(tái)據(jù)稱擁有超過(guò)5,000名數(shù)據(jù)標(biāo)注專員,單日可處理超過(guò)200萬(wàn)條數(shù)據(jù),能“穩(wěn)定提供數(shù)據(jù)標(biāo)注服務(wù)”。
#FormatImgID_1#
數(shù)據(jù)標(biāo)注是所有數(shù)據(jù)眾包平臺(tái)的核心業(yè)務(wù),除此之外還有數(shù)據(jù)清洗、數(shù)據(jù)采集等等
“收集到的標(biāo)注內(nèi)容中存在噪聲甚至錯(cuò)誤,不能直接作為正確的標(biāo)注使用”早已是不爭(zhēng)的事實(shí)。如何解決眾包平臺(tái)的質(zhì)量缺陷,已經(jīng)成為近年來(lái)博碩士論文的議題之一。
不過(guò)從單日單人數(shù)據(jù)比(400條數(shù)據(jù)/人)可以推測(cè)出,其標(biāo)注質(zhì)量也許并非所說(shuō)的那么可靠。由于參與眾包標(biāo)注的工作者數(shù)量很多,專業(yè)背景和工作能力參差不齊,
通過(guò)數(shù)據(jù)交易平臺(tái)購(gòu)買已標(biāo)注好的數(shù)據(jù)包也是一種選擇。但問(wèn)題似乎又繞回為什么人工智能公司要自己標(biāo)注數(shù)據(jù):不同的應(yīng)用方向需要的數(shù)據(jù)內(nèi)容不同,甚至標(biāo)注方式也不同。
大部分人工智能公司自身和眾包平臺(tái)都無(wú)法同時(shí)滿足這三種要求,因而誕生了專業(yè)的數(shù)據(jù)標(biāo)注公司。
秦嬌目前所在的這家公司,瞄準(zhǔn)的就是這片市場(chǎng)——人工智能公司需要的數(shù)據(jù)既要根據(jù)需求定制,又要保證標(biāo)注質(zhì)量,同時(shí)數(shù)量還十分龐大。
這家“數(shù)據(jù)加工”公司的一二層,全部是負(fù)責(zé)標(biāo)注數(shù)據(jù)的員工。為滿足不同訂單需求,員工們被劃分成不同小組:
有的小組負(fù)責(zé)勾畫圖片中人體的關(guān)節(jié)點(diǎn),將復(fù)雜的瑜伽姿勢(shì)抽象成點(diǎn)和線,可以用來(lái)訓(xùn)練識(shí)別人體體態(tài)的模型;
有的小組要為路況圖片中的車輛、摩托車、自行車和行人打上邊框,并標(biāo)注行進(jìn)方向和是否有遮擋,這類圖片多用來(lái)訓(xùn)練智能安防攝像頭的識(shí)別能力;
有的小組需要分毫不差地描繪建筑物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標(biāo)注成不同的色塊,這類數(shù)據(jù)多用在自動(dòng)駕駛中車輛對(duì)環(huán)境的認(rèn)知;
有的正將雷達(dá)掃描出的障礙物3D線條一一還原成實(shí)物,長(zhǎng)方體是建筑、綠色的是樹木,這些內(nèi)容會(huì)被用來(lái)訓(xùn)練雷達(dá)數(shù)據(jù)和真實(shí)世界的關(guān)聯(lián)性。
標(biāo)注作業(yè)有時(shí)并不簡(jiǎn)單,比如這種關(guān)聯(lián)性標(biāo)注
除圖片外,這里還有負(fù)責(zé)視頻標(biāo)注的員工。她們需要從每段視頻中抽出10幀,標(biāo)注相近兩幀中物體的方向和坐標(biāo)的變化。這些數(shù)據(jù)也許會(huì)被用來(lái)訓(xùn)練機(jī)器對(duì)物體連貫性的感知,也許用來(lái)訓(xùn)練機(jī)器預(yù)判物體的位置變化。
與大部分制造業(yè)類似,這里的各個(gè)小組都有自己的管理者。管理者之上是項(xiàng)目經(jīng)理,然后才是秦嬌這樣為數(shù)不多的高層管理者。員工“生產(chǎn)”的內(nèi)容會(huì)經(jīng)過(guò)質(zhì)檢人員的核驗(yàn),全部合格后才會(huì)最終交付項(xiàng)目方。嚴(yán)格的流程和管理制度,保證了穩(wěn)定的標(biāo)注效率和質(zhì)量。
“很多人認(rèn)為大數(shù)據(jù)就是呼叫中心,我們發(fā)展的大數(shù)據(jù)和其他人不一樣,整個(gè)貴州只有我們做數(shù)據(jù)精加工。”對(duì)于公司目前在做的業(yè)務(wù),秦嬌顯得非常驕傲。
的確,這些結(jié)構(gòu)化后數(shù)據(jù),將成為這場(chǎng)人工智能大潮中的公司們的立足之本。不僅幫助它們提升模型的準(zhǔn)確度、提升產(chǎn)品的可靠性,甚至影響它們的發(fā)展軌跡和融資進(jìn)程。
找到更深入行業(yè)的業(yè)務(wù)模式
“數(shù)據(jù)加工”公司所在地距“大數(shù)據(jù)之城”貴陽(yáng)五十多公里,是一座只接受科技公司入駐的“數(shù)字小鎮(zhèn)”。剛剛落成入駐率不高,加上位置偏遠(yuǎn)、人跡罕至,園區(qū)顯得十分安靜。
“易于管理、盡職盡責(zé)”是秦嬌給這些學(xué)生的評(píng)價(jià)。
有趣的是盡管位處山林之中,小鎮(zhèn)的隔壁有一間規(guī)模不小的高職學(xué)校,學(xué)校的學(xué)生構(gòu)成了這家公司目前主要的員工來(lái)源。除上課外,學(xué)生們每天有大約6個(gè)小時(shí)可以工作,
高職學(xué)校初建的目的是教育扶貧,因此學(xué)生們大多來(lái)自貧困山區(qū),學(xué)校會(huì)提供不少補(bǔ)助和獎(jiǎng)學(xué)金。在數(shù)據(jù)加工公司兼職賺來(lái)的錢不僅足夠生活,有些學(xué)生還會(huì)拿出一部分補(bǔ)貼家用。偶爾這份工作還能成為職業(yè)跳板,“我們的學(xué)生踏實(shí)又努力,有的去北京實(shí)習(xí),因?yàn)槭煜?biāo)注工作、又認(rèn)真,反饋回來(lái)說(shuō)比同樣實(shí)習(xí)的北京大學(xué)生強(qiáng)得多”。
學(xué)校走廊的墻上也貼著不少相似的學(xué)生案例。在描述學(xué)生們?nèi)雽W(xué)前情況的文字中,不可避免地包含著“貧窮”、“雙亡”、“殘疾”等詞匯。
其中一張照片中父親、母親和學(xué)生坐在寨樓的木板地上,身后昏暗的空間里沒(méi)有任何擺設(shè);另一張照片中的學(xué)生摟著患病的哥哥;還有一張照片,面無(wú)表情的學(xué)生正坐在床一樣的地方,背景是用黑白報(bào)紙糊著的墻。后來(lái),她們都憑努力改變了自己和家庭的命運(yùn)。
對(duì)這份工作能帶給學(xué)生的機(jī)會(huì)與回報(bào),“數(shù)據(jù)加工”公司的COO李政同樣十分篤定。
但
摸索了近一年,李政拓展了包括采集數(shù)據(jù)在內(nèi)的不少業(yè)務(wù)。所謂采集數(shù)據(jù),是指自主拍攝符合項(xiàng)目方要求的人像圖片,如一個(gè)人正面、45度、60度以及佩戴各類裝飾物的照片。這些圖片可以用來(lái)訓(xùn)練計(jì)算機(jī)對(duì)于同一張人臉在不同狀態(tài)下識(shí)別的準(zhǔn)確性和關(guān)聯(lián)性,是目前大部分專注人臉的計(jì)算機(jī)視覺(jué)公司都有的需求。
有時(shí),表情也在規(guī)定在數(shù)據(jù)采集的要求中
在自己搭建的攝影棚中,“數(shù)據(jù)加工”公司已經(jīng)完成了好幾份訂單。主角當(dāng)然還是學(xué)生們,她們排隊(duì)依次進(jìn)入影棚,按照要求擺好姿勢(shì)拍下幾張照片后,再分別戴上口罩、墨鏡、帽子繼續(xù)拍攝。一套照片往往包含10幾張,一天能拍攝100多套。比起安防公司自己搜集或拍攝照片,這套標(biāo)準(zhǔn)流程和足夠的樣本數(shù)(學(xué)校至少有上千個(gè)學(xué)生)的確有不小競(jìng)爭(zhēng)力。
除此之外,她們還可以承接小語(yǔ)種的語(yǔ)料收集工作。地處西南、臨近東南亞,當(dāng)?shù)氐娜穗H關(guān)系鏈和頻繁的商務(wù)交往能提供不少便利。
“只做來(lái)料加工肯定不行,”李政非常堅(jiān)定,“我們最近正在培訓(xùn)一些技術(shù)人員,懂技術(shù)才能和項(xiàng)目方更好地溝通需求,把需求更好地描述出來(lái),我們才能更好地滿足。”
精細(xì)化標(biāo)注不是什么容易事
“標(biāo)注真的是個(gè)辛苦活。”提起“數(shù)據(jù)標(biāo)注”四個(gè)字,華院數(shù)據(jù)的首席科學(xué)家尹相志不禁咧了咧嘴。
幾個(gè)月前,華院數(shù)據(jù)剛剛舉辦過(guò)一次大數(shù)據(jù)應(yīng)用比賽,包含識(shí)別復(fù)雜圖像中的動(dòng)物、通過(guò)行車記錄儀的圖像還原駕車操作場(chǎng)景等多個(gè)環(huán)節(jié)。在“通過(guò)賣場(chǎng)貨架圖片自動(dòng)計(jì)算產(chǎn)品的貨架占有率”這項(xiàng)測(cè)試中,她們拍攝了1600多張真實(shí)的貨架圖片作為原始數(shù)據(jù)。
比賽的目的,是通過(guò)不到兩千張的“小數(shù)據(jù)樣本”,實(shí)現(xiàn)往往需要大量樣本才能實(shí)現(xiàn)的圖像識(shí)別。為了讓比賽的難度不那么“變態(tài)”,她們還為選手們提供了“精細(xì)化標(biāo)注”后的貨架圖片——所謂精細(xì)化標(biāo)注,就是貨架上每一包緊挨著的零食、泡面,都要沿邊緣仔細(xì)劃分。
圖中左側(cè)為從真實(shí)貨架照片中挖取出的同類商品碎片;右側(cè)為對(duì)貨架上不同商品的標(biāo)注,每種灰度對(duì)應(yīng)一種商品
深度學(xué)習(xí)最大的問(wèn)題還是樣本數(shù),這里考的其實(shí)是怎樣通過(guò)小樣本進(jìn)行學(xué)習(xí)。
“”通過(guò)這項(xiàng)挑戰(zhàn)的訣竅之一,是將原本1000多張圖片根據(jù)提供的邊緣裁切保留純粹的產(chǎn)品圖像,透過(guò)數(shù)據(jù)增強(qiáng)技術(shù)放大到數(shù)十萬(wàn)張,再根據(jù)這些增強(qiáng)后的圖片建模就可以減少誤差。精細(xì)化標(biāo)注不僅能幫助解決樣本稀少的問(wèn)題,對(duì)于過(guò)往需要幾十萬(wàn)圖片才能訓(xùn)練模型的模式也帶來(lái)了啟發(fā)。
不過(guò)精細(xì)化標(biāo)注并不是什么容易事,這一千多張圖片的標(biāo)注耗費(fèi)了12個(gè)人大半個(gè)月時(shí)間,負(fù)責(zé)標(biāo)注工作的組員“幾近崩潰”。如果有人能承擔(dān)復(fù)雜標(biāo)注這項(xiàng)令人“崩潰”的工作,并善于滿足復(fù)雜的標(biāo)注要求,人工數(shù)據(jù)標(biāo)注能成為一項(xiàng)長(zhǎng)遠(yuǎn)發(fā)展的產(chǎn)業(yè)嗎?
“近期需求還是很大,”尹相志想了想,“但這個(gè)行業(yè)可能只有5年時(shí)間,大家都在想各種辦法,比如開(kāi)源,比如小樣本學(xué)習(xí)本身。”
除了小樣本學(xué)習(xí),人們也在思考是否能合成數(shù)據(jù)。圖像識(shí)別領(lǐng)域的研究者們正在嘗試通過(guò)圖形學(xué)方法,制造出逼真的、和真正訓(xùn)練圖像非常相似的圖片。理論上這種方法能夠產(chǎn)生大量直接帶有標(biāo)注的數(shù)據(jù),但能不能“真實(shí)”,還需要圖形學(xué)上的進(jìn)步。
ImageNet的締造者李飛飛同樣意識(shí)到精細(xì)化標(biāo)注的力量,正在進(jìn)行一份名為“Visual Genome”的工作。Visual Genome有更多、更窄的框,更詳細(xì)的名詞標(biāo)注,以及位置關(guān)系和動(dòng)作關(guān)系。目前Visual Genome中有10.8萬(wàn)張圖片。
對(duì)于數(shù)據(jù)標(biāo)注這件不大不小的麻煩事,每個(gè)從業(yè)者都有自己的看法。有人諱莫如深,將話題轉(zhuǎn)換成互聯(lián)網(wǎng)是最龐大的數(shù)據(jù)集;但事實(shí)上所有人都知道采集到的數(shù)據(jù)無(wú)法直接使用。有人坦誠(chéng)不少數(shù)據(jù)需要學(xué)生兼職或靠自己的員工標(biāo)注,對(duì)質(zhì)量的不滿促使有些公司干脆成立了數(shù)據(jù)標(biāo)注部門;還有人透露,如果用對(duì)了關(guān)鍵詞,在淘寶也能找到不少外包商。
不過(guò)每個(gè)人或多或少都樂(lè)觀相信,5年后就不再需要這么多人力,無(wú)監(jiān)督學(xué)習(xí)、小樣本或者自動(dòng)生成數(shù)據(jù)會(huì)發(fā)揮更大作用。
可那些傾注人們心血標(biāo)記而成、精巧如藝術(shù)品的標(biāo)注圖片,5年后的計(jì)算機(jī),真的不再需要它們了嗎?
數(shù)據(jù)標(biāo)注是一門不錯(cuò)的好生意
在知乎“大公司里面有人專門負(fù)責(zé)標(biāo)注數(shù)據(jù)嗎?”問(wèn)題下,共有21個(gè)回答。來(lái)自大公司的回答者們表示曾“發(fā)動(dòng)全部門人對(duì)幾萬(wàn)張圖進(jìn)行人肉打標(biāo)”,或是將工作“安排在人力成本比較低的分公司”。小公司們則將數(shù)據(jù)“交給隔壁全是女性的部門標(biāo)”,或是“省錢就自己人標(biāo)了”。除此之外,交給外包公司是頻率最高的選項(xiàng)。
從招聘網(wǎng)站發(fā)布的職位需求也可略窺一二。在智聯(lián)招聘中鍵入“數(shù)據(jù)標(biāo)注”,可以找到60個(gè)直接相關(guān)職位。在拉勾網(wǎng)則能找到近400個(gè)——管理外包團(tuán)隊(duì)等相關(guān)職位也被算入其中。以兼職為主題的豆瓣小組和百度貼吧,也從滿屏的寫軟文、寫小說(shuō)、寫評(píng)論,開(kāi)始夾雜數(shù)據(jù)標(biāo)注的兼職招募。
數(shù)據(jù)標(biāo)注是一門不錯(cuò)的好生意
看起來(lái),在人工智能行業(yè)火熱、大量創(chuàng)業(yè)公司涌現(xiàn)的當(dāng)下,。
2009年,張彤禾曾在《打工女孩》中描述過(guò)一群背井離鄉(xiāng),來(lái)到東莞獨(dú)自打拼的女孩。她們剛剛十八九歲,甚至尚未成年,便離開(kāi)學(xué)校在工廠里不分晝夜地工作。流水線上的女工,既不了解自己正在生產(chǎn)什么,也不知道自己的工作“秋西”(QC)就是“質(zhì)量檢測(cè)”。不論工作還是生存環(huán)境都相當(dāng)惡劣,晚上去小吃街就算改善生活,往往也缺乏精神娛樂(lè)。
但與印象中打工者的刻板形象不同,她們既不短視,也不壓抑。她們不在乎15個(gè)人共用一個(gè)房間,50個(gè)人共用一個(gè)洗手間。占據(jù)她們頭腦的是,多久才能存夠買房子的錢?該如何晉升或者干脆跳到更有前景的崗位?所剩無(wú)幾的周末,是該學(xué)習(xí)計(jì)算機(jī)、英語(yǔ)還是別的什么?
與馬克思那份工人與生產(chǎn)物分離后,失去了滿足和快樂(lè)的「資本主義的悲哀」不同,“分離”改變的不一定是她們的社會(huì)地位,而是她們的思想?;ㄙM(fèi)時(shí)間制造的東西并不能代表制造者本身,賺來(lái)的錢花在了哪兒、讓她們學(xué)會(huì)了什么技能、如何改變了她們,才更加重要。
“我們手上的iPod、腳上的Nike、肩上的Coach,無(wú)形中改變了數(shù)百萬(wàn)人的工作、婚姻、生活和思想。”
也許數(shù)據(jù)標(biāo)注同樣如此。在探討這個(gè)行業(yè)存在的合理性與是否能長(zhǎng)久發(fā)展之前,能帶給從業(yè)者的改變就已足夠振奮人心。
但我們?nèi)圆荒芡涍@些人的付出。盡管她們面目不清,從未被人提起。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。