“用大數(shù)據(jù)和人工智能服務(wù)企業(yè),這片市場相對(duì)更加藍(lán)海,門檻和壁壘更高”。火石創(chuàng)造創(chuàng)始人兼CEO楊紅飛如是說道。
獲國際醫(yī)藥巨頭青睞
火石創(chuàng)造將自己定位成“智能醫(yī)健大數(shù)據(jù)服務(wù)平臺(tái)”,要用人工智能和大數(shù)據(jù)賦能企業(yè)的研發(fā)、營銷、銷售和戰(zhàn)略制定。楊紅飛認(rèn)為,要做好這件事情,必須先組建一支復(fù)合型的技術(shù)團(tuán)隊(duì)。
火石創(chuàng)造的技術(shù)團(tuán)隊(duì)主要由三類人員構(gòu)成:一、負(fù)責(zé)研發(fā)和IT架構(gòu)的技術(shù)人員;二、算法專家;三、擁有深厚醫(yī)學(xué)背景和產(chǎn)業(yè)經(jīng)驗(yàn)的技術(shù)人才。
楊紅飛對(duì)雷鋒網(wǎng)表示,和服務(wù)于疾病的醫(yī)療AI企業(yè)不同,火石創(chuàng)造的醫(yī)學(xué)人才不僅具備醫(yī)學(xué)專業(yè)知識(shí),還對(duì)企業(yè)經(jīng)營有著深刻的理解。他說道:“我們的創(chuàng)始團(tuán)隊(duì)都是做產(chǎn)業(yè)出身的,過去自己做過企業(yè)經(jīng)營,有比較深入的體會(huì)。”
正因如此,國際醫(yī)藥巨頭默沙東在先后接觸了IBM、微軟等多家企業(yè)后,最終選擇和火石創(chuàng)造達(dá)成戰(zhàn)略合作,共同開發(fā)醫(yī)學(xué)指南機(jī)器輔助閱讀系統(tǒng)。
“客戶洞察”是默沙東醫(yī)學(xué)部的重要日常工作之一。默沙東希望利用人工智能技術(shù)對(duì)已出版的歷年英文醫(yī)學(xué)指南與文獻(xiàn)進(jìn)行機(jī)器閱讀,并深度挖掘出未被滿足的臨床需求、亟待完善的數(shù)據(jù)需求、競品醫(yī)學(xué)信息、最新臨床經(jīng)驗(yàn)、近期被關(guān)注的話題等等。從而更好的了解客戶需求,為客戶提供更為精準(zhǔn)的醫(yī)學(xué)服務(wù)并造福于病患。
幾經(jīng)篩選之后,既懂醫(yī)療行業(yè),又對(duì)數(shù)據(jù)和算法有深入了解的火石創(chuàng)造成了最佳選項(xiàng),二者一拍即合。
什么是醫(yī)學(xué)指南機(jī)器輔助閱讀系統(tǒng)?
“醫(yī)學(xué)指南機(jī)器輔助閱讀系統(tǒng)能夠幫助用戶快速閱讀所需的指南信息,了解特定疾病治療領(lǐng)域的發(fā)展趨勢(shì)。”火石創(chuàng)造創(chuàng)新產(chǎn)品總監(jiān)周俊博士表示,這套系統(tǒng)將導(dǎo)入當(dāng)前已發(fā)布并可收集到的醫(yī)學(xué)指南文本,同時(shí)加載近10年發(fā)布的疾病相關(guān)文獻(xiàn)與經(jīng)過編輯的疾病醫(yī)學(xué)知識(shí)庫,輔助用戶挖掘價(jià)值信息,具體包括診斷標(biāo)準(zhǔn)、治療流程、藥物使用情況、治療療程、高頻文獻(xiàn)等。通過用戶的使用與反饋信息,系統(tǒng)運(yùn)用自學(xué)習(xí)機(jī)制,不斷提高系統(tǒng)的信息挖掘和有效信息推薦的能力。
該醫(yī)學(xué)指南機(jī)器輔助閱讀系統(tǒng)的具體功能包括:
推薦醫(yī)學(xué)文獻(xiàn)中近期出現(xiàn)的高頻、熱點(diǎn)詞匯,并輸出參考文獻(xiàn)列表。系統(tǒng)將引導(dǎo)用戶輸入關(guān)注的內(nèi)容,并快速定位相關(guān)段落,根據(jù)內(nèi)容重要性和出現(xiàn)頻率進(jìn)行推薦。當(dāng)用戶聚焦于某一推薦段落閱讀時(shí),系統(tǒng)將高亮段落中的重點(diǎn)醫(yī)學(xué)詞匯,提示用戶關(guān)注。此外,系統(tǒng)還可以智能化輸出標(biāo)準(zhǔn)化的指標(biāo)比對(duì)情況,以及提供用戶自定義對(duì)比。最終,在可視化交互界面中出現(xiàn)直觀的對(duì)比結(jié)果。
對(duì)已有醫(yī)學(xué)指南的質(zhì)量進(jìn)行評(píng)估:用戶在系統(tǒng)中提交醫(yī)學(xué)指南后,需要選擇指南的年份、疾病種類和打分敏感度,隨后打分輔助系統(tǒng)會(huì)依據(jù)火石創(chuàng)造所設(shè)計(jì)的,基于打分規(guī)則模型,給出23個(gè)評(píng)分點(diǎn)的分值。
楊紅飛表示,這套系統(tǒng)的推出得益于默沙東和火石創(chuàng)造的親密協(xié)作。默沙東的醫(yī)學(xué)科研人員主要負(fù)責(zé)幫助火石創(chuàng)造建立對(duì)產(chǎn)品的理解和認(rèn)知,比如人是如何閱讀醫(yī)學(xué)指南的,他的閱讀邏輯是什么,他們需要在醫(yī)學(xué)指南中提取哪些關(guān)鍵信息,如何將這些信息互相比對(duì);以及如何找到信息變更的依據(jù)等?;鹗瘎?chuàng)造則負(fù)責(zé)具體的技術(shù)實(shí)現(xiàn)。
用到了哪些技術(shù)?
據(jù)火石創(chuàng)造創(chuàng)新產(chǎn)品總監(jiān)周俊博士介紹,醫(yī)學(xué)指南機(jī)器輔助閱讀系統(tǒng)的核心技術(shù)主要包括:
1.疾病知識(shí)庫的建立;
2.詞語特性的抽取 ;
3.語義理解;
4.系統(tǒng)的自學(xué)習(xí)功能(智能化識(shí)別)
周俊博士表示,實(shí)體識(shí)別與關(guān)系抽取是疾病知識(shí)庫構(gòu)建的一大技術(shù)難點(diǎn)。目前,流行的實(shí)體識(shí)別方法主要有基于規(guī)則(Pattern-based)的方法、基于深度學(xué)習(xí)的LSTM + CRF,以及BPS方法。
基于規(guī)則的方法要對(duì)識(shí)別的實(shí)體類型設(shè)計(jì)人工規(guī)則,通過多次迭代驗(yàn)證來修改這些規(guī)則,逐漸提升識(shí)別的準(zhǔn)確率,也可利用標(biāo)注好的訓(xùn)練樣本來自動(dòng)篩選這些規(guī)則?;谏疃葘W(xué)習(xí)的方法可以把實(shí)體識(shí)別和關(guān)系抽取放到一起,作為一個(gè)端到端的系統(tǒng),用一套網(wǎng)絡(luò)同時(shí)識(shí)別出實(shí)體和關(guān)系,或用LSTM網(wǎng)絡(luò)提取特征,作為CRF的輸入,即在輸出端用CRF對(duì)結(jié)果校正。用端到端的神經(jīng)網(wǎng)絡(luò)方法可以省去規(guī)則方法的大量的特征工程,簡化開發(fā)過程,但是要求有大量的標(biāo)注樣本才能夠達(dá)到好的效果。
為此,火石創(chuàng)造計(jì)劃用一些半監(jiān)督訓(xùn)練的方法(如GAN),和對(duì)樣本需求量更少、效果更好的NTM網(wǎng)絡(luò)對(duì)LSTM網(wǎng)絡(luò)進(jìn)行修改,并利用遷移學(xué)習(xí)的方法,先在其他場景下的大量樣本下進(jìn)行訓(xùn)練,再把結(jié)果遷移到當(dāng)前的數(shù)據(jù)集。
另外,目前業(yè)內(nèi)的全文檢索方式都是通過關(guān)鍵詞匹配的方式去檢索的,但是意義相似關(guān)鍵詞不同的內(nèi)容可能無法檢索出?;鹗?a href=http://www.yizongshi.cn/index.php?m=content&c=index&a=infolist&typeid=1&siteid=1&type=keyword&serachType=2&key=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD style='color:#57A306' target='_blank'>人工智能數(shù)據(jù)挖掘平臺(tái)利用word2vec和fasttext,訓(xùn)練了一個(gè)醫(yī)療健康語義模型?,F(xiàn)在已經(jīng)可以完成一些簡單的語義級(jí)別的搜索,比方搜索機(jī)器學(xué)習(xí),人工智能的相關(guān)內(nèi)容會(huì)被檢索出,機(jī)器能自動(dòng)計(jì)算出他們的相關(guān)性。
周俊博士向雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))介紹,火石創(chuàng)造的醫(yī)學(xué)指南機(jī)器輔助閱讀系統(tǒng)目前已經(jīng)從Pubmed、Web Of Science、Springer、Wiley Interscience、 Science Direct等文獻(xiàn)數(shù)據(jù)庫中,采集了200多萬條相關(guān)醫(yī)學(xué)文獻(xiàn);同時(shí)還通過醫(yī)學(xué)詞匯字典和文獻(xiàn)中的自學(xué)習(xí)獲取了幾十萬條相關(guān)詞條。周俊博士坦言,這套系統(tǒng)目前還不夠完善,未來火石創(chuàng)造會(huì)繼續(xù)給機(jī)器輸入,或者讓它在文獻(xiàn)中自動(dòng)挖掘更多的詞匯。
借助這套系統(tǒng),醫(yī)生和醫(yī)藥企業(yè)的醫(yī)學(xué)指南閱讀人員,包括醫(yī)藥新藥研發(fā)人員、醫(yī)藥推廣/銷售人員,可以更加方便快捷地抓取自己想要的信息。
與默沙東達(dá)成戰(zhàn)略合作是對(duì)火石創(chuàng)造的一次充分認(rèn)可,但火石創(chuàng)造對(duì)未來還有著更多的憧憬。
用AI賦能企業(yè)和政府
為了解決醫(yī)健行業(yè)中的數(shù)據(jù)之困,火石創(chuàng)造利用人工智能與大數(shù)據(jù)技術(shù)構(gòu)建全球醫(yī)健產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)地圖 HSMAP為企業(yè)和政府賦能。通過自主研發(fā)的Spider智能數(shù)據(jù)源構(gòu)建系統(tǒng)和Darwin數(shù)據(jù)智能處理引擎,覆蓋全球635個(gè)官方數(shù)據(jù)源,10萬個(gè)數(shù)據(jù)采集點(diǎn)的數(shù)據(jù)合作和交換機(jī)制,以及基于全球主要搜索引擎的數(shù)據(jù)獲取框架和機(jī)制。
據(jù)雷鋒網(wǎng)了解,目前 火石創(chuàng)新創(chuàng)業(yè)地圖HSMAP 已有 229萬+創(chuàng)業(yè)公司、6萬+研究機(jī)構(gòu)、5萬+投資機(jī)構(gòu)、1400萬+專利、230萬+產(chǎn)品、1000萬+位創(chuàng)業(yè)者、22萬+臨床試驗(yàn)及 2000萬+文獻(xiàn)數(shù)據(jù)。
火石創(chuàng)造CEO楊紅飛表示,未來火石創(chuàng)造將通過核心產(chǎn)品產(chǎn)業(yè)大腦系統(tǒng),與各區(qū)域政府建立合作,一方面在業(yè)務(wù)上成為政府大健康產(chǎn)業(yè)發(fā)展所依賴的戰(zhàn)略合作伙伴,實(shí)現(xiàn)第一階段的營收;另一方面從戰(zhàn)略上形成區(qū)域大健康產(chǎn)業(yè)數(shù)據(jù)的分級(jí)采集網(wǎng)絡(luò),使得系統(tǒng)運(yùn)行產(chǎn)生源源不短的數(shù)據(jù)流,不斷完善產(chǎn)業(yè)數(shù)據(jù)。
同時(shí)通過企業(yè)大數(shù)據(jù)情報(bào)系統(tǒng)產(chǎn)品,以及后續(xù)企業(yè)AI中心產(chǎn)品和服務(wù),向大健康企業(yè)輸入大數(shù)據(jù)和人工智能技術(shù),建立企業(yè)對(duì)火石的技術(shù)和數(shù)據(jù)依賴。
通過各項(xiàng)業(yè)務(wù)的開展,最終形成生命健康產(chǎn)業(yè)的協(xié)同網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)。平臺(tái)可以精準(zhǔn)的實(shí)現(xiàn)產(chǎn)業(yè)的多邊組合和協(xié)作,發(fā)揮信息發(fā)布、鏈接、資源整合、以及中間信用服務(wù)等功能。
楊紅飛表示,從信息到數(shù)據(jù),從數(shù)據(jù)到資源,從資源到交易,是火石平臺(tái)化發(fā)展的路徑。在完善數(shù)據(jù)服務(wù)之后,火石將進(jìn)一步鏈接、整合各方資源,形成基于數(shù)據(jù)的精準(zhǔn)匹配。而要做到這些,不僅是要有先進(jìn)的技術(shù)能力、完整且實(shí)時(shí)在線的數(shù)據(jù)庫,還需要有較強(qiáng)的運(yùn)營能力?;鹗瘜⒉粩嗉哟蠹夹g(shù)研發(fā)投入,鍛造核心競爭力。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。