自然語言處理(NLP)被譽為人工智能皇冠上的“明珠”。近年來,人工智能(AI)取得了長足的發展,其中最重要的技術進步之一發生在NLP領域。NLP技術的進步使得機器翻譯質量大幅提高,也催生了更多數字化場景應用,隨之國內NLP產業也迎來快速發展。據艾瑞咨詢預測,2022年NLP相關產業規模將達到1500億元,到2025年達到2400億元。微軟亞洲研究院認為未來十年是NLP發展的黃金時期。
浪潮之下,創新企業正在成為NLP創新突破的重要力量,中科凡語就是其中的典型代表。中科凡語是中國科學院自動化研究所孵化、專注于NLP服務的創新型企業,已發展成為業內領先的多語言跨領域多模態自然語言處理方案商、服務商、運營商。恰逢中科凡語成立4周年之際,中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士分享了NLP的發展趨勢和中科凡語的工作成果。
中國科學院自動化研究所研究員、
博士生導師、中科凡語董事長周玉博士
從通用到定制形成動態閉環
搭建NLP底層技術平臺
目前NLP產品的應用落地任重道遠,面臨的問題主要有兩個,一是高定制化場景帶來的高溝通門檻,使得溝通效率較低;二是要開發通用性較強的產品,需要不同的業務數據支撐,適配過程較為漫長。面對NLP產品的定制化和通用性難題,中科凡語獨辟蹊徑。
周玉研究員表示,“早期可以面對不同行業領域客戶先提煉出共性需求,搭建一個通用的技術框架,滿足基礎的模塊功能;然后再構建通用場景的通用產品;之后再遷移到特定場景進行定制化開發;最后在定制化過程中再衍生出面向特定場景的產品。總的來看,其實是在動態演化過程中不斷完善迭代,從通用到定制形成動態閉環。”
NLP產品開發的底層邏輯是技術儲備,技術儲備越豐富,通用技術模塊越成熟,遷移成本就會越低,在特定行業的產品化效率也就越高,行業壁壘也就隨之建立起來。
基于深厚的技術積淀,目前中科凡語推出了“信譯”、“信推”、“信析”、“信服”和“信取”五大NLP技術產品?!靶抛g”是基于為用戶提供優質、專業、準確、高效的機器翻譯服務;“信推”是針對長文本完成多模態自動摘要生成和關鍵詞提取及內容推送;“信取”則提供跨場景、多語言、多粒度的數據爬取、融合、分類及管理,等等。目前中科凡語所推出的“五信”,“飛譯”或是“洞知”產品,都是基于客戶普遍的共性需求所建立的。未來的產品開發,還將繼續朝著系統化、模塊化、工具化的方向出發,為客戶提供更易組裝、更加靈活、適用性更強的智能服務產品,構建多模塊、廣適用、高精度的底層NLP技術平臺。
專業領域億級語料數據
為行業發展提供動力
高質量標注數據是AI時代NLP技術的關鍵因素。NLP技術本質上是基于深度學習的,相比于視覺或音頻信息,自然語言更加抽象,蘊含了更加豐富的人類定義的知識。因此,NLP的技術效果很大程度上取決于標注數據的質量和規模。
中科凡語作了大量的基礎工作。在標注人員方面,以翻譯樣本標注為例,中科凡語同全國100多所高校外國語學院達成了合作,并建立了與之相對應的人物畫像,豐富語種人才庫的同時,進一步提升適配效率;在標注數據方面,分層分級,重點篩選種子樣本;再通過不斷優化迭代算法方面的優勢,來最大化的降低標注成本,篩選出有價值的數據。同時,通過前臺數據與后臺算法的深度綁定,中科凡語進一步提升了數據儲備的質量和規模,形成一個良性的閉環。
基于中國科學院自動化研究所相關團隊20余年的積累,中科凡語目前已經建立了涵蓋特定行業、教育、醫療、航空等多個領域的億級雙語平行語料,及大規模涵蓋多語言、多領域、多場景、多任務、多層次的高精準標注語料,NLP語料數據方面行業領先。同時,通過創新迭代的智能化標注算法,中科凡語也在不斷充實NLP語料池,著力挖掘大規模、高質量的標注數據。這不僅帶來效率提升、技術升級,更是NLP發展的必然趨勢。
深耕行業夯實優勢
NLP下一個十年中文論劍
縱觀國內外NLP產業發展現狀,國外NLP技術由于起步早、技術領先,而國內目前則處于奮起直追階段。隨著中國企業逐漸從“輔助角色”進化為中堅力量,“學術界+工業界”的雙輪驅動推動中國AI力量悄然變化。
中科凡語作為國產NLP領域先行者,承接了中科院自動化所過去20多年在NLP領域技術積累,在技術、數據乃至人才方面都有著天然優勢。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時還承擔了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務等,未來還將持續深耕認知智能、通用智能、因果推斷等技術領域,進一步推動NLP成果產業化。中科凡語還于2020年11月成立了凡語AI研究院,已吸引60多名高級人才加入,共同進行前沿研究,探索新的基礎模型與技術路線,建立競合協同的行業生態。
在政策紅利和藍海市場的雙重利好下,NLP 已步入發展快車道,并涌現了許多商業化應用,如機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等。隨著AI技術不斷走向“深水區”,作為AI最高層次的NLP也將伴隨著數智化的產業趨勢快速迭代更新。中科凡語致力于通過本身在NLP領域積累的人才、算法、數據等優勢,聯合業界的專家學者、行業精英,共同推動NLP最前沿技術和應用,在國產NLP的發展中貢獻力量。
金科君創已投部分TMT企業
(以投資先后順序排列)