大數據與人工智能發展帶來思考

分類：行業資訊日期：2017-10-20 10:48:35 來源：網絡轉載

　　10月12日，第七屆中國智能產業高峰論壇在佛山開幕，在第一天的主論壇上，北京拓爾思信息技術股份有限公司副董事長、總裁施水才發表了主題為《大數據和人工智能發展的思考》的精彩演講。

　　在演講中，施水才先生從自身多年大數據技術和服務領導者角色的角度，介紹了旗下利用大數據技術推出的數據增值服務平臺，并得出了“數據——信息——知識——智能——智慧”的價值提升路徑。從大數據、云服務到人工智能，施水才為嘉賓鋪設了一條如何利用大數據去實現人工智能增值的道路，有很大的參考價值。

　　以下是施水才先生的演講整理稿：

　　大家上午好。非常感謝中國人工智能學會邀請我在大會上做分享報告。今天我想給大家分享一下對于大數據和人工智能產業的發展思考。

　　我想講的第一點是我認為把大數據和人工智能產業進行一些比對，把這兩個事情放到一起比對是非常有意義的。第二點想講的，到底我們是人工智能+行業，還是行業+人工智能，談一下我的理解和認識，第三點我覺得我們需要突破人工智能現在非常強調3個要素，就是計算能力、數據和算法，我認為對于未來人工智能的研究和應用，僅有這三點是不夠的，應該有其他重要的因素需要加進來。第四點我想探討的是我們現在在人工智能的幾個方向里面，哪一些還有大的機會，來讓我們創新、創業、賺錢，最后講一講我們自己基于NLP平臺的一些人工智能應用實踐。

　　大數據和人工智能產業的對比

　　對比大數據和人工智能產業的發展是有啟發的。因為人工智能的發展和數據密不可分，而且目前人工智能發展所取得的成就大部分和大數據密切相關，因此觀察大數據產業的發展對人工智能產業發展很有意義，同時我們認為數據驅動的商業（DataDrivenBusiness）比智能驅動的商業更符合產業的本質，實際上大數據產業的落地能力是強于人工智能的，所以大數據產業發展中出現的問題對人工智能產業發展很有意義。

　　大數據的發展有幾個方面對人工智能的發展有啟發。包括數據的重要性，數據質量的重要性，應用場景的重要性，行業知識的重要性、政策法規的重要性，以及變現的模式的參考意義。大數據從2010年在美國白宮首先開始制定一些政策，到2012年我們國家開始熱起來，這幾年出臺了很多政策規范，甚至搞了很多園區，但是我們現在發現整個大數據產業仍然處于非常早期的階段。為什么這么說？第一，它在哪些方面推動了產業的變革？第二，誰賺到錢了？現在基本上只有互聯網的大公司通過推薦精準化營銷、電子商務等等賺到錢了，但是我們大量從事產業大數據的企業大部分還在燒錢，行業也沒有從大數據中收益和發生大的產業變革，仍然處于非常早期階段。人工智能也是一樣的，大部分的AI企業仍處于投資和燒錢的階段。

　　再細化一下，我們看看影響整個大數據產業發展的4個要素：數據開放、技術研發、產業生態、法律法規。總體上講，目前大數據產業發展非常早期，仍然是大數據投資和創業的良機，在產業生態上主要的特征是壟斷和新的數據孤島，大數據創業公司仍需3-5年才能實現規模盈利，大部分在持續的燒錢，2017-2018年產業整合趨勢明顯。在數據方面，互聯網大企業的數據霸權主義、政府數據公開的艱難（在國際上很落后，60名開外），行業和企業數據的難以獲得以及灰色數據灰色產業鏈，以及個人隱私問題都非常的突出，我們國家每年數據交易的市場是500個億以上，但是合法的只有10%左右，90%都是灰色數據鏈，所以導致最近公安查，說很多大公司被抓起來了，個人隱私問題非常突出，要破解數據的魔咒，需要在法律法規和產業生態兩個角度去破局。

　　除了數據及數據的質量外，應用場景是非常重要的，大數據的4個V不重要，Hadoop/Spark不重要，重要的是應用場景，那么對AI來說也是一樣的，因為實際上我們看到大數據和AI的熱門應用領域實際上重合度很高：金融、健康醫療、教育、在線廣告、情報分析……應用場景和行業密切相關，主要是垂直化和行業化，一旦進入行業，你就會發現，很多問題來了，所以我們說人工智能發展僅僅強調數據、算力、算法是不夠的。

　　政策法律也非常重要，在互聯網時代，我們國家互聯網發展為什么快？其中一條人多，人口紅利，還有一條非常重要規則沒那么嚴，政府和行業對互聯網的支持比較多，企業層面有時甚至有點蔑視規則。但是大數據和人工智能時代，像互聯網早期那樣野蠻發展已經行不通了。現在數據開放和隱私保護，從個人隱私到人身安全，因為搞不好會死人的。

　　小節一下，通過對比大數據和人工智能產業的發展，我們可以得到如何幾個結論：人工智能產業仍處于非常早期的階段；數據的重要性不容置疑，但問題多多；應用才是驅動力；垂直行業才是大部分參與者的機會所在。

　　人工智能+行業or行業+人工智能

　　今天想和大家分享的第二點是關于到底是“人工智能+行業”還是“行業+人工智能”。我的基本看法是行業+人工智能仍然是智能產業發展的主流。我們覺得“行業+人工智能”可能占到90%，“人工智能+行業”可能只占到10%。區別在哪里？人工智能+行業是創造新模式，更多表現在以前這個行業不成熟，或者沒有現有的很好的商業模式，比如像自動駕駛；而行業+人工智能是對用人工智能技術對行業進行變革和改造，要么降低成本，要么提高決策和管理水平。比如法律啊、教育啊、金融啊。很對AI的新技術在消費領域和工業領域的應用也不一樣，比如消費領域的人臉識別、美顏相機在工業領域可能是身份認證、銀行開戶、安防監控、商業分析；消費領域的語音識別和輸入法技術可能是智能客服應用，深度學習和圖像識別在工業領域可能是智能分揀和安檢應用。

　　如果90%的機會在于“行業+人工智能”，那么錢、數據和算法就是不是決定性的因素，如果錢是決定性的因素，那未來也就不會有什么創新了。行業知識和行業專家是壁壘，所以說大公司壓迫下的創業公司仍具有廣闊的空間，那么那些行業將實現AI爆發或者說受到沖擊最大呢？剛才李德毅院士說的很好，四個行業，制造業、教育、金融、醫療，我非常認同，我覺得最關鍵的是要看兩點，一個是行業本身的成長空間，就是說是否足夠大，是否未來有成長性，另一個是這個行業是否依賴于人的經驗和知識，依賴越大的，被人工智能取代的需求就越大，比如醫生，主要是專家太少。我們投資過的一個項目，是病理切片癌癥診斷，據說全國能看病醫生也就不到1萬個，而合格的專家只有不到500個，你看需求多大，大數據和人工智能可以解決這個問題，IBMWatson的思路也是一樣的。另外就是律師和金融行業的人，主要是太貴，律師一小時多少錢，金融行業動不動幾百萬，其實你用了大數據和人工智能后發現，其實他們不值這么多錢。剛才李院士說制造業我國使用機器人的數量遠遠落后韓國日本等，主要原因我覺得還是成本問題，所以我認為最緊迫的可能不是家政機器人之類的，而是取代高成本的人力以及人力不夠的行業。

　　人工智能產業還有一個特點比較鮮明的。就是他是Embedded，嵌入式的，所以可以說AI技術是一種EnablingTechnology。未來所有的企業都應該是AI企業，所以你看現在包括Google百度都說自己是AIAllIn。

　　人工智能的三要素問題

　　今天想和大家分享的第三點是關于人工智能的三要素問題。現在講人工智能，就和大數據的4個V一樣，幾乎每個專家都要將人工智能三要素，數據、計算力、算法。但是真的夠了嗎。我認為不夠，為何什么說呢，大家看看，人工智能正從計算智能、感知智能向認知智能及創造智能的方向發展，認知智能包括理解、運用語言的能力，掌握知識、運用知識的能力，在語言和知識上的推理能力，主要集中在語言智能即NLP。到了認知智能這個階段光有數據、算法、和計算資源我認為不夠的，需要什么？我認為重要的一點可能還需要很多的知識，需要有知識圖譜等別的很多東西，所以知識可能是第四個要素。從另外一個角度，目前人工智能三要素中對應用場景沒有論及，所及基本還是從技術層面來考慮問題的，我們認為不夠，所以應用場景的問題是否可能成為第四要素？再者人共智能必須考慮人的問題，是人工+智能，人機協作的問題在很多AI場景中必須考慮。所以我提出一個問題，如何尋找人工智能的第四要素？

　　人工智能的重點機會和方向問題

　　今天想和大家分享的第四點是人工智能的重點機會和方向問題。這就是以自然語言處理即NLP為代表的認知智能。目前AI硬件領域的投資很厲害，也是大公司的天下，比如GPU，FPGA，ASIC芯片等，在視覺領域的投資，也很多，特別是圖像識別啊、語音識別啊，誕生了不少獨角獸公司，技術進步也很快，但是太多了。不是未來的投資方向。而以自然語言處理為核心的認知智能，目前在國內的投資及發展和美國有不少的差距。根據騰訊研究院的報告，美國在NLP領域的新創其實差不多是中國的3倍，根據烏鎮智庫的報告，2000-2016年，全球累計新增自然語言處理企業數據達到543家。2009年以來，美國每年新增的自然語言處理企業占當年全球新增企業總數的比例保持在40%左右，根據調研公司CBInsights近日公布的“最值得關注的100家人工智能公司，約25%的項目與“自然語言處理”直接或間接相關，所以說NLP已經成為最值得關注的人工智能公司。根據福布斯精選Top50AI公司2016年融資34.15億美元，其中約16.2%的資金投向“自然語言處理”直接或間接相關。

　　為什么是這樣的情況呢？因為在目前AI領域，依托大數據和深度學習，進展最快、效果得最好的是機器識別，機器識別結合機器學習在很多AI應用場景下實現了較好的機器智能，但是識別不等于理解，未來實現強機器智能或“智慧”，還需要解決機器理解和推理的難題，特別是自然語言理解/生成（自然語言處理技術）。如何讓機器像人一樣思考，理解人類語言、用人類語言表達、感知和表達情感、進行推理、規劃、決策、具備自學習進化能力這些都是NLP的難題。

　　NLP包含的內容也是保羅萬象，從詞法、句法、語義、篇章、語言表示等基礎技術，到分類、聚類、情感分析、知識圖譜、機器翻譯、自動摘要、自動問答、信息抽取等核心技術，到搜索引擎、智能客服、輿情監控等NLP+，再到各垂直行的“行業+NLP”。早期大家認為深度學習對NLP貢獻不大，這兩年有所突破，我們在6個數據集上的測試表明，深度學習對自動分類的貢獻還是比較大的，平均可以提高5個百分點，所以深度學習對NLP有用，但是提高的精度還不夠。

　　整個在自然語言處理里面，有幾個東西我認為現在非常熱，第一個就是聊天機器人或者虛擬助理。明天有一個專門的論壇講這個，特別好，我在這里不多講了。為什么這樣說？因為它是所有自然語言處理技術的集大成，而且是未來爭奪入口的一個焦點，所以蘋果、微軟、臉書、亞馬遜都在搞，而且未來這些平臺都會走向開源。

　　總的來說國內目前在自然語言處理的投資遠遠落后于對視覺處理領域的投資，這是我們的一個機會。但是自然語言的處理障礙壁壘更大，和行業結合得更加緊密，這是它的一個特點。

　　最后和大家分享一下我們公司基于大數據+NLP技術做的一些事情，拓爾思是一家以大數據+人工智能為發展戰略的創業板上市公司，拓爾思的人工智能的發展戰略，首先是AIAllin的路線，即我們所有的技術產品、應用產品和云服務都是內嵌AI技術；第二是大數據驅動，利用大數據的技術和應用基礎來支撐和驅動AI技術和應用的發展；第三是應用場景優先，因為沒有業務場景這些技術的東西就沒有用武之地，需要應用場景來前導拉動和價值變現。當前拓爾思AI技術主要拓展的場景在金融、安全、傳媒、司法、情報等垂直行業領域；此外，拓爾思再技術發展路徑方面強調兩條，第一個是云服務落地，逐步把業務都做成云服務的模式，第二條致力于垂直整合，如果不能形成垂直整合的生態閉環，你就不能賺大錢，實現更高的盈利能力和競爭門檻。同時我們也強調與巨人同行，技術上既采用開源開放的框架和平臺，又要研發出自己專攻領域超越和創新的成果。

　　總結，我認為我們分析比較大數據產業的發展對人工智能的產業發展非常有意義；第二我們認為行業+人工智能仍然是主流，行業里有更大的空間可以供大家去創新和創造；第三面對人工智能的落地和進一步發展需要，人工智能三要素還不夠，還需要知識作為第四要素；第四是在自然語言處理領域的里的創新機會和拓爾思在這方面應用實踐。希望與大家共同努力，推動我們國家人工智能產業特別是自然語言處理技術領域更快更好地發展。

文章版權歸西部工控xbgk所有，未經許可不得轉載。

人工智能