2018 全國“視覺與學(xué)習(xí)青年學(xué)者研討會”(VALSE 2018)4月20日于大連拉開帷幕。該研討會的主要目的是為計算機視覺、圖像處理、模式識別與機器學(xué)習(xí)研究領(lǐng)域內(nèi)的中國青年學(xué)者提供一個深層次學(xué)術(shù)交流的舞臺,促進(jìn)國內(nèi)青年學(xué)者的思想交流和學(xué)術(shù)合作,提升中國學(xué)者在AI領(lǐng)域做出重量級的學(xué)術(shù)貢獻(xiàn),及其在國際學(xué)術(shù)舞臺上的影響力。
會議期間,來自國內(nèi)各大高校計算機視覺領(lǐng)域權(quán)威學(xué)者、國內(nèi)人工智能領(lǐng)域的科技公司專家代表和互聯(lián)網(wǎng)知名企業(yè)阿里巴巴、百度、滴滴等齊聚現(xiàn)場,展示AI業(yè)內(nèi)前沿技術(shù)、深度學(xué)習(xí)應(yīng)用成果,并圍繞此展開深入探討。
魔視智能沈春華教授受邀作為大會報告人,在視覺與語言專題討論會上(VALSE Workshop on Vision and Language)作了一場關(guān)于視覺問答(Visual Question Answering,以下簡稱為VQA)的報告。視覺問答/對話是一個融合計算機視覺和自然語言處理的終極任務(wù),相比較圖片文本描述任務(wù)(ImageCaptioning),VQA更能反映出對于圖像的深層理解能力。報告主要包含以下內(nèi)容。
魔視智能沈春華教授發(fā)表主題演講
融合知識庫的VQA模型框架以及基于常識的VQA數(shù)據(jù)集(FVQA)
VQA任務(wù)通常的做法是使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)得到的特征或預(yù)測出的屬性聯(lián)合針對圖片的問題一起作為遞歸網(wǎng)絡(luò)(RNN,LSTM,GRU等)的輸入,然后生成答案。但是當(dāng)前存在的VQA任務(wù)的模型框架由于只考慮了圖片的視覺信息,并不能很好地回答更深層的問題,要回答這些深層問題就需要一些額外的知識作為支持。
沈教授團(tuán)隊提出一個融合了知識庫的模型框架,能夠結(jié)合圖片所包含的信息和額外的知識庫[1,2,3]。另外,當(dāng)前的VQA的任務(wù)沒有給出問題答案的原因,使得答案不能追溯圖片的相關(guān)特征以及相關(guān)知識。沈教授團(tuán)隊提出了一個VQA-Machine的框架[4],融合了多種計算機視覺任務(wù)的結(jié)果并且能額外輸出給出答案的理由。考慮到當(dāng)前的VQA數(shù)據(jù)集的圖片樣本所提供問題和答案都過于淺顯,沈教授團(tuán)隊提出的一個基于常識事實的新的VQA數(shù)據(jù)集(FVQA)[5],對于每張圖還會額外提供與圖片問題相關(guān)的事實基礎(chǔ)。
類人對話生成
考慮到目前的VQA任務(wù)的輸出比較機器化,簡短,報告里還介紹了其團(tuán)隊提出的一種使用對抗學(xué)習(xí)(GAN)以及強化學(xué)習(xí)輔助生成更加自然的類人的語言的方法[6]。該方法使用了一種融合圖片、問題和歷史問答數(shù)據(jù)的聯(lián)合注意力的編碼器(Co-attention encoder)作為一個生成器(generator)和一個使用歷史生成器記憶的判別器(discriminator)來區(qū)分機器生成的對話和類人的對話。
參考文獻(xiàn):
[1] Image Captioning and Visual QuestionAnswering Based on Attributes and External Knowledge. Wu & Wang et al.TPAMI 2017
[2] Ask Me Anything: Free-Form VisualQuestion Answering Based on Knowledge from External Sources. Wu & Wang etal. CVPR2016
[3] What Value Do Explicit High-LevelConcepts Have in Vision to Language Problems. Wu et al. CVPR 2016
[4] The VQA-machine Learning How to UseExisting Vision Algorithms to Answer New Questions. Wang & Wu et al. CVPR2017
[5] FVQA: Fact-Based Visual QuestionAnswering. Wang & Wu et al. TPAMI 2018
[6] Are You Talking to Me? Reasoned VisualDialog Generation Through Adversarial Learning. Wu & Wang et al. CVPR 2018
魔視智能始終密切關(guān)注著業(yè)內(nèi)前沿動態(tài),同時十分重視對青年學(xué)者這一新生力量的培養(yǎng),作為本次大會的鉑金贊助商之一,由CEO虞正華博士帶隊,向參會的各位青年學(xué)者及業(yè)內(nèi)公司代表介紹了魔視智能的團(tuán)隊情況、核心優(yōu)勢及最新研究成果。在展示區(qū),我們著重展示了魔視智能的核心技術(shù)優(yōu)勢與最新產(chǎn)品基于嵌入式深度學(xué)習(xí)的前視ADAS一體機產(chǎn)品,為期三天的展示中,駐足瀏覽的參會人員絡(luò)繹不絕。
我們非常歡迎優(yōu)秀學(xué)子的加入, 在濃厚的學(xué)術(shù)氛圍團(tuán)隊中加快實踐技能的提升,一起實現(xiàn)汽車產(chǎn)業(yè)人工智能化,開啟汽車的人工智能大腦。