日本一区二区,成人电影,无码专区—VA亚洲V天堂麻豆,18禁极品美女裸露网站,第一福利导航导航,free性欧美婬妇俄罗斯

EN

魔視智能沈春華教授在2018 VALSE大會作關(guān)于視覺問答的報告

2018-05-07
來源:

2018 全國“視覺與學(xué)習(xí)青年學(xué)者研討會”(VALSE 2018)4月20日于大連拉開帷幕。該研討會的主要目的是為計算機視覺、圖像處理、模式識別與機器學(xué)習(xí)研究領(lǐng)域內(nèi)的中國青年學(xué)者提供一個深層次學(xué)術(shù)交流的舞臺,促進(jìn)國內(nèi)青年學(xué)者的思想交流和學(xué)術(shù)合作,提升中國學(xué)者在AI領(lǐng)域做出重量級的學(xué)術(shù)貢獻(xiàn),及其在國際學(xué)術(shù)舞臺上的影響力。


會議期間,來自國內(nèi)各大高校計算機視覺領(lǐng)域權(quán)威學(xué)者、國內(nèi)人工智能領(lǐng)域的科技公司專家代表和互聯(lián)網(wǎng)知名企業(yè)阿里巴巴、百度、滴滴等齊聚現(xiàn)場,展示AI業(yè)內(nèi)前沿技術(shù)、深度學(xué)習(xí)應(yīng)用成果,并圍繞此展開深入探討。


魔視智能沈春華教授受邀作為大會報告人,在視覺與語言專題討論會上(VALSE Workshop on Vision and Language)作了一場關(guān)于視覺問答(Visual Question Answering,以下簡稱為VQA)的報告。視覺問答/對話是一個融合計算機視覺和自然語言處理的終極任務(wù),相比較圖片文本描述任務(wù)(ImageCaptioning),VQA更能反映出對于圖像的深層理解能力。報告主要包含以下內(nèi)容。



魔視智能沈春華教授發(fā)表主題演講


融合知識庫的VQA模型框架以及基于常識的VQA數(shù)據(jù)集(FVQA)


VQA任務(wù)通常的做法是使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)得到的特征或預(yù)測出的屬性聯(lián)合針對圖片的問題一起作為遞歸網(wǎng)絡(luò)(RNN,LSTM,GRU等)的輸入,然后生成答案。但是當(dāng)前存在的VQA任務(wù)的模型框架由于只考慮了圖片的視覺信息,并不能很好地回答更深層的問題,要回答這些深層問題就需要一些額外的知識作為支持。


沈教授團(tuán)隊提出一個融合了知識庫的模型框架,能夠結(jié)合圖片所包含的信息和額外的知識庫[1,2,3]。另外,當(dāng)前的VQA的任務(wù)沒有給出問題答案的原因,使得答案不能追溯圖片的相關(guān)特征以及相關(guān)知識。沈教授團(tuán)隊提出了一個VQA-Machine的框架[4],融合了多種計算機視覺任務(wù)的結(jié)果并且能額外輸出給出答案的理由。考慮到當(dāng)前的VQA數(shù)據(jù)集的圖片樣本所提供問題和答案都過于淺顯,沈教授團(tuán)隊提出的一個基于常識事實的新的VQA數(shù)據(jù)集(FVQA)[5],對于每張圖還會額外提供與圖片問題相關(guān)的事實基礎(chǔ)。


類人對話生成


考慮到目前的VQA任務(wù)的輸出比較機器化,簡短,報告里還介紹了其團(tuán)隊提出的一種使用對抗學(xué)習(xí)(GAN)以及強化學(xué)習(xí)輔助生成更加自然的類人的語言的方法[6]。該方法使用了一種融合圖片、問題和歷史問答數(shù)據(jù)的聯(lián)合注意力的編碼器(Co-attention encoder)作為一個生成器(generator)和一個使用歷史生成器記憶的判別器(discriminator)來區(qū)分機器生成的對話和類人的對話。


參考文獻(xiàn):

[1] Image Captioning and Visual QuestionAnswering Based on Attributes and External Knowledge. Wu & Wang et al.TPAMI 2017

[2] Ask Me Anything: Free-Form VisualQuestion Answering Based on Knowledge from External Sources. Wu & Wang etal. CVPR2016

[3] What Value Do Explicit High-LevelConcepts Have in Vision to Language Problems. Wu et al. CVPR 2016

[4] The VQA-machine Learning How to UseExisting Vision Algorithms to Answer New Questions. Wang & Wu et al. CVPR2017

[5] FVQA: Fact-Based Visual QuestionAnswering. Wang & Wu et al. TPAMI 2018

[6] Are You Talking to Me? Reasoned VisualDialog Generation Through Adversarial Learning. Wu & Wang et al. CVPR 2018


魔視智能始終密切關(guān)注著業(yè)內(nèi)前沿動態(tài),同時十分重視對青年學(xué)者這一新生力量的培養(yǎng),作為本次大會的鉑金贊助商之一,由CEO虞正華博士帶隊,向參會的各位青年學(xué)者及業(yè)內(nèi)公司代表介紹了魔視智能的團(tuán)隊情況、核心優(yōu)勢及最新研究成果。在展示區(qū),我們著重展示了魔視智能的核心技術(shù)優(yōu)勢與最新產(chǎn)品基于嵌入式深度學(xué)習(xí)的前視ADAS一體機產(chǎn)品,為期三天的展示中,駐足瀏覽的參會人員絡(luò)繹不絕。


我們非常歡迎優(yōu)秀學(xué)子的加入, 在濃厚的學(xué)術(shù)氛圍團(tuán)隊中加快實踐技能的提升,一起實現(xiàn)汽車產(chǎn)業(yè)人工智能化,開啟汽車的人工智能大腦。