直播: https://live.bilibili.com/h5/22252912
直播视频号:
2022年4月24日上午 (会议主持人:殷绪成教授) | ||
时间 | 报告题目 | 报告人/单位 |
8:45–8:55 | 会议开幕致辞 | 刘成林/中科院自动化所 |
8:55-9:00 | 中国图象图形学学会简介及近期活动通知 | 金连文/CSIG常务理事 |
9:00–9:30 | 文档分析与识别中的前沿研究问题 | 刘成林/中科院自动化所 |
9:30–10:00 | 从线形排列文字到复杂结构文字:手写公式识别的新思考 | 白翔/华中科技大学 |
10:00–10:20 | 文档智能前沿技术进展 | 崔磊/微软亚洲研究院 |
10:20–10:40 | 广告OCR技术研究与应用 | |
10:40–11:00 | OCR实践与技术创新 | 陈景东/蚂蚁集团 |
11:00–11:30 | 手写体文字识别新思考——数据、方法及应用 | 金连文/华南理工大学 |
11:30–12:00 | 篡改文本图像的生成与检测 | 谢洪涛/中国科学技术大学 |
2022年4月24日下午(会议主持人:金连文教授) | ||
时间 | 报告题目 | 报告人/单位 |
14:00–14:10 | 《中国图象图形学报》编辑部主任致辞及学报简介 | 韩向娣 |
14:10–14:40 | 开放集文字识别:概念、框架、算法与应用 | 殷绪成/北京科技大学 |
14:40–15:10 | 面向文字的图形图像生成技术新进展 | 连宙辉/北京大学 |
15:10–15:30 | OCR的全栈式研发及行业场景实践 | 谢泽澄/华为 |
15:30–15:50 | 资质文档证书类图像的篡改检测及数字经济场景应用 | 杨锐/阿里巴巴 |
15:50–16:10 | OCR产业化应用实践——文档图像质量增强与版面还原技术及应用 | 丁凯/上海合合信息 |
16:10-16:40 | 结合领域知识的端到端数学公式识别研究进展 | 杜俊/中国科学技术大学 |
16:40–17:10 | 低质量场景文字识别技术研究 | 周宇/中科院信工所 |
17:10-17:30 | 从PaddleOCR看OCR产业落地的创新方向 | 杜宇宁/百度 |
17:30–17:50 | 视频OCR技术与应用 | 黄灿/字节跳动 |
17:50–18:10 | OCR在垂直应用中的研究进展 | 程战战/海康威视 |
18:10–18:20 | 闭幕致辞 | 白翔/华中科技大学 |
特邀讲者简介: 刘成林,中国科学院自动化研究所副所长,模式识别国家重点实验室主任,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编,以及多个期刊的编委。任中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能系统专委会主任,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。
报告摘要:文档图像(包括印刷和手写文档、场景文本图像、联机手写文档等)分析与识别的任务包括版面分析、文本识别、图形符号识别、语义信息提取等。近年来,得益于深度学习方法的发展和应用,文档分析与识别的性能快速提升,技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息提取等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足;从文档信息抽取与利用的角度来说还有一些技术缺口;从系统生成的角度来说还有学习能力的不足。本报告对文档分析与识别技术现状做简要回顾和分析,从主要任务性能、应用扩展、学习能力的角度指出当前技术的不足,并由此提出一些值得重视的研究问题和方向。
特邀讲者简介:白翔,华中科技大学人工智能与自动化学院教授,国家防伪工程技术研究中心副主任。主要研究方向计算机视觉与模式识别、文档分析等。已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、CVPR等发表论文60余篇。由于在场景文字检测与识别取得的突出成就,2019年获IAPR/ICDAR Young Investigator Award (青年学者奖)。现任期刊IEEE Trans. PAMI,Int. Journal of Document Analysis and Recognition, Pattern Recognition, Frontier of Computer Science, 中国科学-信息科学、自动化学报编委。曾担任CVPR、AAAI、IJCAI、ICPR等人工智能主流国际会议的领域主席/资深技术程序委员或竞赛主席10余次。2020年入选国际模式识别协会会士。
报告摘要:编解码网络已经在文本行识别取得了显著的进展,然而这些方法在处理复杂结构的文字(如手写公式,艺术字)时有着非常大的限制。在这次报告中,我将介绍课题组在离线手写公式识别的新进展,重点探讨处理复杂排列结构的文字与主流文字识别方法的异同,及未来值得关注的问题。
报告摘要:文档智能是近年来蓬勃发展的学术研究课题和工业界需求,其中涉及了自动阅读、理解和分析商业文档的相关技术。由于文档图像布局和格式的多样性、噪音信息的普遍性以及结构的复杂性,理解商业文档是一项非常具有挑战性的任务。这次报告将主要介绍文档智能前沿技术最新发展,包含文档智能预训练模型以及基于Transformer架构OCR技术的相关进展与突破,并展望未来文档智能领域的发展趋势。
特邀讲者简介:腾讯广告多媒体AI中心应用算法负责人,专家研究员,专注计算机视觉技术研究与应用。2013年加入腾讯,目前负责多媒体技术在腾讯广告场景全链路中的研究与应用。主导完成文字识别、图像分析、视频理解等多项技术研究,连续三届在国际文档分析与识别竞赛中取得14项冠军,并推动相关技术在广告创作、广告审核、广告推荐等场景中落地取得积极商业价值。
报告摘要:网络广告是互联网公司重要的商业模式,对于文本/图像/视频的精准理解已经成为众多实际应用的核心诉求。通过CV、NLP、多模态等AI技术手段,可以显著提升对于广告创意、用户偏好的理解程度,从而更好的服务广告业务。文字识别技术是这些技术手段能够发挥作用的基石,基于图片文字、视频文字的精准识别,可以极大的提升整个AI任务的效果。本次分享将介绍团队在图片/视频文字识别方面的一些技术积累、技术应用以及展望。
特邀讲者简介: 2011年硕士毕业于华中科技大学模式识别及智能系统专业,目前任职蚂蚁集团-CTO线资深算法专家,负责计算机视觉及多模态相关算法研发,致力于文档图像理解、遥感影像解译等领域技术创新,应用于多个服务用户和小微商家的业务场景。多篇论文发表于CVPR、ECCV、ICML、SIGIR、AAAI、IJCAI等会议,在计算机视觉、语音识别、大规模机器学习等领域有丰富的实践经验。
报告摘要:OCR技术在蚂蚁服务用户和小微商户场景中有多样化的应用,如用户/商户线上认证,保险智能理赔,企业信息服务等。在大规模的实践应用中对OCR技术提出了全方位的挑战,如何以统一的范式服务多样化的垂直领域,如何对领域知识建模来实现精准的文档图像结构化,如何鉴别存证的可靠性等。这些挑战为OCR技术发展注入了新的动力,同时为跨技术域融合创新提供了新的视角。
特邀讲者简介:金连文,华南理工大学二级教授,博士生导师。于1991年、1996年分别于中国科技大学、华南理工大学获学术学位和博士学位,目前兼任中国图像图形学学会(CSIG)常务理事、CSIG文档图像分析与识别专委会主任、CAA模式识别与机器智能专委会常务委员等学术服务职务。主要研究领域为文字识别、文档图像理解、深度学习、计算机视觉及应用等,在IEEE Transactions及重要国际国内学术期刊、ICDAR/ICFHR/CVPR/AAAI/IJCAI/NeurIPS/ECCV等重要国际会议上发表学术论文200余篇,Google Scholar引用9000余次,H-Index 49。获省部级科技奖5次,指导学生参加国际学术竞赛荣获冠军20余次。
报告题目: 手写体文字识别新思考——数据、方法及应用
报告摘要:手写文字识别已经有超过40年的研究历史,由于字符类别数巨大(国标GB18010-2001收录的文字类别数高达27533类)、不同书写者风格差异大、连笔/行书/草书等书写随意性高、手写数学公式结构复杂、以及存在不少极易混淆的手写相似字等因素,使得非受限情况下的手写文字识别仍然是一个极具挑战的研究问题。本报告将简要回顾目前手写文字识别领域的主要研究进展及方法体系,介绍基于深度学习模型的手写体数据生成、segmentation-based和segmentation-free的手写文字识别、以及基于Transformer的手写文字识别等一些新方法,并展示部分新技术成果的实际应用。
特邀讲者简介:谢洪涛,中国科学技术大学电子工程与信息科学系特任教授,博导,基金委优青项目获得者。从事多媒体内容安全方向的研究,包括视觉内容检测与识别、视频图像内容检索、数字图像篡改检测与取证等。以第一或通讯作者在国际著名期刊/会议上发表学术论文80余篇,含顶级期刊/会议论文50余篇。主持科研项目10余项,含国家重点研发计划专项课题1项、基金委通用联合基金重点项目1项。研究成果在国家相关部门和商业公司的线上系统获得应用,取得积极效果。获国家自然科学奖二等奖、中国电子学会自然科学奖一等奖、中科院院长优秀奖,入选中科院青年创新促进会优秀会员。
报告题目: 篡改文本图像的生成与检测
报告摘要:近年来,由深度学习篡改算法生成的文本图像在互联网上广泛传播,已经对多个行业领域产生了很大的影响,其中包括金融票据识别、证件识别和网页内容识别等。本报告从篡改文本图像的生成与检测两个方面进行讲述,通过探索篡改文本的生成网络结构、篡改文本检测的频域信息联合优化等方向,实现篡改文本生成与检测的矛与盾的研究。针对文本生成中复杂字型篡改痕迹明显的问题和篡改文本检测中局部纹理真伪性难以判别的问题,本报告分别讲述一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法。同时,对如何进一步提升篡改文本生成与检测的性能进行了展望。
特邀讲者简介:殷绪成,教授、博士生导师,国家杰出青年科学基金获得者,本科、硕士毕业于北京科技大学计算机系,博士毕业于中国科学院自动化研究所,现为北京科技大学计算机与通信工程学院院长、模式识别与人工智能技术创新实验室主任,中国图象图形学学会文档图像分析与识别专委会副主任/秘书长。他长期从事模式识别、文字识别、计算机视觉及人工智能芯片技术研究及应用,在IEEE T-PAMI、IEEE T-IP、CVPR、ICDAR等学术期刊会议上发表近100篇论文;以第一完成人获北京市科技进步奖一等奖1项、教育部科技进步奖二等奖1项,带领团队连续四届(2013、2015、2017和2019年)荣获国际文档分析与识别大会技术竞赛共15项冠军。
报告摘要:在诸如智能驾驶、网络多媒体内容安全等开放环境中,新数据、新模式、新类别不断涌现,模式识别与文字识别技术及应用出现新挑战。本报告首先简要回顾开放环境下文字识别的主要技术挑战,然后重点介绍其中的一个新方向——“开放集文字识别”(Open-Set Text Recognition),较详细地阐述其基本定义、通用框架和典型算法,最后对开放环境下的多语言多民族文字识别技术及应用进行了初步的探讨与展望。
特邀讲者简介:连宙辉,北京大学王选计算机研究所副教授,中国文字字体设计与研究中心副主任, CSIG文档图像分析与识别专委会常务委员。研究领域为计算机图形学、计算机视觉与人工智能,近十年主要从事面向文字的形状建模与图像合成技术及其应用研究。主持完成国家自然科学基金面上、国家语委重点等科研项目,在领域重要期刊(TPAMI,TOG, IJCV等)与会议(SIGGRAPH/SIGGRAPH Asia, CVPR, NeurIPS等)上发表论文70余篇,谷歌学术引用2000余次,授权国家发明专利近20项。担任ICCV、IJCAI、AAAI等CCF-A国际顶级会议的领域主席或高级程序委员会委员,获中国专利优秀奖(排名1)、中国人工智能学会吴文俊人工智能优秀青年奖、北京市科技新星计划等奖励/资助。中文字体制作生成方面的部分成果已通过技术转让在企业投入使用,相关软件/产品广泛应用于各大主流移动平台上。
报告题目: 面向文字的图形图像生成技术新进展
报告摘要:图形图像生成是近年来学术界的研究热点之一,面向文字的图形图像生成技术在字体制作、平面设计、文化遗产保护等领域中有广泛应用前景。此外,通过自动合成逼真的文字/文本/文档图形图像可产生海量训练数据,进而显著提升基于深度学习的各类文字检测识别算法的性能,对于解决现有算法中存在的“有多少人工就有多少智能”的痛点具有重要价值。本报告将介绍我们在面向文字的图形图像生成方面取得的一些新进展,包括:属性可控的定制字体生成[TOG’20];基于双模态学习的紧凑高质矢量字体自动生成[TOG’21];基于元学习的任意风格汉字书写轨迹合成[EG’21];内容感知的文字标志(Text Logo)图像生成[CVPR’22]等。
特邀讲者简介:谢泽澄,华为云OCR服务技术负责人,华南理工大学博士,主要研究方向为文字检测和识别、多模态文档解析、手写文字识别等,在TPAMI、CVPR、AAAI、Pattern Recognition等国际会议和期刊上发表多篇论文,获得ICDAR HDRC、ReCTS等国际赛事冠军。加入华为后,参与打造业界领先的行业AI使能平台,构建ModelArts平台和多模态AI算法核心技术竞争力。
报告摘要:华为云OCR致力于开发企业级的OCR技术,为客户提供安全可信的全栈式企业级服务。依托自研的昇腾和鲲鹏芯片以及MindSpore全场景AI计算框架,我们实现从模型训练到部署推理的全栈全流程的研发能力。依托OCR大模型技术,我们推出ModelArtsPro套件,赋能伙伴和客户OCR开发能力,结合专家领域知识,撬动垂直领域的巨大市场。华为云OCR不仅服务于华为内部的巨量需求,还深耕国内各行各业的挑战场景,更立足于全球市场。我们在实践中沉淀出了多语言OCR的全流程解决方案,以及面向金融、政务等不同行业用户的全栈AI使能方案。本次汇报,将分享华为云OCR全栈全流程研发及行业场景实践。
特邀讲者简介:阿里巴巴安全部媒体安全基础研究负责人,中山大学通信与信息系统博士,从事媒体安全技术研究超10年,数字媒体取证与安全专委会委员,曾主持与参与多项国家项目,发表媒体安全领域论文10多篇和国家发明专利多项。目前团队在数字水印技术和伪造篡改检测技术方面有多年的积累,包括在图像、视频、音频、文档、网页、数据库等全方位载体上的数字水印技术,在图像、视频、音频、pdf等多种载体上的篡改检测、篡改定位、来源识别等取证技术。目前团队的研究成果已经提交70多项专利申请,在上千个业务中得到落地应用,并和多个知名高校的专家学者开展了技术合作,为集团媒体数据安全和内容保护提供技术支持。
报告摘要:目前国内外学术届对图像篡改检测的研究都集中在自然图像篡改检测上面,但日常生活中对我们带来风险损失的假图通常是资质证书、文案、截图等,这些类型图像与自然图像在图像特性上面存在巨大差异,现有的篡改检测方法直接应用到这些新类型图像,性能下降严重。本报告将介绍阿里巴巴安全部媒体安全研究团队在资质文档证书类图像的伪造篡改检测技术上面的若干探索,介绍该技术能够解决哪些数字经济场景的痛点问题,并进一步结合真实落地的应用场景案例指出围绕文字内容的伪造篡改检测的难点及挑战。
特邀讲者简介:杜俊是中国科学技术大学语音及语言信息处理国家工程研究中心副教授,2009年-2013年就职于科大讯飞研究院和微软亚洲研究院,期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用,已发表论文200余篇,谷歌学术引用5800余次,以唯一通讯作者发表的IEEE-ACM TASLP期刊论文获得2018年IEEE信号处理学会最佳论文奖,2019年获安徽省科技进步一等奖。目前是IEEE高级会员,并担任语音领域顶级期刊IEEE-ACM TASLP编委、IEEE信号处理学会语音及语言处理技术委员会委员、亚太信号与信息处理协会(APSIPA)语音语言音频分会技术委员会副会长以及APSIPA Distinguished Lecturer、中国图像图形学学会文档图像分析与识别专委会常务委员。带领团队参加语音和图文领域国际评测获得40多项冠军。
报告题目: 结合领域知识的端到端数学公式识别研究进展
报告摘要:近年来,基于编解码模型的端到端数学公式识别逐渐成为研究热点之一。本报告介绍团队近期关于如何在编解码模型中充分利用公式识别领域知识方面的一些研究进展。首先在编码器设计方面,我们采用笔画信息来对在线和离线两个模态的输入信号进行同步对齐,提升了多模态融合的效果;其次在解码器设计方面,我们提出一种新型的树形解码器,更高效的对公式进行结构建模;最后,在网络优化方面,我们利用公式的树形结构进行数据增广,并将公式的线性表达和树形表达在互学习框架下进行结合,进一步提升了识别性能。
特邀讲者简介:丁凯,2011年获华南理工大学博士学位,合合信息智能技术平台事业部副总经理,高级工程师,CSIG文档图像分析与识别专委会委员,CSIG机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师。研究方向为人工智能,模式识别,文档分析与理解,OCR,知识图谱等。带领团队获得多项国际竞赛冠军,作为主要完成人获得CSIG科技进步奖二等奖。近年来主持研发的名片识别理解,电子文档还原,多模态文档理解,知识图谱构建与挖掘等项目支撑了合合信息多项核心业务,获得了显著的经济效益和学术评价。
报告摘要:近年来,OCR技术得到了长足地发展,特别是在文字检测,文字识别和文档结构化理解等方面吸引了大量学术界和工业界研究人员的关注。而作为对OCR整体系统性能和用户体验有重要影响的文档图像质量增强和版面还原的研究却鲜有报道。如何通过图像矫正、图像质量增强解决文档图像中的形变/弯曲及光照影响问题,以提升文档图像质量;如何运用版面还原技术将文档图像转化成可编辑文档(word, excel等)都是工业界希望解决的重要问题。本报告介绍了合合信息依托自研的TextIn智能文字识别技术平台,在文档图像矫正,图像质量增强及版面还原方面的所做的工作和成果,及其在合合信息旗下扫描全能王(CamScanner)产品中的成功落地情况。最后对相关领域内待解决的挑战性问题进行了阐述和展望。
特邀讲者简介:周宇,中国科学院信息工程研究所第三研究室副研究员、博士生导师,本科、硕士及博士毕业于哈尔滨工业大学,上海交通大学博士后。研究方向为计算机视觉与深度学习,专注于场景文字理解及自监督表示学习等问题。在CVPR、AAAI、ACM MM、SIGIR、TON、TNNLS、PR、TOMM等国内外高水平会议及期刊发表学术论文50余篇,近3年发表CCF-A类或SCI一区论文15篇;获得ACM MM 2021会议最佳论文提名(5/1942篇)、ACCV IWRR 2014 最佳论文奖。团队核心技术获得2019年“中国人工智能·多媒体信息识别技术竞赛”手写/印刷文本OCR两项高校组冠军、CVPR DocVQA 2020任务1第3名、ICDAR ReCTS 2019“字符识别”、“端到端识别”高校组第3名;主持研发的场景文字提取系统、钓鱼网站发现系统等应用于多个国家部门。
报告题目:低质量场景文字识别技术研究
报告摘要:年来,受实际应用需求牵引,场景文字识别技术取得了长足进步。然而在实际应用中,受小字体、模糊、反光和遮挡等各种因素影响,已有方法在识别低质量场景文字图像时精度下降明显,速度也难以达到实时。为解决低质量场景文字识别的上述问题,我们提出了语义增强的编解码框架SEED和并行迭代模仿学习网络PIMNet,从融合整体-局部信息和由易到难的角度,提升了识别的鲁棒性,做到了精度与速度较好的平衡。
报告题目:从PaddleOCR看OCR产业落地的创新方向
报告摘要:PaddleOCR是目前OCR领域全球最有影响力的代码库之一,Github star 19.7k,荣登GitHub 2021 中国项目活跃度TOP5和2021年Paperwithcode趋势榜TOP10,在工商银行等大型企业中广泛应用,受到国内外开发者喜爱。本次分享主要介绍OCR在产业落地中的挑战,以及PaddleOCR的四个创新,包括:1) 丰富的OCR前沿算法,2) 超轻量中英文OCR系统PP-OCRv2和智能文档分析系统PP-Structure,3) OCR典型落地场景的推理部署,4) 半自动OCR数据标注工具PPOCRLabel。PaddleOCR从数据、模型、训练到部署,全方位创新加速了OCR的产业化落地。
特邀讲者简介:黄灿,字节跳动火山引擎的OCR算法负责人。2007本科毕业于西安交大,2010硕士毕业于上海交大,一直聚焦在文字识别和文档理解技术领域。之前曾在上海合合信息、问吧科技担任算法研究员,2018年加入字节跳动后负责OCR技术中台的建设,带领团队支持公司内部各条业务线的OCR需求,并通过火山引擎将OCR中台能力对外开放。
报告摘要:视频逐渐成为互联网内容的主流承载形式。视频中包含了大量文字信息,例如视频中原生态的自然场景文字和后期添加的渲染文字(视频中的标题、字幕等),需要借助OCR技术识别视频中的文字并理解其中的语义信息,以便用于内容安全、搜索、广告、推荐等环节。本报告讲述视频OCR相关技术,包括“视频智能抽帧、视频文字检测/多帧识别、文本跟踪、字幕与语音对齐、视频文字内容理解-关键信息提取”,另外还介绍视频OCR在业务中的应用。
报告摘要:文字识别技术在国计民生中扮演者重要的功能性角色,其应用范围涉及重/轻工业、交通、金融、教育等诸多行业。随着深度学习的近十年发展,OCR技术取得了实质性的进展,算法方案逐步趋于成熟。然而,算法仅是解决现实问题的其中一环,如何输出鲁棒的OCR应用依然错综复杂。在实际应用中,常面临数据困境、性能瓶颈、耗时突出及维护成本高昂等问题,那么以解决系统应用问题为导向的算法研究尤为必要。本报告从算法研究及其系统应用的角度粗谈下可尝试的研究策略,亦对当前OCR研究中的关键问题进行讨论,供领域社区参考。
参加方式:
本次在线会议免费参加,不收取任何注册费,不用提前报名注册。
普通听众请通过本文前面所列直播网址或视频号参加会议。
特邀讲者及嘉宾、CSIG理事、CSIG文档图像分析与识别专委会、CAA模式识别与机器智能专委会委员可通过腾讯会议系统参加,会议ID另行通知。
欢迎加入OCR技术交流群,请扫描如下二维码加入(4月26日前扫描有效)。