返回
首页 > 开题报告
45 页 客服微信号: bylw8com 客服QQ:3346581880

  第二阶段是90年代初期,中文ocr由实验室走向市场,初步实用,在实际的汉字识别输入应用条件下,检验和考查这些研究成果。这一阶段形成了一些初步实用的印刷汉字识别系统开始进入市场。

  第三阶段也就是目前,主要是印刷体识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。

  其中,从1986年初到1988年是数字图像识别和联机数字图像识别研究的丰收期。数字图像识别是汉字识别研究的主要内容。自1986年以来,各种识别软件和系统纷纷涌现,某些识别装置可以初步使用,它们的主机全部采用微机。主要的性能指标为:1.识别字数;2.识别率:对中等质量印刷问题达到95%-99%;3.识别速度;4.识别字体、字号等等。这些系统都配备了方便的`用户界面,从版面分析、文本识别到识别结果的处理,形成了一个完整的识别输入系统。印刷体印刷汉字识别的研究,也在进行中,自x年以来,己有若干个软件与系统成功研制并参与鉴定。

  同国外相比,我国的数字图像识别研究起步较晚。但由于我国政府从80年代开始对汉字自动识别输人的研究给予了充分的重视和支持,经过科研人员于多年的辛勤努力,数字图像识别技术的发展和应用有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。

  当前,数字图像识别研究的主要目的是提高识别系统的品质和效率,增强系统对不同文本的适应性,扩大使用面。在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的产品出现。

2024年研究生开题报告范例 篇10

  一、课题来源:

  本课题来源于作者在学习和实习中了解到的两个事实,属于自拟课题。

  其一,作者在20xx年7月在X公司调研,了解到现如今各行业都面临着数据量剧增长,并由此带来业务处理速度缓慢,数据维护困难等问题。为了应对此挑战,很多企业开实施大数据发展战略。现如今的大数据发展战略可以概括为两类,一类是垂直扩展。即采用存储容量更大,处理能力更强的设备,此种方式成本较大,过去很多大公司一直采用此种方法处理大数据。但自从20xx年Google发布关于GFS,MapReduce和BigTable三篇技术论文之后,云计算开始兴起,Apache Hadoop项目启动。随后从20xx年开始,随着云计算和大数据的发展,Hadoop作为一种优秀的数据分析、处理解决方案,开始受到许多 IT企业的关注。相较于垂直扩张所需的昂贵成本,人们更钟情于采用这种通过整合廉价计算资源的水平扩展方式。于是很多IT企业开始探索采用Hadoop框架构建自己的大数据环境。

  其二,作者自4月在实习过程中进一步了解到,因为关系数据库在存储数据格式方面的局限,以及其Schema机制带来的扩展性上的不便,目前在大部分的大数据应用环境中都采用非结构化的数据库,如列式存储的Hbase,文档型存储的MangoDB,图数据库neo4j等。这些非结构化数据库因为可扩展性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解决方案。

  二、研究目的和意义:

  现如今,数据已经渗透到每一个行业,成为重要的生产因素。近年来,由于历史积累和和数据增长速度加快,各行业都面临着大数据的难题。事实上,大数据既是机遇又时挑战。合理、充分利用大数据,将其转变为海量、高增长率和多样化的信息资产,将使得企业具有更强的决策力、洞察发现力和流程优化等能力。因此,很多IT企业都将大数据作为其重要的发展战略,如亚马逊、FaceBook已布局大数据产业,并取得了骄人的成绩。事实上,不止谷歌、易趣网或亚马逊这样的大型互联网企业需要发展大数据,任何规模的企业都有机会从大数据中获得优势,并由此构建其未来业务分析的基础,在与同行的竞争中,取得显著的优势。

首页 上一页 9 10 11 12 13 14 下一页 尾页

猜你喜欢

版权所有 Copyright©2006-2024 毕业论文网 版权所有

苏ICP备14005682号

联系邮箱:Lw54@vip.qq.com