利用文字技术帮助选购商品,慧眼“识”物的人都这样做……
摘要:现如今市面上产品越来越多元化,但是作为消费者的我们该如何抉择,怎样查询哪些商品是好是坏呢?随着智能化时代的来临,识别技术已经融入在日常生活中,我们应该怎样利用文字识别技术应用到我们生活当中并帮助我们查询选择商品呢?本次博客将从产品国家标准号的数据收集整理成库,以及在ModelArts上通过建立OCR来完成对于某品牌酸奶产品国家标准号的识别以及相应的查询。
1、爬虫收集数据
本次分享活动案例主要目的在于结合产品的标准号和标准号所包含的具体信息进行查询,所以我们需要对产品的标准号信息数据进行提前条件的收集与整理。然而基于目前标准号数据量十分庞大,本次分享活动只针对国家标准号进行了相应的数据收集和整理,并共收集到9620条国家标准号信息。后续我们也会更进补充包括地方标准号在内的尽可能多的标准信息。当然,如果后续还有任何信息不足,欢迎各位进行补充。
接下来本文将从具体的实际操作部分来讲解本次案例。
首先是在众多标准号公开网站上找到标准号的信息并且对应收集整理成数据库的格式。这里我们选择了一个网站,利用爬虫程序先将国家标准号收集,并整理建立数据库。
某公开标准号数据网站
进入该网站,在该网站上按下F12,就能跳出该网站的源代码。找到并进入elements,就能找到众多标准号对应的信息网址,首先利用爬虫程序将这些标准号的号码和所对应的网址爬取下来,进一步收集该标准号的具体信息。
进入具体的标准号信息网址,我们发现这里包含的具体信息众多。我们选取了该国标号的分类级别、标准号、标准名称、该标准号的状态、该标准号的发布实施日期、颁发部门以及该标准号的具体内容作为单独一个国标号的数据子树。并最终生成了Excel文件的数据库,完成对于标准号程序的爬取和收集。
该数据库的部分截图如下:
对于爬虫程序和生成的数据库我们会放在附件当中,请有需求的程序员朋友进行下载和使用。
2.酸奶产品包装在ModelArts的OCR文字识别
对于OCR的模型和代码本文将不再阐述,请有兴趣的朋友转至此网址博客进行学习:https://bbs.huaweicloud.com/blogs/195963
结合上面爬虫程序的整个流程,我们得到了国家标准号的数据库,接下来我们将从实际操作用OCR识别某酸奶的包装的文字,随后得到我们的标准号,从而得到该标准号的具体信息讲解整个流程经过。
首先我们在ModelArts上新建立notebook,将OCR模型代码上传至我们的notebook:
然后经过OCR的识别,我们将酸奶包装信息上的国家标准号信息识别并提取出来:
并在命令行终端得到我们对于酸奶包装信息识别到的文字信息:
经过ModelArts上的OCR识别我们得到识别出来的酸奶的标准号信息是:GB-19302,对应到我们之前利用爬虫程序建立的数据库当中,找到该标准号的具体信息是对酸奶的产品标注定制:
附件下载: Ocr.zip 4.72MB