用专业OCR软件进行字幕识别附件包括:
SubRip_1.50_Beta.rar
esrXP b10.rar
尚书OCR是商业软件,恕不提供,请勿询问如何获得。
附件下载
http://202.38.64.240/person/echoIII/subsoft/SubRip_1.50_Beta.rarhttp://202.38.64.240/person/echoIII/subsoft/esrXPb10.rar虽然SubOCR之类的字幕软件的OCR识别率已经相当可以,但毕竟不能跟专业的OCR软件相比,本文就来介绍一下如何利用专业的OCR软件进行识别,共分三部分
第一部分:用Subrip准备图片文件1.安装打开Subrip,文件->打开Vob文件,打开文件目录->选择sub文件,语言数据流选好,右面操作里选字幕图片保存为4bit的BMP文件,以及在加时间和尺寸上打勾,然后开始,随便输入一个文件名,保存
2.预设里选I-Author;选取Custom Colors and Contrast,先把颜色#1-4全部选择成白色(#1-4分别代表字芯、字框、背景、消除走样,每个字幕的#1-4所代表的都不一样),然后一一测试哪一个为字芯,设为黑色,其他3项全部为白色,确定
3.SubRip会自动将每一幅图片保存为BMP,并且加上相应时间顺序。接下来输出格式->设置输出格式,
选择Text Formats下的SubRip(*.srt)->转换成此格式文件
文件->另存为,然后点保存,将srt保存到与建立的那堆bmp在同一层目录
第二部分:用专业OCR软件进行文字识别这一部分的OCR软件可以随意替换,只要满足两个条件就行:
1)支持批量识别(好像基本上都满足)
2)支持将识别的全部文本合并成一个文件(这条不重要,很多文本处理软件可以将txt合并,比如DreamEdit)
所以不仅针对中文,也可以用来识别英文,日文或其他语种的,只要能找到相应的OCR软件就行。
1.图片格式转换,我选择的是尚书七号,然而它居然不支持4bit的bmp文件(虽然可以添加,但无法识别),所以先用随便一个图像软件转一下格式,比如我用ACDSee转成jpg,反正这层转换不会影响OCR识别质量。原bmp文件不要删除。如果选择的其他OCR软件支持就不需要这一步。
2.文件->系统设置,设置系统参数里选为简繁混合,因为我们识别的字幕多半是繁体的
3.文件->打开图像,全选刚才转换过来的全部jpg文件
打开后可以看到左边窗口列表,语言那栏确保是“简繁”,然后点中,ctrl + A全选,选中后全部标蓝如图,然后 识别->开始识别
4.全选,输出->到指定文件格式,随便起名保存成txt,则所有识别结果被合并到一个txt文件中
第三部分:用esrXP进行校对1.运行esrXP,file->Open,打开文件类型选择srt,选择刚才第一部分建立的srt文件(确保这个文件和这堆bmp在同一层目录)
2.用记事本打开第二部分生成的txt文件,全选复制,粘贴到esrXP左边的窗口,然后对照右边窗口的图片进行校对。可以看到,左右两边是一一对应的,左边每向下移动一行右边也会向下移动一行,右边选中行是灰色的。有时会因为分行而导致对不上,只要依次往上并一行就又对上了。行行对齐十分重要。
3.校对完成后,file->Save as保存,保存类型可以选srt或者ssa,如果保存工程文件,则直接保存为esr。