[原创]用专业OCR软件进行字幕识别|『字幕制作交流区』

echoIII

级别: 圣骑士

注册时间:: 2002-12-10

在线时间:: 0小时

发帖:: 2024

只看楼主更多操作楼主发表于: 2006-11-21

用专业OCR软件进行字幕识别

附件包括:
SubRip_1.50_Beta.rar
esrXP b10.rar
尚书OCR是商业软件，恕不提供，请勿询问如何获得。

附件下载
http://202.38.64.240/person/echoIII/subsoft/SubRip_1.50_Beta.rar
http://202.38.64.240/person/echoIII/subsoft/esrXPb10.rar

虽然SubOCR之类的字幕软件的OCR识别率已经相当可以，但毕竟不能跟专业的OCR软件相比，本文就来介绍一下如何利用专业的OCR软件进行识别，共分三部分
第一部分：用Subrip准备图片文件
1.安装打开Subrip，文件->打开Vob文件，打开文件目录->选择sub文件，语言数据流选好，右面操作里选字幕图片保存为4bit的BMP文件，以及在加时间和尺寸上打勾，然后开始，随便输入一个文件名，保存

2.预设里选I-Author；选取Custom Colors and Contrast，先把颜色#1-4全部选择成白色（#1-4分别代表字芯、字框、背景、消除走样，每个字幕的#1-4所代表的都不一样），然后一一测试哪一个为字芯，设为黑色，其他3项全部为白色，确定

3.SubRip会自动将每一幅图片保存为BMP，并且加上相应时间顺序。接下来输出格式->设置输出格式，

选择Text Formats下的SubRip(*.srt)->转换成此格式文件

文件->另存为,然后点保存，将srt保存到与建立的那堆bmp在同一层目录

第二部分：用专业OCR软件进行文字识别
这一部分的OCR软件可以随意替换，只要满足两个条件就行：
1）支持批量识别（好像基本上都满足）
2）支持将识别的全部文本合并成一个文件（这条不重要，很多文本处理软件可以将txt合并，比如DreamEdit）
所以不仅针对中文，也可以用来识别英文，日文或其他语种的，只要能找到相应的OCR软件就行。

1.图片格式转换，我选择的是尚书七号，然而它居然不支持4bit的bmp文件（虽然可以添加，但无法识别），所以先用随便一个图像软件转一下格式，比如我用ACDSee转成jpg，反正这层转换不会影响OCR识别质量。原bmp文件不要删除。如果选择的其他OCR软件支持就不需要这一步。
2.文件->系统设置，设置系统参数里选为简繁混合，因为我们识别的字幕多半是繁体的