目录[-]

在使用pytesser做图片文字识别时遇到 WindowsError: [Error 2] 错误,报错内容如下:

Traceback (most recent call last):
  File "E:/Code/Captcha/ChinaMobileEC/recogCaptcha.py", line 37, in <module>
    print pytesser.image_to_string(out)
  File "E:\Code\Captcha\pytesser\pytesser.py", line 36, in image_to_string
    call_tesseract(scratch_image_name, scratch_text_name_root)
  File "E:\Code\Captcha\pytesser\pytesser.py", line 25, in call_tesseract
    proc = subprocess.Popen(args)
  File "C:\Python27\lib\subprocess.py", line 710, in __init__
    errread, errwrite)
  File "C:\Python27\lib\subprocess.py", line 958, in _execute_child
    startupinfo)
WindowsError: [Error 2] 

WindowsError: [Error 2] 的意思是系统找不到指定的文件。

查看pytesser中的代码,其实就是一个调用 tesseract.exe 识别图片的过程,其中代码如下:

tesseract_exe_name = 'tesseract'

def call_tesseract(input_filename, output_filename):
    """Calls external tesseract.exe on input file (restrictions on types),
    outputting output_filename+'txt'"""
    args = [tesseract_exe_name, input_filename, output_filename]
    proc = subprocess.Popen(args)
    retcode = proc.wait()
    if retcode != 0:
        errors.check_for_errors()

就是调用 subprocess.Popen() 执行 tesseract input_filename output_filename, 这样会将识别结果写到out_filename的txt文件。这条命令你可以直接在cmd中到 tesseract.exe 目录下运行,也能看到识别结果。pytesser其实就是调用这个命令识别,然后读取结果返回。

所以上面错误中所说的找不到的文件就是指 tesseract.exe。所以解决这个问题的方法有两种:

第一种时将 tesseract.exe 所在路径添加到搜索路径,这样无论在哪儿执行 tesseract 系统都能找到。

第二种是修改 pytesser 中的代码, 将 tesseract 换成绝对路径即可:

import os

pwd = os.path.dirname(__file__)

# 将原来的 tesseract_exe_name='tesseract' 改成绝对路径
tesseract_exe_name = os.path.join(pwd,'tesseract')

博客地址: http://www.spiderpy.cn/blog/detail/35