这里我们用到了一个开源的程序,tesseract
首先安装tesseract。https://github.com/tesseract-ocr/tesseract/wiki
根据不同的操作系统安装。
安装后会在安装目录下得到tesseract的可执行文件。windows下为tesseract.exe
接着新建一个php文件,内容如下
$file = $_FILES['img'];
$name = $file['name'];
$upload_path = "C:\\tmp\\ocr\\";
$bin_path = "C:\\tesseract.exe ";
$md_name = md5($name);
$txt_path = $upload_path . $md_name. ".txt";
if(move_uploaded_file($file['tmp_name'],$upload_path.$md_name)){
$cmd=$bin_path.$upload_path.$md_name." ".$upload_path.$md_name;
$lim_time = time()+15;
system($cmd.""); //此处可以添加参数
while(1){
if(time()>=$lim_time){
system("taskkill /f /im tesseract.exe");
echo "判定超时";
exit;
break;
}
if(file_exists($txt_path)){
$result = file_get_contents($txt_path);
echo $result;
break;
}
}
}
这只是个windows系统下的示例,Linux与它相仿,只需要填写正确的路径即可。在上线前务必进行修改,否则无法正常运行!!
这里$_FILE用来接收图像文件,md5处理图像文件名称。C:\tmp\ocr为临时文件保存的地址。用来存放临时文件。
system($cmd."");用来执行,最后的双引号内可以添加参数。例如语言参数。
代码后面有处判定超时,为了防止进程长时间占满CPU而导致服务器宕机。去掉也无大碍。
$result为结果,最后将其输出即可。