PHP图片文字识别(OCR)

发布于 / PHP / Comments Off on PHP图片文字识别(OCR)

这里我们用到了一个开源的程序,tesseract

首先安装tesseract。https://github.com/tesseract-ocr/tesseract/wiki

根据不同的操作系统安装。

安装后会在安装目录下得到tesseract的可执行文件。windows下为tesseract.exe

接着新建一个php文件,内容如下

$file = $_FILES['img'];
$name = $file['name'];
$upload_path = "C:\\tmp\\ocr\\";
$bin_path = "C:\\tesseract.exe ";
$md_name = md5($name);
$txt_path = $upload_path . $md_name. ".txt";
if(move_uploaded_file($file['tmp_name'],$upload_path.$md_name)){
  $cmd=$bin_path.$upload_path.$md_name." ".$upload_path.$md_name;
  $lim_time = time()+15;
  system($cmd."");    //此处可以添加参数
  while(1){
    if(time()>=$lim_time){
      system("taskkill /f /im tesseract.exe");
      echo "判定超时";
      exit;
      break;
    }
    if(file_exists($txt_path)){
      $result = file_get_contents($txt_path);
      echo $result;
      break;
    }
  }
}

这只是个windows系统下的示例,Linux与它相仿,只需要填写正确的路径即可。在上线前务必进行修改,否则无法正常运行!!

这里$_FILE用来接收图像文件,md5处理图像文件名称。C:\tmp\ocr为临时文件保存的地址。用来存放临时文件。

system($cmd."");用来执行,最后的双引号内可以添加参数。例如语言参数。

代码后面有处判定超时,为了防止进程长时间占满CPU而导致服务器宕机。去掉也无大碍。

$result为结果,最后将其输出即可。

转载原创文章请注明,转载自: 斐斐のBlog » PHP图片文字识别(OCR)
评论已关闭