On this page
如何识别除中英文以外的其他字幕语言?
引言
- 当前,RapidVideOCR是直接使用的
rapidocr_onnxruntime
的默认配置,因此仅能识别中英文的字幕文字。 - 由于
rapidocr_onnxruntime
具备传入其他多语言识别模型的接口,因此RapidVieOCR具备了可扩展性,本篇文章特此来说明如何操作使用。 - 本篇文章以discussions #40中提出的识别法语字幕为例说明,其他语种同理可得。
1. 正确安装使用RapidVideOCR
请参考link
2. 借助PaddleOCRConvert工具来转换法语识别模型为ONNX
参考教程link
其中,
- 模型路径:
https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/french_mobile_v2.0_rec_infer.tar
, - 字典路径:
https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/dygraph/ppocr/utils/dict/french_dict.txt
其他语言的模型下载地址参见:paddleocr whl源码中paddleocr.py
文件中
字典链接参见:link
最终可以得到一个法语识别模型:french_mobile_v2.0_rec_infer.onnx
3. 识别法语字幕
rapid_videocr>=v2.2.8
from rapid_videocr import RapidVideOCR
extractor = RapidVideOCR(rec_model_path="french_mobile_v2.0_rec_infer.onnx")
rgb_dir = "test_files/RGBImagesTiny"
save_dir = "outputs"
save_name = "a"
# outputs/a.srt outputs/a.txt
extractor(rgb_dir, save_dir, save_name=save_name)
Last updated 24 Apr 2024, 12:50 +0800 .