NuGet 可用于自动添加文件和对 Visual Studio 项目的引用。 您可以使用 Patagames NuGet 包而无需安装 ZIP 包来使用 Tesseract.Net SDK 进行开发。 所有 Patgames 组件都可以在 nuget.org 上以 NuGet 包的形式获得。

PM> Install-Package Tesseract.Net.SDK

要安装软件包,请在 Package Manager Console 中输入上述命令,然后按 Enter 键; 或通过 NuGet 包管理器搜索 tesseract.net.sdk。

替代下载

还有其他几种获取 Tesseract.Net SDK 的方法 - 用于手动安装的“7-zip”和“ZIP”存档。 如果您不需要任何这些安装程序,我们建议使用 NuGet 包。

下载 .Zip

版本:4.5.411 | 文件大小:23.9 Mb

下载 .7z

版本:4.5.411 | 文件大小:10.9 Mb

上述所有软件包包括以下内容:

tessdata
configs
eng.traineddata 英语语言数据 (tessdata_main)
osd.traineddata 方向和脚本检测数据 (tessdata_main)
equ.traineddata 数学/方程检测模块(tessdata_main)
pdf.ttf 生成 PDF 时使用的自定义字体

语言包

标准包中提供英语语言数据文件。 如果您需要使用其他语言,请从该页面单独下载并放入 tessdata 文件夹。

afr 南非荷兰语数据 快速 最佳 主要 v3.05
amh 阿姆哈拉语数据(埃塞俄比亚的一种语言)* 快速 最佳 主要 v3.05
ara 阿拉伯语数据 快速 最佳 主要 v3.05
asm 阿萨姆语数据(印度的一种语言)* 快速 最佳 主要 v3.05
aze 阿塞拜疆语数据 快速 最佳 主要 v3.05
aze_cyrl 阿塞拜疆西里尔语言数据 快速 最佳 主要 v3.05
bel 白俄罗斯语言数据 快速 最佳 主要 v3.05
ben 孟加拉语数据 快速 最佳 主要 v3.05
bod 藏(中央)语言数据(中国一种语言)* 快速 最佳 主要 v3.05
bos 波斯尼亚语数据(波斯尼亚和黑塞哥维那的一种语言)* 快速 最佳 主要 v3.05
bul 保加利亚语数据 快速 最佳 主要 v3.05
cat 加泰罗尼亚语数据 快速 最佳 主要 v3.05
ceb 宿雾语数据(菲律宾的一种语言)* 快速 最佳 主要 v3.05
ces 捷克语数据 快速 最佳 主要 v3.05
chi_sim 中文(简体)语言数据 快速 最佳 主要 v3.05
chi_tra 中文(繁体)语言数据 快速 最佳 主要 v3.05
chr 切诺基语言数据 快速 最佳 主要 v3.05
cym 威尔士语数据(英国的一种语言)* 快速 最佳 主要 v3.05
dan 丹麦语数据 快速 最佳 主要 v3.05
dan_frak 丹麦语(Fraktur)语言数据 快速 最佳 主要 v3.05
deu 德语数据 快速 最佳 主要 v3.05
deu_frak 德语(Fraktur)语言数据 快速 最佳 主要 v3.05
dzo 宗卡语数据(不丹的一种语言)* 快速 最佳 主要 v3.05
ell 希腊语数据 快速 最佳 主要 v3.05
eng 英语语言数据 快速 最佳 主要 v3.05
enm 中古英语 (1100-1500) 语言数据 快速 最佳 主要 v3.05
epo 世界语语言数据 快速 最佳 主要 v3.05
equ 数学/方程检测模块 快速 最佳 主要 v3.05
est 爱沙尼亚语数据 快速 最佳 主要 v3.05
eus 巴斯克语数据 快速 最佳 主要 v3.05
fas 波斯语数据(伊朗的宏语言)* 快速 最佳 主要 v3.05
fin 芬兰语数据 快速 最佳 主要 v3.05
fra 法语数据 快速 最佳 主要 v3.05
frk 法兰克语数据 快速 最佳 主要 v3.05
frm 中古法语(约 1400-1600)语言数据 快速 最佳 主要 v3.05
gle 爱尔兰语数据(爱尔兰的一种语言)* 快速 最佳 主要 v3.05
glg 加利西亚语数据 快速 最佳 主要 v3.05
grc 古希腊语数据 快速 最佳 主要 v3.05
guj 古吉拉特语数据(印度的一种语言)* 快速 最佳 主要 v3.05
hat 海地语数据(海地语)* 快速 最佳 主要 v3.05
heb 希伯来语数据 快速 最佳 主要 v3.05
hin 印地语数据 快速 最佳 主要 v3.05
hrv 克罗地亚语数据 快速 最佳 主要 v3.05
hun 匈牙利语数据 快速 最佳 主要 v3.05
iku 因纽特语语言数据(加拿大的一种宏语言)* 快速 最佳 主要 v3.05
ind 印尼语数据 快速 最佳 主要 v3.05
isl 冰岛语数据 快速 最佳 主要 v3.05
ita 意大利语数据 快速 最佳 主要 v3.05
ita_old 意大利语(旧)语言数据 快速 最佳 主要 v3.05
jav 爪哇语数据(印度尼西亚的一种语言)* 快速 最佳 主要 v3.05
jpn 日语数据 快速 最佳 主要 v3.05
kan 卡纳达语数据 快速 最佳 主要 v3.05
kat 格鲁吉亚语数据(格鲁吉亚语)* 快速 最佳 主要 v3.05
kat_old 格鲁吉亚语(旧)语言数据(格鲁吉亚语)* 快速 最佳 主要 v3.05
kaz 哈萨克语数据(哈萨克斯坦的一种语言)* 快速 最佳 主要 v3.05
khm 高棉(中部)语言数据(柬埔寨的一种语言)* 快速 最佳 主要 v3.05
kir 吉尔吉斯语数据(吉尔吉斯斯坦的一种语言)* 快速 最佳 主要 v3.05
kor 韩语数据 快速 最佳 主要 v3.05
kur 库尔德语数据(伊拉克的宏语言)* 快速 最佳 主要 v3.05
lao 老挝语数据(老挝语)* 快速 最佳 主要 v3.05
lat 拉丁语数据(梵蒂冈的一种语言)* 快速 最佳 主要 v3.05
lav 拉脱维亚语数据 快速 最佳 主要 v3.05
lit 立陶宛语数据 快速 最佳 主要 v3.05
mal 马拉雅拉姆语数据 快速 最佳 主要 v3.05
mar 马哈拉施特拉语数据(印度的一种语言)* 快速 最佳 主要 v3.05
mkd 马其顿语数据 快速 最佳 主要 v3.05
mlt 马耳他语数据 快速 最佳 主要 v3.05
msa 马来语资料 快速 最佳 主要 v3.05
mya 缅甸语数据(缅甸的一种语言)* 快速 最佳 主要 v3.05
nep 尼泊尔语数据(尼泊尔的宏语言)* 快速 最佳 主要 v3.05
nld 荷兰语数据 快速 最佳 主要 v3.05
nor 挪威语数据 快速 最佳 主要 v3.05
ori 奥里亚语数据(印度的一种宏语言)* 快速 最佳 主要 v3.05
osd 方向和脚本检测数据 快速 最佳 主要 v3.05
pan 旁遮普语(东部)语言数据(印度的一种语言)* 快速 最佳 主要 v3.05
pol 波兰语数据 快速 最佳 主要 v3.05
por 葡萄牙语数据 快速 最佳 主要 v3.05
pus Pushto 语言数据(巴基斯坦的一种宏语言)* 快速 最佳 主要 v3.05
ron 罗马尼亚语数据 快速 最佳 主要 v3.05
rus 俄语语言数据 快速 最佳 主要 v3.05
san 梵语数据(印度的一种语言)* 快速 最佳 主要 v3.05
sin 僧伽罗语数据(斯里兰卡的一种语言)* 快速 最佳 主要 v3.05
slk 斯洛伐克语数据 快速 最佳 主要 v3.05
slk_frak 斯洛伐克语(Fraktur)语言数据 快速 最佳 主要 v3.05
slv 斯洛文尼亚语数据 快速 最佳 主要 v3.05
spa 西班牙语数据 快速 最佳 主要 v3.05
spa_old 西班牙语(旧)语言数据 快速 最佳 主要 v3.05
sqi 阿尔巴尼亚语数据 快速 最佳 主要 v3.05
srp 塞尔维亚语数据 快速 最佳 主要 v3.05
srp_latn 塞尔维亚(拉丁)语言数据 快速 最佳 主要 v3.05
srp_latn 塞尔维亚(拉丁)语言数据 快速 最佳 主要 v3.05
swe 瑞典语数据 快速 最佳 主要 v3.05
syr 叙利亚语脚本语言数据(伊拉克的宏语言)* 快速 最佳 主要 v3.05
tam 泰米尔语数据 快速 最佳 主要 v3.05
tel 泰卢固语数据 快速 最佳 主要 v3.05
tgk 塔吉克语 (ISO 639-3) 语言数据(塔吉克斯坦的一种语言)* 快速 最佳 主要 v3.05
tgl 他加禄语数据 快速 最佳 主要 v3.05
tha 泰语数据 快速 最佳 主要 v3.05
tir 提格里尼亚语数据(埃塞俄比亚的一种语言)* 快速 最佳 主要 v3.05
tur 土耳其语数据 快速 最佳 主要 v3.05
uig 维吾尔语(维吾尔语)语言数据(中国的一种语言)* 快速 最佳 主要 v3.05
ukr 乌克兰语数据 快速 最佳 主要 v3.05
urd 乌尔都语语言数据(巴基斯坦的一种语言)* 快速 最佳 主要 v3.05
uzb 乌兹别克语数据(乌兹别克斯坦的宏语言)* 快速 最佳 主要 v3.05
uzb_cyrl 乌兹别克语(西里尔文)语言数据(乌兹别克斯坦的宏语言)* 快速 最佳 主要 v3.05
vie 越南语数据 快速 最佳 主要 v3.05
yid 意第绪语数据(以色列的宏语言)* 快速 最佳 主要 v3.05

*所有语言文件均从官方存储库 Tesseract Open Source OCR Engine 下载

tessdata_best – 用于 Tesseract .Net SDK 的最佳(最准确)训练模型。

谷歌评估数据的最佳结果,较慢的浮点模型。
这些是唯一可以用作微调训练基础的模型。
Tessdata_best 适合那些愿意以更高速度换取更高准确性的人。
Tessdata_best 适合那些愿意以更高速度换取更高准确性的人。

tessdata_fast – 用于 Tesseract .Net SDK 的训练模型的快速整数版本。

速度与准确性方面的最佳“物有所值”,整数模型。
提供一组替代的整数化 LSTM 模型,这些模型是用较小的网络构建的。

*这些模型仅适用于 Tesseract.Net SDK 版本的 LSTM OCR 引擎。 2.x

tessdata_main - 用于传统 tesseract 引擎以及新的基于 LSTM 神经网络的引擎的训练模型版本。

这些文件中的 LSTM 模型已更新为 tessdata_best 的整数版本。 因此,它们应该比 tessdata_best 更快,但可能不太准确。
印度语和阿拉伯语脚本语言文件的旧版 tesseract 模型已被删除。
这些模型仅适用于 Tesseract .Net SDK 版本 2.x

tessdata_v3 - tesseract 3.04 或 3.05 的训练模型版本。

这些模型仅适用于 Tesseract .Net SDK 版本 1.x

卸载说明、发布日志、EULA

可以在此处找到此下载的发布日志。
卸载说明可以在这里找到。

通过从本网站下载 Patagames 或其子公司的软件,您同意试用软件的 Tesseract.Net SDK 最终用户许可协议 (EULA)。 如果您不同意此类协议,请不要下载该软件。 安装或下载软件时随附特定软件文件的最终用户许可协议的条款将取代以下条款。

COGITO SOFTWARE CO., LIMITED版权所有