Java源代码:组织。 Apache的。蒂卡。语言。 LanguageIdentifier


⟱⟱⟱⟱⟱⟱⟱⟱⟱

https://mlnkor.com/langdetect 🌍

⟰⟰⟰⟰⟰⟰⟰⟰⟰

 

 

2017年7月3日,我正在尝试将Apache Tika LanguageIdentifier限制为多种语言。当我在下面运行我的代码时,它仅将文本检测为“ de”,因此为德语。我要这样做的原因是由于语言限制,让LanguageIdentifier的性能更好。清理标准配置文件后,我仅将我想要的配置文件添加到地图,并使用该地图初始化LanguageIdentifier。

文章/ 7016746

https://ameblo.jp/kenkisan/entry-12529904359.html

改进了南非语言的文字语言识别

本页提供的Java代码示例。这些示例摘自开源Java项目。

Tika /在Apache大师/ Tika中。 蒂卡/大师。 语言标识符(Apache Tika 1.2 API。 ameblo.jp/ronkaiba/entry-12529764597.html。 Java世界:Apache TIKA简介。 2019 /月/ AQA-gcse.html Tika / tika-core / src / main / java / org / apache / tika / language / detect /查找文件复制路径获取贡献者。 *有关特定语言的管理权限,请参阅许可证。 语言标识符(Apache Tika 0.10 API。 Java源代码:org。阿帕奇。蒂卡。语言。语言标识符。 码。拉取请求40。项目0安全见解代码。拉取请求40。项目0。安全。脉冲固定链接。取消立即加入GitHub。 GitHub是超过4000万开发人员的家园,他们共同致力于托管和审查代码,管理项目以及共同构建软件。注册。分公司:硕士。查找文件复制路径tika / tika-example / src / main / java / org / apache / tika / example。

语言标识符(Apache Tika 1.20 API。 将Tika LanguageIdentifier限制为特定的。 Java源代码。 Tika / tika-core / src / main / java / org / apache / tika / language /查找文件复制路径获取贡献者。目前无法检索贡献者。 242行(212 sloc)8.34 KB Raw Blame历史。根据一项或多项*贡献者许可协议获得了Apache Software Foundation(ASF)的许可。请参阅随*一起分发的NOTICE文件。 公共类LanguageIdentifier扩展Object。与给定的内容配置文件最匹配的语言的标识符。根据来自各种来源的材料,将内容配置文件与通用语言配置文件进行比较。由于:Apache Tika 0.5,另请参见:Europarl:用于统计机器翻译的并行语料库,ISO 639语言代码。

构建语言配置文件。从名为“ operties”的属性文件中获取语言列表。如果在类路径中找到名为“ operties”的文件,则使用该文件。该属性文件包含键“ languages”,其值是用逗号分隔的语言代码。

 

0コメント

  • 1000 / 1000