php分词工具scws - 圆明猿 - 博客园

分词工具   sphinx  支持php版本5.2.2~6.0因此选用scws

文档地址

http://www.xunsearch.com/scws/docs.php#instscws

简单的demo(测试有效)

$so = scws_new();
//设置分词时所用编码
$so->set_charset('utf-8');
//设置分词所用词典(此处使用utf8的词典)
$so->set_dict('/usr/local/scws/etc/dict.utf8.xdb');
//设置分词所用规则
$so->set_rule('/usr/local/scws/etc/rules.utf8.ini');
//分词前去掉标点符号
$so->set_ignore(true);
//是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
$so->set_multi(true);
//设定将文字自动以二字分词法聚合
$so->set_duality(true);
//要进行分词的语句
$so->send_text('欢迎来到华晨宇时代IT开发');
//获取分词结果,如果提取高频词用get_tops方法
while ($tmp = $so->get_result())
{

print_r($tmp);  

}
$so->close();


Original url: Access
Created at: 2019-10-06 22:24:59
Category: default
Tags: none

请先后发表评论
  • 最新评论
  • 总共0条评论