词法分析
百度 官方文档
基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解
基本说明:
接口地址:https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer
返回格式:json
请求方式:post
请求示例:https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=test
请求参数说明:
名称 类型 必填 说明
text string 必填 待分析文本(目前仅支持GBK编码),长度不超过20000字节
返回参数说明:
名称 类型 说明
text string 原始单条请求文本
items array of objects 词汇数组,每个元素对应结果中的一个词
+item string 词汇的字符串
+ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
+pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
+byte_offset int 在text中的字节级offset(使用GBK编码)
+byte_length int 字节级length(使用GBK编码)
+uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
+formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
+basic_words array of strings 基本词成分
+loc_details array of objects 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
++type string 成分类型,如省、市、区、县
++byte_offset int 在item中的字节级offset(使用GBK编码)
++byte_length int 字节级length(使用GBK编码)
JSON返回示例:
{      
	"text": "百度是一家高科技公司",
	      "items": [         {           
		"byte_length": 4,
		           "byte_offset": 0,
		           "formal": "",
		           "item": "百度",
		           "ne": "ORG",
		           "pos": "",
		           "uri": "",
		           "loc_details": [ ],
		           "basic_words": ["百度"]         
	},           {           
		"byte_length": 2,
		           "byte_offset": 4,
		          "formal": "",
		           "item": "是",
		          "ne": "",
		          "pos": "v",
		          "uri": "",
		           "loc_details": [],
		           "basic_words": ["是"]         
	},           {           
		"byte_length": 4,
		           "byte_offset": 6,
		           "formal": "",
		           "item": "一家",
		           "ne": "",
		           "pos": "m",
		           "uri": "",
		           "loc_details": [],
		           "basic_words": ["一", "家"]         
	},           {           
		"byte_length": 6,
		           "byte_offset": 10,
		           "formal": "",
		           "item": "高科技",
		           "ne": "",
		           "pos": "n",
		           "uri": "",
		           "loc_details": [ ],
		           "basic_words": ["高", "科技"]         
	},           {           
		"byte_length": 4,
		           "byte_offset": 16,
		           "formal": "",
		           "item": "公司",
		           "ne": "",
		           "pos": "n",
		           "uri": "",
		           "loc_details": [],
		           "basic_words": ["公司"]         
	}      ]
}
服务级错误码参照
错误码 说明
1 服务器内部错误,请再次请求,如果持续出现此类错误,请通过QQ群(224994340)或工单联系技术支持团队
2 服务暂不可用,请再次请求,如果持续出现此类错误,请通过QQ群(224994340)或工单联系技术支持团队
3 调用的API不存在,请检查后重新尝试
4 集群超限额
6 无权限访问该用户数据
17 每天请求量超限额
18 QPS超限额
19 请求总量超限额
100 包含了无效或错误参数,请检查代码
110 Access Token失效
111 Access token过期
282000 服务器内部错误,请再次请求, 如果持续出现此类错误,请通过QQ群(632426386)或工单联系技术支持团队。
282002 编码错误,请使用GBK编码
282004 请求中包含非法参数,请检查后重新尝试
282008 仅支持GBK和UTF-8,其余为不支持的字符编码,请检查后重新尝试
282130 当前查询无结果返回,出现此问题的原因一般为:参数配置存在问题,请检查后重新尝试
282131 输入长度超限,请查看文档说明
282133 接口参数缺失
282134 输入为空
282300 word不在算法词典中
282301 word_1提交的词汇暂未收录,无法比对相似度
282302 word_2提交的词汇暂未收录,无法比对相似度
282303 word_1和word_2暂未收录,无法比对相似度
完整教学代码示例
小F正在拼命添加中...