7.3.60. table_tokenize
¶
7.3.60.1. 概要¶
table_tokenize
コマンドは指定したテーブルのトークナイザーでテキストをトークナイズします。
7.3.60.2. 構文¶
このコマンドにはたくさんの引数があります。
table
と string
は必須の引数です。残りは省略できます:
table_tokenize table
string
[flags=NONE]
[mode=GET]
[index_column=null]
7.3.60.3. 使い方¶
以下は簡単な使用例です。
実行例:
register token_filters/stop_word
# [[0,0.0,0.0],true]
table_create Terms TABLE_PAT_KEY ShortText \
--default_tokenizer TokenBigram \
--normalizer NormalizerAuto \
--token_filters TokenFilterStopWord
# [[0,0.0,0.0],true]
column_create Terms is_stop_word COLUMN_SCALAR Bool
# [[0,0.0,0.0],true]
load --table Terms
[
{"_key": "and", "is_stop_word": true}
]
# [[0,0.0,0.0],1]
table_tokenize Terms "Hello and Good-bye" --mode GET
# [
# [
# 0,
# 0.0,
# 0.0
# ],
# [
# {
# "value": "hello",
# "position": 0
# },
# {
# "value": "good",
# "position": 2
# },
# {
# "value": "-",
# "position": 3
# },
# {
# "value": "bye",
# "position": 4
# }
# ]
# ]
Terms
テーブルには、 TokenBigram
トークナイザーと、 NormalizerAuto
ノーマライザーと、 TokenFilterStopWord
トークンフィルターがセットされています。 この例は TokenBigram
トークナイザーで "Hello and Good-bye"
をトークナイズしたトークンを返します。トークンは、 NormalizerAuto
ノーマライザーで正規化されています。 and
トークンは、 TokenFilterStopWord
トークンフィルターで除去されています。
7.3.60.4. 引数¶
このセクションではすべての引数について説明します。引数はカテゴリわけしています。
7.3.60.4.1. 必須引数¶
必須の引数は2つです。 table
と string
です。
7.3.60.4.1.1. table
¶
語彙表テーブルを指定します。 table_tokenize
コマンドは、語彙表テーブルにセットされたトークナイザーとノーマライザーとトークンフィルターを使います。