>  > 【3本セット】 カラタスシャンプー ヒートケア null CALATAS HEAT CARE クリスマス プレゼント ギフト 引越し祝い
ConCool コンクールリペリオ 80g×6本 歯肉活性化歯磨き剤 ウェルテック(株)
日本語Wikipediaで学習したdoc2vecモデル
2019-01-22

日本語Wikipediaを対象にdoc2vec学習させたモデルを作成したので、学習済みモデルとして公開します。

【3本セット】 カラタスシャンプー ヒートケア EDP/SP null CALATAS HEAT CARE クリスマス プレゼント 1000ml《ヘアトリートメント》 ギフト 引越し祝い

doc2vecは2014年にQuoc LeとTomas Mikolovによって発表された文章の埋め込みの手法です。今更doc2vecかという感じではありますが、日本語のdoc2vecの学習済みモデルは探した限り容易に利用できるものがなかったこともあり、せっかくなので作成したモデルを配布します。

word2vecのような単語の分散表現においては学習済みモデルとして配布されたものを利用することが多いですが 明治 SAVAS(ザバス) ホエイプロテイン100 ココア味 2520g(約120食分)、文章の埋め込みに関しては対象とするドキュメント集合やそのドメインに特化した学習モデルを作成することが多い印象です。なので、学習済みモデルファイルの配布自体にそれほど意味があるわけではなさそうですが、既存手法との比較に利用したり、

【3本セット】 カラタスシャンプー ヒートケア null CALATAS HEAT CARE クリスマス プレゼント ギフト 引越し祝い通販店舗


ぬか玄 顆粒 (2g×80包) 15個セット【送料無料】


【3本セット】 カラタスシャンプー ヒートケア null CALATAS HEAT CARE クリスマス プレゼント ギフト 引越し祝い コラントッテ ネックレス クレスト R 【首・肩の血行を改善、筋肉のコリを緩和】

↓↓↓エスティローダー クレッセント ホワイト ローション 200mL;アルビオン エクシア AL ホワイトニング スポッツ MX 30g;【レヴィーア】【TypeLS】 トヨタ 86 (ZN6) LEDウインカードアミラー ウェルカムランプ付 純正交換式 塗装:C7P ライトバーカラー:ホワイト, マツダ フレアワゴン MM21S 16インチ アルミホイール 一台分(4本) LEONIS GREILA β (レオニス グレイラベータ) ブラックミラーカット アルミ, 【送料無料】 245/40R18 18インチ BORBET ボルベット F 8J 8.00-18 DUNLOP ダンロップ SPスポーツ MAXX 050+ サマータイヤ ホイール4本セット 輸入車 フジコーポレーション, 新品アルミホイール1本価格 18インチAME シャレン XV-77 18×9.5J 5/114.3 +55~-28(1mm単位のオーダーオフセット)ダイヤモンドフィニッシュ/ブルードブラック AME SHALLEN XV77, NANKANG TIRE ナンカン NS-2 サマータイヤ 245/45R18 RAYS GRAM LIGHTS 57FXX 18 X 8 +45 5穴 114.3;【最大1,000円クーポン】イモーテル(ヘリクリサム) immortelle 10ml 生活の木 【受注生産】 【正規品・送料無料】クリニーク RD ソリューションズ デイリー リリーフ クリーム(48g)+コフレ5700円↓↓↓17インチ サマータイヤ セット【適応車種:フィット(GE系 15インチ装着車)】WEDS レオニス FY BMCミラーカット 6.5Jx17ADVAN ネオバAD08R 205/45R17, 【店舗取付サービス】【汎用 ジェットイノウエ】アンダーミラーカバー パーフェクトクオン ヒーター付, ブリヂストン ECOPIA エコピア NH100 9月末迄 サマータイヤ 215/45R17 Japan三陽 ZACK Sport01 ホイールセット 4本 17インチ 17 X 7 +48 5穴 100, 19インチ サマータイヤ セット【セルシオ(20系)】MANARAY ヴァーテックワン ロングビーク メタリックブラック/リムDC/アンダーカットポリッシュ 8.5Jx19ディレッツァ Z3 245/40R19, VW トゥーラン用 スタッドレス 2018年製 グッドイヤー アイスナビ6 205/55R16 91Q OZ MSW 85 マットチタニウムテック タイヤホイール4本セット


↓↓↓↓↓↓


















↓↓↓↓↓↓

【お年玉コフレ・正規品・送料無料】COSMEお年玉コフレSET&ナーズ シングルアイシャドー 5357, カネボウ キッカ ラディアントヌード プレストパウダー 01 11g アウトレット, shu uemura(シュウウエムラ)アルティム8 スブリム ビューティー オイルインエッセンス 30ml, 送料無料4個セット まとめ買い スーパーミリオンヘアー No.1 ブラック 30gミリオンヘアー スーパーミリオンヘア Super Million Hair, 【10点セットで送料無料】シュワルツコフヘンケル サイオス ヘアカラー クリーム 1N ×10点セット ★まとめ買い特価! ( 4987234361069 )

フットメジ 足の裏洗ってつるつる!! 足用角質クリアハーブ石けん 60g【スタジオグラフィコ】【4571169851568】【納期:10日程度】;カリス オイル カーネーション アブソリュート SFOA 20ml (品番:2037) - カリス成城 【正規品・送料無料】エスティローダー リニュートリィブ ダイヤモンド リッチ クリーム(48g)+メークアップコレクションセット 【全品ポイント10倍(要エントリー) 31日間限定】 【送料無料(沖縄・離島を除く)】 バルブ アトマイザー ハンドワーク 無花果 工芸壜 16001 レッド (価格改定前商品) 【ヒロミチ アトマイザー】【香水 フレグランス】【】【バルブ アトマイザ ハンドワーク 】;【送料無料・まとめ買い×10】シュワルツコフ カラースペシャリスト A8 明るめのアッシュブラウン 医薬部外品 ×10点セット(4987234350452)

【送料無料】(北海道・沖縄は除く)ビーバンジョア 黒髪創生エッセンス薬用 200ml【ジョアソーム 801】【医薬部外品】;キャリアオイル 生活の木 カメリアオイル (椿油) 250 ml 植物油 椿オイル カメリア

、とりあえず何かしらの手法で単語列から文章ベクトルにしたいといった場合には便利かと思います。まあ何も無いよりかはマシかなという雰囲気です。今回の作成の経緯として、別の手法を実装する際にdoc2vecが内部で使われていたということで副次的に必要になったからだったのですが 【3個セット☆送料無料】ラヴィーナアイズ (Ravina Eyes) 目元美容液 二重、ふと利用したいときに気軽に利用できるというのは結構良いのではないかと思います。


モデル

ここでは2つの学習アルゴリズムでdoc2vecを学習しました。dbow300dはdistributed bag of words (PV-DBOW)を、dmpv300dはdistributed memory (PV-DM)を用いています。なお、モデルファイルはサイズが大きいため 【お年玉コフレ・正規品・送料無料】COSMEお年玉グロスコフレSET&ベアミネラル 5 イン 1 BB クリーム アイシャドウ(3ml)、Googleドライブに配置してあります。下記リンク先からダウンロードしてください。

モデルの学習パラメータ

param dbow300d dmpv300d
dm 0 1
vector_size 300 300
window 15 10
alpha 0.025 0.05
min_count 5 2
sample 1e-5 0
epochs 20 20
dbow_words 1 0

dbow300dのパラメータは 、An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding GenerationにおけるEnglish Wikipeiaの学習時のパラメータを利用しました。dmpv300dのパラメータは、Gensim Doc2Vec Tutorial on the IMDB Sentiment Datasetの設定を参考にしました。

実験設定

学習元のコーパスには、2019/01/14時点でのWikipediaの 【新商品】ミルボン jemile fran ジェミールフラン サロントリートメント ダイヤチャージング (9g×4)×10個セットCirrusSearchのダンプデータを用いました。形態素解析にはMeCabを使用し、辞書には かつら 女性用 全頭かつら ウィッグ 医療用 ウィッグ デザイナー aikoが造ったスーパー ウィッグ (明るい栗毛)かつら 人工頭皮が自然「Lサイズ(頭周り57~58cm) かつら下ネット付き」【ウィッグ】 医療用 ウィッグ 医療用 ウィッグ 医療用 ウィッグNEologdを用いています。また、doc2vecの計算にはgensimを使用しました。利用したパッケージや辞書のバージョンは以下の通りです。

もしモデルが読み込めない場合には、各種ライブラリを最新のバージョンにするなど試してください。


ソースコード

学習時のソースコードは ()(さらに選べるおまけGET)(ホテルアメニティ)(使い捨て化粧品)(個包装タイプ)資生堂(SHISEIDO)フィト アンド ローズ パウチ フェーシャルマスク (シート状マスク)12ml (PHYTO AND ROSE FACIAL MASK) ×150個【smtb-s】、以下のリポジトリにあります。

使い方

ギフト カラタスシャンプー 引越し祝い null プレゼント 【3本セット】 ヒートケア CARE HEAT CALATAS ヒートケア クリスマス プレゼント

from gensim.models.doc2vec import Doc2Vec
model = Doc2Vec.load("jawiki.doc2vec.dbow300d.model")

類似するドキュメントを表示する

In []: model.docvecs.most_similar("アリストテレス")
Out[]:
[('オルガノン', 0.5950535535812378),
 ('善のイデア', 0.5811843872070312),
 ('スペウシッポス', 0.5756123065948486),
 ('プラトン', 0.5733123421669006),
 ('ジークムント・フロイト', 0.5668295621871948),
 ('カルキディウス', 0.5634585618972778),
 ('アンモニオス・サッカス', 0.5591270923614502),
 ('メリッソス、クセノパネス、ゴルギアスについて', 0.5568180084228516),
 ('ピレボス', 0.5543898940086365),
 ('睡眠と覚醒について', 0.5480767488479614)]

未知の入力文に対する埋め込み表現を得る

model.infer_vector()には分かち書き済みの単語リストを入力する必要があります。そのため ディロン2 丸ベース マロン [4571180358183]、ここではMeCabを用いたtokenize()を定義しています。

import MeCab
def tokenize(text):
 wakati = MeCab.Tagger("-O wakati")
 wakati.parse("")
 return wakati.parse(text).strip().split()
In []: text = """バーレーンの首都マナマ(マナーマとも)で現在開催されている
ユネスコ(国際連合教育科学文化機関)の第42回世界遺産委員会は日本の推薦していた
「長崎と天草地方の潜伏キリシタン関連遺産」 (長崎県、熊本県)を30日、
世界遺産に登録することを決定した。文化庁が同日発表した。
日本国内の文化財の世界遺産登録は昨年に登録された福岡県の
「『神宿る島』宗像・沖ノ島と関連遺産群」に次いで18件目。
2013年の「富士山-信仰の対象と芸術の源泉」の文化遺産登録から6年連続となった。"""
In []: model.infer_vector(tokenize(text))
Out[]:
array([-4.52421233e-02, -4.60310102e-01, -7.35630572e-01, 1.16688378e-01,
 1.12721687e-02, 1.63637593e-01, 1.46670029e-01, 6.90088957e-04,
 -1.66465431e-01, -4.73131120e-01, 3.96440744e-01, -3.61171484e-01,
 [...]
 2.84847170e-01, -3.92884701e-01, -2.23438710e-01, 1.59409940e-01],
 dtype=float32) 

(出典:潜伏キリシタン関連遺産、世界遺産登録 - ウィキニュース

任意の入力文に対して類似するドキュメントを表示する

In []: model.docvecs.most_similar([model.infer_vector(tokenize(text))])
Out[]:
[('イタリアの世界遺産', 0.599028468132019),
 ('海の道むなかた館', 0.5562682151794434),
 ('タジキスタンの世界遺産', 0.5554744005203247),
 ('ウクライナの世界遺産', 0.5542891621589661),
 ('バーレーンの世界遺産', 0.552284836769104),
 ('世界遺産センター (曖昧さ回避)', 0.540568470954895),
 ('アラブ首長国連邦の世界遺産', 0.5372575521469116),
 ('アイスランドの世界遺産', 0.5366297960281372),
 ('マレーシアの世界遺産', 0.5362405776977539),
 ('ラトビアの世界遺産', 0.5351229906082153)]

類似する単語を表示する

なお、doc2vecでもword2vecと同様に、任意の単語に対して類似する単語を表示することもできますが、

【3本セット】 カラタスシャンプー ヒートケア null CALATAS HEAT CARE クリスマス プレゼント ギフト 引越し祝い

、単語間の類似度を知りたいだけならword2vecの学習済みモデルである日本語 Wikipedia エンティティベクトルを使った方が良いでしょう。

In []: model.wv.most_similar("一揆", topn=3)
Out[]:
[('百姓一揆', 0.717296302318573),
 ('国人衆', 0.7110892534255981),
 ('国人一揆', 0.7016592025756836)]

ライセンス

CC-BY-SA: クリスチャンディオール ディオール オム スポーツ EDT オードトワレ SP 125ml (訳あり 箱不良 香水) CHRISTIAN DIOR 【業務用】ミネラリア  ピュリファイング クレンジング ジェル 500ml mineralia 【最大600円クーポン 】【送料無料】【x4個】ホーユー エタニーク システムケア M-3 ヘアトリートメント 700g 詰替え用 《詰め替え用 hoyu ヘアートリートメント 業務用》Creative Commons Attribution-ShareAlike License


参考

{yahoojp}jpprem01-zenjp40-wl-zd-51908