WEKO3
アイテム
学校非公式サイトにおける有害語の極性判定に関する研究
http://hdl.handle.net/10076/12793
http://hdl.handle.net/10076/12793b614d4b6-2f4d-4bda-81ca-bd6b7aa66795
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2013-06-11 | |||||||
タイトル | ||||||||
タイトル | 学校非公式サイトにおける有害語の極性判定に関する研究 | |||||||
言語 | ja | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||||
資源タイプ | thesis | |||||||
著者 |
松葉, 達明
× 松葉, 達明
|
|||||||
抄録 | ||||||||
内容記述タイプ | Abstract | |||||||
内容記述 | 「ネット上のいじめ」が新しい「いじめ」の形態として問題となっている.「ネット上のいじめ」とは,携帯電話やパソコンを通じてインターネット上のいわゆる学校非公式サイトの掲示板などにおいて,特定の子どもの悪口や誹謗・中傷を書込んだり,メールを送信するなどして,有害情報によるいじめを行うものである.これらの有害情報は,ネットパトロールにより監視されている.ネットパトロールとは,文字通り,学校非公式サイトの掲示板などを人手でつぶさにチェックを行う監視作業である.しかしながら,現状では,ネットパトロールにおける書込みの確認作業が最も負担が大きく,増大し続ける学校非公式サイトを監視するのは困難となる。そこで,本研究では学校非公式サイトの掲示板に書込まれる有害情報を検出するシステム構築を目指す.まず,有害情報と無害情報,それぞれの書込み中の各単語を主な分析対象として,言語表現の分析をした. その結果,名詞,動詞,形容詞で,有害と無害の上位を占める単語には,品詞により出現傾向の違いが見られた。名詞では個人名や「バカ」などの誹謗中傷語や卑猥語が目立ち,動詞では「死ね」などの暴力誘発語,形容詞では「キモイ」などの誹謗中傷語が支配的であった,さらに,有害情報中の単語間の係り受け関係を調べたところ,特定の要素が組み合わされるという条件によって有害化する傾向が見られた.例えば,「性格が悪い」や「胸がでかい」などの有害表現は,「性格-悪い」,「胸-でかい」という係り受けで構成されている.しかし,その構成要素である「性格」や「胸」,「悪い」,「でかい」のみが単独で出現したとしても有害性を持たず,´ これらの要素が係り受け関係を持って共起することによって,はじめて有害性を持つのである.このような係り受け関係を持つ要素の組を有害性判定の素性として用いることは,有害表現の判別に大きく寄与すると考えられる.次に,有害情報と無害情報の分類実験を行った. 提案手法は,(1)有害情報候補単語列の抽出,(2)有害な極性を持つ単語の参照,(3)拡張PMI-IRによる有害表現判別,という三つのステップで処理を実施する. (1)では,有害情報かどうかを判定する要素を書込みから抽出する.この要素には,言語表現の分析結果から「名詞-名詞」,「名詞-動詞」,「名詞-形容詞」のいずれかの係り受け関係を持つ単語の組とした.(2)では,有害な極性を持つ単語を参照する.その有害な極性を持つ単語には,「きもい」,「死ね」などの9個の単語を参照した.(3)では,(1)で抽出した判定要素と(2)の有害な極性を持つ単語との関連度を算出する. つまり,この関連度が高ければ高いほど,書込みは有害情報の可能性が高いということを示している.提案手法を用いて分類実験を行った.有害情報と無害情報を入力し,全ての書込みの関連度を算出して関連度順にランキングした.上位の有害情報候補単語列には,「不細エ-顔」や「眉毛-濃い」などで占められており,誹謗中傷などの表現による有害情報が上手く取れていた.ランキングの上位400件以上を有害情報と判定した場合,適合率0.83,再現率0.32という高い分類精度だった.下位の有害情報候補単語列には,人名や,住所,電話番号などの個人情報の流布による有害情報と意味不明な単語列で占められていた. これらの有害情報は,有害な表現と無害な表現の軸上に無い,中性的な表現である.よって,分類実験の結果から提案手法では,「悪い-女」や「うざい-先生」などの有害な表現と無害な表現の軸上にある有害情報は抽出できるが,人名や住所などの軸上に沿わない有害情報は抽出が難しいことがわかった.さらに,市販されている有害情報フィルタリングソフトを想定し,有害単語マッチング手法による比較実験を行った.その結果,有害単語マッチング手法でしか取れない有害情報はあるが,拡張PMI-IR手法のphraseの抽出規則を拡張すれば対応できるものであった.また,両方の手法で取れない個人情報の流布などは,個人情報の抽出に関する先行研究がなされており,その研究を応用すれば取得できると考えられる. | |||||||
内容記述 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 三重大学大学院工学研究科博士前期課程情報工学専攻 | |||||||
内容記述 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 3, 25 | |||||||
書誌情報 |
発行日 2011-01-01 |
|||||||
フォーマット | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | application/pdf | |||||||
著者版フラグ | ||||||||
出版タイプ | VoR | |||||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||
出版者 | ||||||||
出版者 | 三重大学 | |||||||
修士論文指導教員 | ||||||||
寄与者識別子Scheme | WEKO | |||||||
寄与者識別子 | 22834 | |||||||
姓名 | 河合, 敦夫 | |||||||
言語 | ja | |||||||
資源タイプ(三重大) | ||||||||
値 | Master's Thesis / 修士論文 |