Skip to content

Commit

Permalink
Merge pull request #4 from jedworkshop/2024_hon
Browse files Browse the repository at this point in the history
本プログラムとマージ
  • Loading branch information
s10018 authored Feb 28, 2024
2 parents f7d192f + 1088224 commit 663a440
Show file tree
Hide file tree
Showing 9 changed files with 157 additions and 46 deletions.
8 changes: 3 additions & 5 deletions docs/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -42,9 +42,7 @@ <h1>日本語言語資源の構築と利用性の向上</h1>
<h2 id="%E6%96%B0%E7%9D%80%E6%83%85%E5%A0%B1" tabindex="-1">新着情報 <a class="header-anchor" href="#%E6%96%B0%E7%9D%80%E6%83%85%E5%A0%B1"><span class="heading-anchor" aria-hidden="true"></span></a></h2>
<ul>
<li>2023/11/18 JLR2024公式Webサイトをオープンしました。</li>
<li>2023/12/12 発表募集要項を公開しました。</li>
<li>2024/2/13 JLR2024 一般発表申込を締切ました。</li>
<li>2024/2/20 仮プログラム公開</li>
<li>2024/2/28 本プログラム公開</li>
</ul>
<h2 id="%E8%B6%A3%E6%97%A8" tabindex="-1">趣旨 <a class="header-anchor" href="#%E8%B6%A3%E6%97%A8"><span class="heading-anchor" aria-hidden="true"></span></a></h2>
<p>自然言語処理における各種タスクのモデルを訓練、評価、分析するためには、注釈付きコーパスや大規模言語モデル(LLM)などの言語資源が必要不可欠である。
Expand Down Expand Up @@ -105,7 +103,7 @@ <h2 id="%E3%82%B9%E3%82%B1%E3%82%B8%E3%83%A5%E3%83%BC%E3%83%AB" tabindex="-1">
<li><span class="expired">2023/12/12 (火)      JLR2024 発表募集要項公開、JLR2024 一般発表・ライトニングトーク申込受付開始</span></li>
<li><span class="expired">2024/01/09 (火) 午前9時 NLP2024 参加登録受付開始</span></li>
<li><span class="expired">2024/02/13 (火)      JLR2024 一般発表申込締切・NLP2024 参加事前登録締切</span></li>
<li>2024/02/20 (火)      JLR2024 仮プログラム公開予定</li>
<li><span class="expired">2024/02/20 (火)      JLR2024 仮プログラム公開</span></li>
<li>2024/02/27 (火)      JLR2024 ライトニングトーク申込締切</li>
<li>2024/02/28 (水)      JLR2024 プログラム公開</li>
<li>2024/03/01 (金)      NLP2024 参加直前登録受付開始</li>
Expand Down Expand Up @@ -170,7 +168,7 @@ <h3 id="%E7%99%BA%E8%A1%A8%E8%B3%87%E6%96%99%E6%8F%90%E5%87%BA%E6%9C%9F%E9%99%90
<li>2024/03/10 (日)</li>
</ul>
<h3 id="%E7%99%BA%E8%A1%A8%E7%94%B3%E8%BE%BC%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0" tabindex="-1">発表申込フォーム <a class="header-anchor" href="#%E7%99%BA%E8%A1%A8%E7%94%B3%E8%BE%BC%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0"><span class="heading-anchor" aria-hidden="true"></span></a></h3>
<p><a href="https://forms.gle/MLS2nmuGMdnYkqcG7">JLR2024発表申込フォーム</a></p>
<p>発表申込を締め切りました。</p>
<h2 id="%E5%8F%82%E5%8A%A0%E7%94%B3%E8%BE%BC" tabindex="-1">参加申込 <a class="header-anchor" href="#%E5%8F%82%E5%8A%A0%E7%94%B3%E8%BE%BC"><span class="heading-anchor" aria-hidden="true"></span></a></h2>
<p>本ワークショップは言語処理学会第30回年次大会(NLP2024)の併設ワークショップとして開催されます。
本ワークショップにおける発表・参加のためには<a href="https://www.anlp.jp/nlp2024/">NLP2024</a>に参加登録(有料)を行う必要があります。
Expand Down
118 changes: 97 additions & 21 deletions docs/program/index.html

Large diffs are not rendered by default.

1 change: 1 addition & 0 deletions src/_data/sessions/session_3.json
Original file line number Diff line number Diff line change
Expand Up @@ -11,6 +11,7 @@
"title": "情動的知能資源としてのリアクション絵文字",
"presenter": "砂岡 和子 (早大)",
"material": null,
"online": true,
"abstract": "大規模言語モデルの言語資源は,ヒトが書いたり話した言語テキストを中核に構築が進む.本発表は,昨年第29回年次大会(NLP2023)併設の同名ワークショップにおいて,Zoomと併用のプラットフォーム「Slack」上で使用されたリアクション絵文字に注目し,その言語テキストと伴奏する情動的知能および社会的知能の認知プロセスについて初歩的分析結果を報告する.上記「Slack」で使用されたリアク文字は100種類以上,回数は延べ1500回を超え,参与者間の活発な情動的・社会的インタラクションを観察できる.分析では,各コミュニケーション用途に応じ5種に分類し,それぞれの出現頻度と言語テキストとの相関を探索した.今後,「汎用性ある智能」を構成するには,言語テキスト以外に,リアク文字のような新しい言語パターンと表現を言語処理の俎上に載せ,言語資源の源泉に加えることで,より自然で柔軟なインタラクションを生成してゆくことが期待される."
},
{
Expand Down
17 changes: 13 additions & 4 deletions src/_data/sessions/session_4.json
Original file line number Diff line number Diff line change
Expand Up @@ -24,15 +24,24 @@
},
{
"id": "d-3",
"type": "lt",
"time": "15:25-15:30",
"title": "闘病記ブログから患者の医療イベントをインクリメンタルに要約したデータセット",
"presenter": "矢田 竣太郎 (NAIST), 荒牧 英治 (NAIST)",
"material": null,
"abstract": "闘病記ブログに執筆された患者の医学的経過を,手術や投薬等の医療イベント単位で箇条書きに要約するタスクのためにデータセットを構築した.ユーザごとに,ブログの各記事に対し,それ以前の全記事からわかる医療イベント要約を付与しており,個別記事中の医療イベントだけでなく執筆時点で最新の患者経過がわかるのが特徴である.この形式を活用してモデルを訓練すれば,履歴や記憶を重視させることができるのではと考えており,紹介を兼ねてご意見を伺いたい."
},
{
"id": "d-4",
"type": "normal",
"time": "15:25-15:55",
"time": "15:30-15:55",
"title": "LLM学習用QAデータセットの自動構築手法の提案",
"presenter": "飯塚 康太 (フィックスターズ)",
"presenter": "飯塚 康太 (フィックスターズ), 吉藤 尚生 (フィックスターズ)",
"material": null,
"abstract": "ドメイン知識を獲得したLLMを構築するための手法の一つとしてファインチューニングがある。ファインチューニングで有用なモデルを構築するには高品質なデータセットを利用することが重要だが、良いデータセットを人力で作るには多大な手間がかかる。この問題を解決するため、本研究では、LLM を活用したデータセット構築の自動化パイプラインを実装した。これを利用して実際に、プログラミング言語のリファレンス文書を入力として自動的に質問回答のデータセットが作成できることを確認した。さらに、モデル・プロンプト・温度パラメータによる出力データセットの違いを点数付けして評価した。これらの実験結果から、 LLM を利用してデータセットを構築する際には、単にリーダーボード上で評価が高いモデルを使うだけではなくプロンプトなど設定を変えて評価すべきであることを確認した。本発表では、パイプラインの実装と生成データセットの評価の詳細について報告する。"
},
{
"id": "d-4",
"id": "d-5",
"type": "normal",
"time": "15:55-16:25",
"title": "対話の楽しさの評価に向けた日本語応答生成ベンチマークの構築",
Expand All @@ -41,7 +50,7 @@
"abstract": "近年のLLMの発展に伴い,さまざまな場面でLLMが活用されている.その活用先の一つに対話システムがある.LLMを用いた対話システムとしては,タスク対話やQAを行うAIアシスタントが主流であるが,対話を通して楽しさを提供する雑談対話システムの需要もある.一方で,LLMの評価において,ほとんどのベンチマークが客観性・事実性・簡潔性を評価しており,雑談対話の楽しさを評価する枠組みは知られていない.そこで,本研究では,対話の楽しさを評価するためのベンチマークを提案し,現在利用可能なLLMを評価した結果を報告する."
},
{
"id": "d-5",
"id": "d-6",
"type": "normal",
"time": "16:25-16:45",
"title": "Japanese Wikipedia Human Retrieval dataset",
Expand Down
45 changes: 37 additions & 8 deletions src/_data/sessions/session_5.json
Original file line number Diff line number Diff line change
Expand Up @@ -5,27 +5,56 @@
"has_detail": true,
"talks": [
{
"id": "d-1",
"id": "e-1",
"type": "normal",
"time": "17:00-17:20",
"title": "『昭和・平成書き言葉コーパス』の公開と研究利用 ―著作権処理をしないコーパスの可能性―",
"presenter": "髙橋 雄太 (明治大), 相田 太一 (都立大), 近藤 明日子 (東大), 間淵 洋子 (和洋女子大), 小木曽 智信 (国語研)",
"material": null,
"online": true,
"abstract": "本発表では2023年5月に公開した『昭和・平成書き言葉コーパス』(SHC)の設計と各種統計情報の公開とその利用例について説明する.SHCは1933年から2013年までの8年おきの11カ年分,約3340万語を収録した通時コーパスである.現代語のコーパスの公開のためには著作権処理が必要となり,このコストが大きな課題となっていたが,平成30年の著作権法の改正を受けて,SHCでは著作権処理を行わないコーパスの設計・公開方法をとった.具体的には,用例検索で表示される文脈長を短く制限することによって,テキストの思想や感情の享受を目的としない「軽微」な利用にとどめる工夫を行った.このほか,投書欄や俳句・短歌などの短い著作物には全文が閲覧できるため伏字処理を行った.SHCでは全文テキストを公開できない代わりに,語数表・語彙表,n-gram頻度形式とSVMlight形式の共起情報などの統計情報を各種公開しており,昭和平成期の通時的変化やレジスター差の計量的研究が期待される."
},
{
"id": "d-2",
"id": "e-2",
"type": "lt",
"time": "17:20-17:25",
"title": "(ライトニングトーク1件予定)",
"presenter": "",
"title": "『分類語彙表』の多義語の意味増補のための『IPAL』用言例文への番号付与",
"presenter": "柏野 和佳子 (国語研), 大阿久 志緒理 (所属なし)",
"material": null,
"abstract": ""
"online": true,
"abstract": "『分類語彙表 ―増補改訂版―』(国立国語研究所, 2004年)は、初版(約3万7千語)から増補版(約9万6千語)を作成する際に、基本的な多義語は多重分類されたが、意味に不足がみられる。そこで、情報処理振興事業協会(IPA)GSK配布版『計算機用日本語基本辞書IPAL―動詞・形容詞・名詞―』(2007年)に収録されている用言の例文に『分類語彙表』の番号を付与することで不足する意味を調査している。その結果と問題点を報告する。"
},
{
"id": "d-3",
"type": "normal",
"time": "17:25-17:45",
"id": "e-3",
"type": "lt",
"time": "17:25-17:30",
"title": "分類AIの学習データ構築",
"presenter": "佐藤 奈穂子 (株式会社リコーデジタル戦略部デジタル技術開発センター 言語AI開発室)",
"material": null,
"abstract": "弊社では2021年に「仕事のAI」シリーズを上梓し、BERTによるAI分類ツールの学習データを構築してきた。以来、トライアル顧客のデータの解析に取り組み、顧客の保有テキストデータは実に様々であり相応のクレンジング処理が必要であること、精度向上に効果的な分類のための学習データの開発には顧客データの深い解析が不可欠であることを認識している。弊社が当たってきた顧客のデータと、それらのクレンジング、顧客の目的に沿った分類カテゴリ獲得のためのデータ解析の一例、各カテゴリ毎の学習データ構築手法を紹介する。"
},
{
"id": "e-4",
"type": "lt",
"time": "17:30-17:35",
"title": "症例テキストのアノテーションに用いるオントロジーの課題",
"presenter": "土肥 栄祐 (国立研究開発法人国立精神神経医療研究センター神経研究所), 高月 照江 (情報システム研究機構ライフサイエンス統合データベースセンター), 建石 由佳 (国立研究開発法人科学技術推進機構NBDC事業推進部), 藤原 豊史 (情報システム研究機構ライフサイエンス統合データベースセンター), 山本 泰智 (情報システム研究機構ライフサイエンス統合データベースセンター)",
"material": null,
"abstract": "症例テキストへのアノテーションには、Human Phenotype Ontology(HPO)が用いられる。大規模言語モデルの使用にて、症状・所見の抽出は十分に可能となったが、HPOによるアノテーションは難しい。原因として、①用語がないのか?②アノテーション機能が不足しているのか?2つの可能性が考えられるが、HPO内に用語があるのか無いのかを確認することは困難である。本発表では、HPOを理解し易くするための取り組みについて述べる。"
},
{
"id": "e-5",
"type": "lt",
"time": "17:35-17:40",
"title": "学術論文のPDF文書からのテキスト抽出における課題",
"presenter": "福田 健人 (放送大学)",
"material": null,
"abstract": "近年のLLM開発では、Web上のHTML文書を広範にクロールした大規模コーパスを学習データとして用いることが多い。このような文書はテキスト抽出が容易であるものの、文章の品質には大きなばらつきがある。一方で、PDF文書は一般にテキスト抽出が困難であるが、学術論文・報告書・行政文書などの高品質なテキストデータの配布に用いられることが多い。本LTでは、特に日本語の学術論文のPDF文書を処理対象として、大規模言語モデルのための学習データを抽出する際の課題について紹介する。"
},
{
"id": "e-6",
"type": "lt",
"time": "17:40-17:45",
"title": "テキストに対する印象評定データベース",
"presenter": "浅原 正幸 (国語研), 加藤 祥 (目白大)",
"material": null,
Expand Down
2 changes: 1 addition & 1 deletion src/_includes/invite.njk
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@

{# インデントに気をつけること #}
<div class="invite">

{%- if index -%}
Expand Down
2 changes: 1 addition & 1 deletion src/_includes/session.njk
Original file line number Diff line number Diff line change
Expand Up @@ -40,7 +40,7 @@
<div class="info">
<div class="time">{{ talk.time }}</div>
<div class="title">{{ talk.title }}</div>
<div class="presenter">{{ talk.presenter }}</div>
<div class="presenter">{{ talk.presenter }}{% if talk.online %} 💻 {% endif %}</div>
</div>
{% if talk.abstract %}
<div class="btn_abstract" data-target=".abstract.talk_{{ talk.id }}">概要</div>
Expand Down
8 changes: 3 additions & 5 deletions src/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,9 +24,7 @@ index: true
## 新着情報

- 2023/11/18 JLR2024公式Webサイトをオープンしました。
- 2023/12/12 発表募集要項を公開しました。
- 2024/2/13 JLR2024 一般発表申込を締切ました。
- 2024/2/20 仮プログラム公開
- 2024/2/28 本プログラム公開

## 趣旨

Expand Down Expand Up @@ -58,7 +56,7 @@ index: true
- <span class="expired">2023/12/12 (火)      JLR2024 発表募集要項公開、JLR2024 一般発表・ライトニングトーク申込受付開始</span>
- <span class="expired">2024/01/09 (火) 午前9時 NLP2024 参加登録受付開始</span>
- <span class="expired">2024/02/13 (火)      JLR2024 一般発表申込締切・NLP2024 参加事前登録締切</span>
- 2024/02/20 (火)      JLR2024 仮プログラム公開予定
- <span class="expired">2024/02/20 (火)      JLR2024 仮プログラム公開</span>
- 2024/02/27 (火)      JLR2024 ライトニングトーク申込締切
- 2024/02/28 (水)      JLR2024 プログラム公開
- 2024/03/01 (金)      NLP2024 参加直前登録受付開始
Expand Down Expand Up @@ -130,7 +128,7 @@ index: true

### 発表申込フォーム

[JLR2024発表申込フォーム](https://forms.gle/MLS2nmuGMdnYkqcG7)
発表申込を締め切りました。

## 参加申込

Expand Down
2 changes: 1 addition & 1 deletion src/program.njk
Original file line number Diff line number Diff line change
Expand Up @@ -21,7 +21,7 @@ index: false

<div class="program_legend">
<div>
<div class="icons">🎤 一般発表 &nbsp; ⚡ ライトニングトーク </div>
<div class="icons">🎤 一般発表 &nbsp; ⚡ ライトニングトーク &nbsp; 💻 オンライン発表</div>
<div class="caveat">(発表時間は当日の進行状況により前後することがあります)</div>
</div>
<div>
Expand Down

0 comments on commit 663a440

Please sign in to comment.