東京大学　谷中研究室 / Yanaka Laboratory at the University of Tokyo on Strikingly

東京大学　谷中研究室
Yanaka Laboratory
at the University of Tokyo
東京大学　大学院情報理工学系研究科　コンピュータ科学専攻
NEWS
谷中准教授が令和6年度科学技術分野の文部科学大臣表彰・若手科学者賞を受賞しました。
April 9, 2024

言語処理学会第30回年次大会にて委員特別賞を受賞しました。九門涼真, 松岡大樹, 谷中瞳. ニューラル機械翻訳モデルにおける構成的汎化能力の評価
March 14, 2024

言語処理学会第30回年次大会で計8件の発表を行います。
January 27, 2024

他の投稿
PROJECTS

私たちはことばという記号を介してコミュニケーションを行い、世の中のデータの多くはことばで記述されています。情報処理技術の発展に伴い、情報検索や自動翻訳など人に代わって自然言語を処理してくれる人工知能技術は、日常生活の一部となりました。一方で、これらの技術が私たちのようにことばの意味を理解して処理しているかというと、自動翻訳だけではまだプロの翻訳家にはかなわないことからも、その答えは明白でしょう。そもそも、私たちがどのようにことばの意味を理解しているのかについても、はっきりしたことはまだわかっていません。そこで本研究室では国内外の研究者と協働して、人のようにことばの意味を理解する自然言語処理技術の研究を通して、人がことばの意味を理解するしくみの解明を目指しています。
現在、以下の研究テーマを中心に取り組んでいます。

(1)理論言語学を中心とした、統計的言語モデルの学際的・多面的分析
現在の自然言語処理技術は機械学習や深層学習を用いて大量のテキストデータから統計的言語モデルを構築する手法が中心ですが、言語モデルは自然言語の意味をどの程度理解できているでしょうか？もしかしたら、データから思わぬバイアスを学習している可能性もあります。本研究室では、理論言語学をはじめ、ことばを研究対象とした様々な関連分野の研究者と協働して、言語モデルを多面的に分析するためのデータセットの構築と、分析手法の開発を行っています。

(2)機械学習と記号論理の融合による推論技術の開発
自然言語をコンピュータで計算処理可能な形式で表し、文と文との関係を判定するという自然言語推論技術は、自然言語処理技術の基盤を担う技術であり、これまでに様々なアプローチが検討されてきました。機械学習によってことばの意味をデータから学習する統計的なアプローチは否定や数量などの意味の扱いに課題があります。一方で、記号論理でことばの意味を表すアプローチはこれらの意味を明示的に表現できますが、似た意味を表す単語やフレーズの扱いに課題があります。そこで、2つのアプローチの利点を融合することで、それぞれのアプローチの課題を解決する自然言語推論技術の開発を進めています。最近では、文だけでなく画像や図表の意味を統一的な形式で表し意味的な関係を判定するマルチモーダル推論の研究にも取り組んでいます。

(3)人とシステムとの相互作用による自然言語処理技術の開発
医療テキストや社内文書のチェックなどの自然言語処理技術の用途によっては、人が直接処理に介入することで、より品質を保証した効率的な処理が期待できます。そこで、テキストの用途に応じて人の形式知を活用し、人のフィードバックを新たな知識として推論システムに蓄積することで作業の効率化を図る応用研究を検討しています。
MEMBERS
Staff / 教員
Hitomi Yanaka / 谷中　瞳（准教授・卓越研究員）

Secretary / 秘書
Mayumi Umehara / 梅原万友美

Students / 学生
Anirudh Reddy Kondapally (M2)
Aman Jain (M2)
Nobuyuki Iokawa / 五百川展行 (M2)
Daiki Matsuoka / 松岡大樹 (M2)
Tomoki Doi / 土井智暉 (M2)
Ryoma Kumon / 九門涼真(M1)
Li Rongzhi / 飯森栄治(M1)
Gaëtan Margueritte (MEXT scholarship student)

Research Collaborators / 共同研究者（五十音順）
Lasha Abzianidze (Utrecht University)
Hiromi Arai / 荒井ひろみ (理化学研究所)
Yu Izumi / 和泉悠 (南山大学)
Masaru Isonuma / 磯沼大 (the University of Edinburgh)
Yusuke Iwasawa / 岩澤有祐 (東京大学)
Yasumasa Onoe / 尾上康雅 (Google)
Takeshi Kojima / 小島武 (東京大学)
Nan Duan (Microsoft Research Asia)
Shuai Lu (Microsoft Research Asia)
Takuya Niikawa / 新川拓哉 (神戸大学)
Satoshi Nishida / 西田知史 (NICT/大阪大学)
Hiroaki Hamada / 濱田太陽 (アラヤ)
Daisuke Bekki / 戸次大介 (お茶の水女子大学)
Johan Bos (University of Groningen)
Yutaka Matsuo / 松尾豊 (東京大学)
Koji Mineshima / 峯島宏次 (慶應義塾大学)
Katsunori Miyahara / 宮原克典 (北海道大学)
Kentaro Yamada / 山田健太郎 (本田技術研究所)
Gijs Wijnholds (Utrecht University)

Former Members / OB・OG
Tomoya Kurosawa / 黒澤友哉 (2024年3月修士課程修了、2022年3月学部卒業)
Tomoki Sugimoto / 杉本智紀 (2024年3月修士課程修了、2022年3月学部卒業)
Ryo Sekizawa / 関澤瞭 (2024年3月修士課程修了)
Akiyoshi Tomihari / 富張聡祥（研究生）
Shoko Yamagishi / 山岸聖子（秘書、宮尾研と兼任）
Ayako Uo / 宇夫彩子（秘書）
PUBLICATIONS
現在までの全発表文献のリストはhttp://hitomiyanaka.mystrikingly.com/をご覧ください。

国際会議・ジャーナル論文 / International conferences & Journal papers
杉本智紀, 尾上康雅, 谷中瞳, アスペクトを考慮した日本語時間推論データセットの構築. 自然言語処理, Vol.32 No.2, to appear, 2024.
Nobuyuki Iokawa, Hitomi Yanaka, Visual-Textual Entailment with Quantities Using Model Checking and Knowledge Injection, Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING2024), to appear, 2024.
Aman Jain, Teruhisa Misu, Kentaro Yamada, Hitomi Yanaka, GesNavi: Gesture-guided Outdoor Vision-and-Language Navigation, Proceedings of the EACL2024 Student Research Workshop (SRW), 2024.
谷中瞳, 峯島宏次, AIは言語の基盤を獲得するか：推論の体系性の観点から. 認知科学, Vol.31 No.1, pp.27-45. 2024.
Aman Jain, Anirudh Reddy Kondapally, Kentaro Yamada, Hitomi Yanaka, Neuro-symbolic Reasoning for Multimodal Referring Expression Comprehension in HMI systems, New Generation Computing, 2024.
Daiki Matsuoka, Daisuke Bekki, Hitomi Yanaka, Appositive Projection as Implicit Context Extension in Dependent Type Semantics, Proceedings of the 20th International Conference on Logic and Engineering of Natural Language Semantics (LENLS20), 2023.
Hitomi Yanaka, Compositional Account of Event Quantification in Dependent Type Semantics, Proceedings of the 20th International Conference on Logic and Engineering of Natural Language Semantics (LENLS20), 2023.
Ryo Sekizawa, Nan Duan, Shuai Lu, Hitomi Yanaka, Constructing Multilingual Code Search Dataset Using Neural Machine Translation (arXiv, data), Proceedings of the ACL2023 Student Research Workshop (SRW), 2023.
Tomoki Sugimoto, Yasumasa Onoe, Hitomi Yanaka, JAMP: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models (arXiv, data), Proceedings of the ACL2023 Student Research Workshop (SRW), 2023.
Hitomi Yanaka, Yuta Nakamura, Yuki Chida, Tomoya Kurosawa, Medical Visual Textual Entailment for Numerical Understanding of Vision-and-Language Models, Proceedings of the 5th Clinical Natural Language Processing Workshop at ACL2023, 2023.
Daiki Matsuoka, Daisuke Bekki, Hitomi Yanaka, Analyzing Japanese Relative Tense with Dependent Type Semantics, the IWCS2023 Workshop Natural Logic Meets Machine Learning (NALOMA2023), 2023.
Ryo Sekizawa, Hitomi Yanaka, Analyzing Syntactic Generalization Capacity of Pre-trained Language Models on Japanese Honorific Conversion (arXiv, data), Proceedings of the 12th Joint Conference on Lexical and Computational Semantics (*SEM2023) with ACL2023, 2023.
Tomoya Kurosawa, Hitomi Yanaka, Does Character-level Information Always Improve DRS-based Semantic Parsing? (arXiv, data), Proceedings of the 12th Joint Conference on Lexical and Computational Semantics (*SEM2023) with ACL2023, 2023.
Akiyoshi Tomihari and Hitomi Yanaka, Logic-based Inference with Phrase Abduction using Vision-and-Language Models, IEEE Access, pp.45645 - 45656, 2023.
Hitomi Yanaka and Koji Mineshima, Compositional Evaluation on Japanese Textual Entailment and Similarity (arXiv, data), Transactions of the Association for Computational Linguistics (TACL), Volume 10, pp.1266–1284, 2022.
Akiyoshi Tomihari and Hitomi Yanaka, Logical Inference System with Text-to-Image Generation for Phrase Abduction, Proceedings of the 19th International Conference on Logic and Engineering of Natural Language Semantics (LENLS19), 2022.
Hitomi Yanaka, Do Humans and Neural Networks Consistently Capture Imperfective Paradox?, the ESSLLI2022 Workshop Natural Logic Meets Machine Learning (NALOMA2022), 2022.
Tomoya Kurosawa, Hitomi Yanaka, Numerical Inference between Semi-structured Tables and Texts, the ESSLLI2022 Workshop Natural Logic Meets Machine Learning (NALOMA2022), 2022.
Tomoki Sugimoto, Hitomi Yanaka, Logical Inference System for Temporal Order based on Japanese CCG, the ESSLLI2022 Workshop Natural Logic Meets Machine Learning (NALOMA2022), 2022.
Tomoya Kurosawa, Hitomi Yanaka, Logical Inference for Counting on Semi-structured Tables (arXiv, data&code, poster), Proceedings of the ACL2022 Student Research Workshop (SRW), Dublin, Ireland, 2022.
Tomoki Sugimoto, Hitomi Yanaka, Compositional Semantics and Inference System for Temporal Order based on Japanese CCG (arXiv, data&code, poster), Proceedings of the ACL2022 Student Research Workshop (SRW), Dublin, Ireland, 2022.
Hitomi Yanaka, Towards Compositional Semantics and Inference System for Telicity, Proceedings of Logic and Algorithms in Computational Linguistics 2021 (LACompLing2021), online, 2021.
Hitomi Yanaka, Koji Mineshima, Assessing the Generalization Capacity of Pre-trained Language Models through Japanese Adversarial Natural Language Inference, Proceedings of the 2021 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, (data&code, poster), online, 2021.
Hitomi Yanaka, Koji Mineshima, Kentaro Inui, SyGNS: A Systematic Generalization Testbed Based on Natural Language Semantics (arxiv, data&code), Findings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP2021), online, 2021.
Hitomi Yanaka, Koji Mineshima, Kentaro Inui, Exploring Transitivity in Neural NLI Models through Veridicality (arXiv, data&code, poster), Proceedings of the 16th conference of the European Chapter of the Association for Computational Linguistics (EACL2021), online, 2021.
Hitomi Yanaka, Koji Mineshima, Daisuke Bekki, Kentaro Inui, Do Neural Models Learn Systematicity of Monotonicity Inference in Natural Language? (arXiv, data&code), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL2020), online, 2020.
Hitomi Yanaka, Koji Mineshima, Daisuke Bekki, Kentaro Inui, Satoshi Sekine, Lasha Abzianidze and Johan Bos, HELP: A Dataset for Identifying Shortcomings of Neural Models in Monotonicity Reasoning (arXiv, data&code) , Proceedings of the 8th Joint Conference on Lexical and Computational Semantics (*SEM2019) with NAACL-HLT2019, Minneapolis, USA, 2019.
Hitomi Yanaka, Koji Mineshima, Pascual Martinez-Gomez, and Daisuke Bekki, Acquisition of Phrase Correspondences using Natural Deduction Proofs (arXiv, code), Proceedings of the 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT2018), New Orleans, Louisiana, 2018.
Hitomi Yanaka, Koji Mineshima, Pascual Martinez-Gomez, and Daisuke Bekki, Determining Semantic Textual Similarity using Natural Deduction Proofs (arXiv, code), Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP2017), Copenhagen, Denmark, 2017.
Hitomi Yanaka and Yukio Ohsawa, Clustering Documents on Case Vectors Represented by Predicate-argument Structures - Applied for Eliciting Technological Problems from Patents -, Proceedings of the 11th International Symposium Advances in Artificial Intelligence and Applications (AAIA2016), FedCSIS, Gdansk, Poland, 2016.
講演 / Invited talks
谷中瞳, 人工知能は人のように言葉を理解できるのか, 東京大学理学部高校生のための冬休み講座, 東京大学小柴ホール, (2023.12).
谷中瞳, 大規模言語モデルの仕組みと可能性, 日本医療情報学会NeXEHRS研究会緊急シンポジウム「ChatGPTは医療情報研究と医療を変えるか？」, (2023.5).
谷中瞳, 総理大臣官邸にてAIに関する次世代リーダーとの車座対話に参加, 関連ニュース(2023.05.09).
乾健太郎, 黒橋貞夫, 相良美織, 佐藤敏紀, 鈴木潤, 谷中瞳, ChatGPTで自然言語処理は終わるのか, 言語処理学会第29回年次大会緊急パネル, (2023.3).
谷中瞳, 形式言語学の知見を活用した自然言語推論, 第31回ステアラボ人工知能セミナー, (2022.11).
谷中瞳, Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK：構成的推論・類似度データセットSICK日本語版の紹介), NLPコロキウム, (slide), (2022.10).
谷中瞳他, 東大工学部のリアル2, 東京大学安田講堂, (2022.10).
谷中瞳, 論理に基づく推論システムの再訪, 情報処理学会第253回自然言語処理研究会招待講演, 京都, (2022.9).
Hitomi Yanaka, Exploring the Generalization Ability of Neural Models through Natural Language Inference, Invited Talk in the 6th International Workshop on Symbolic-Neural Learning (SNL2022), Nagoya, (2022.7).
谷中瞳, 深層学習と自然言語処理, 東京大学深層学習（Deep learning基礎講座特別講師）, (2022.6).
Hitomi Yanaka, Revisiting the Systematicity Argument through Analyzing Deep Neural Networks, Invited Talk in Aspects of Logic Study, celebrating World Logic Day (WLD2022), online, (2022.1).
谷中瞳, 形式意味論と言語処理の融合による意味理解の探求, 東京大学大学院情報理工学系研究科20周年記念シンポジウム「情報理工が描くインクルーシブ共創社会」, online, (2021.11).
Hitomi Yanaka, Koji Mineshima, Kentaro Inui, Do Neural Models Learn Transitivity of Veridical Inference? , the IWCS2021 Workshop Natural Logic Meets Machine Learning (NALOMA2021), online, (slide), (2021.6).
谷中瞳, 深層学習と自然言語処理, 東京大学深層学習（Deep learning基礎講座特別講師）, (2021.6). (slide)
谷中瞳, それでも私が研究を続ける理由, 言語処理学会第27回年次大会ワークショップ「若手研究者交流のニューノーマルを考える」, (slide), (2021.3).
谷中瞳, 機械学習と記号推論の融合による自然言語処理研究の紹介, Invited Talk in Laboratory Automation月例勉強会, (2021.2).
Hitomi Yanaka, Investigating the Generalization Ability of Neural Models through Monotonicity Reasoning, the We SSLLI 2020 workshop Natural Logic Meets Machine Learning (NALOMA), (2020.7). (slide)
谷中瞳, 深層学習と自然言語処理, 東京大学深層学習（Deep learning基礎講座特別講師）, (2020.6). (slide)
Daisuke Bekki and Hitomi Yanaka, Hybrid Natural Language Understanding: Neural Network, Logic and Beyond, Plenary Talk in KONVENS (The Conference on Natural Language Processing)@University of Erlangen-Nuremberg, (2019.10).
谷中瞳, 自然言語処理と形式意味論の知見に基づく含意関係認識, Computational Psycholinguistics Tokyo@早稲田大学, (2019.7).
谷中瞳, 自然言語処理と形式意味論の融合による自然言語推論に向けて, 名古屋地区NLPセミナー@名古屋大学, (2019.6).
Hitomi Yanaka, Towards understanding textual entailment and similarity, Computational Semantics Reading Group@University of Groningen, (2018.12).
谷中瞳, 自然言語処理と形式意味論の融合による、含意関係と意味的類似度の計算, TokyoCL勉強会@NII, (2018.9).
表彰 / Awards
谷中瞳, 理論言語学と言語処理の融合による言語理解技術の研究, 令和6年度科学技術分野の文部科学大臣表彰【若手科学者賞】, 2024.
九門涼真, 松岡大樹, 谷中瞳. ニューラル機械翻訳モデルにおける構成的汎化能力の評価. 言語処理学会第30回年次大会【委員特別賞】, (2024.3).
谷中瞳, 形式意味論と自然言語処理の融合による自然言語推論技術と評価ベンチマークの構築, 【船井研究奨励賞】, 2022.
五百川展行. 東京大学令和5年度理学部学修奨励賞, (2023.3).
黒澤友哉, 谷中瞳. 半構造化表データとテキスト間の数量比較に関する論理推論. 人工知能学会第36回全国大会【学生奨励賞】, (2022.6).
杉本智紀. 東京大学令和4年度理学部学修奨励賞, (2022.3).
谷中瞳, 峯島宏次, 戸次大介, 乾健太郎. ニューラルネットワークによる自然言語推論の可能性. 人工知能学会第34回全国大会【優秀賞】, (2020.6).
鈴木莉子, 吉川将司, 谷中瞳, 峯島宏次, 戸次大介. テキスト情報と画像情報を組み合わせた論理推論システムの構築. 人工知能学会第33回全国大会【優秀賞】, (2019.6).
谷中瞳, 峯島宏次, Pascual Martinez-Gomez, 戸次大介. 自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み. 言語処理学会第24回年次大会【若手奨励賞】, (2018.3). (slide)
Hitomi Yanaka, Koji Mineshima, Pascual Martinez-Gomez, and Daisuke Bekki, Towards Understanding Bilingual Textual Entailment and Similarity, the ESSLLI2018 Workshop on NLP in the Era of Big Data, Deep Learning, and Post Truth, Sofia, Bulgaria, 【best paper award】(2018.8).
谷中瞳, 高階論理式と自然演繹による推論を用いた文間の関連性学習, AIPチャレンジ報告合宿【AIPネットワークラボ長賞】, (2018.4).
著書 / Book chapter
Hitomi Yanaka, A Hybrid Approach of Distributional Semantics and Event Semantics for Telicity, Springer book series: Studies in Computational Intelligence, Logic and Algorithms in Computational Linguistics 2021, 2022

研究資金 / Grants
谷中瞳, Kakenhi/科研費（学術変革B計画班）, 人間参加型ナラティブ意味解析システムの開発, 2024-2027
谷中瞳, JSTさきがけ「信頼されるＡＩの基盤技術」領域「意思決定を支援する言語と非言語の論理関係認識」, 2021-2026
株式会社本田技術研究所様との共同研究, 機械学習と記号論理を用いたモビリティ向けインタラクション研究, 2022-.
Hitomi Yanaka, Microsoft Research Asia Collaborative Research 2021 (Computing for Sustainable Future), 2021
谷中瞳, UTEC-UTokyo FSI Research Grant Program「東京大学卓越研究員-UTEC Grant」, 理論言語学と自然言語処理の融合による意味処理技術の開発, 2021-2024
谷中瞳, Kakenhi (Early-career scientists)/科研費（若手研究）, 形式意味論と言語処理の融合による構成的言語モデルの開発, 2020-2024
和泉悠, 荒井ひろみ, 谷中瞳, 永守伸年, Kakenhi/科研費（基盤C研究分担者）, ヘイトスピーチからホープスピーチへ:未来志向の言論空間を探る, 2022-2025
谷中瞳, 能地宏, 理研ー産総研チャレンジ共同研究, 汎用言語系人工知能モデルの構築による超少数データ上での言語処理の実現, 2020-2021
谷中瞳, JST AIP Challenge PRISM Project Research Funding/科学技術振興機構 AIPチャレンジPRISM加速支援, Linguistically-oriented dataset creation for Recognizing Textual Entailment/実世界言語現象に基づく含意関係コーパスの研究, 2018-2019
谷中瞳, JST AIP Challenge Research Funding/科学技術振興機構 AIPチャレンジ, Learning semantic relations using natural deduction proof/高階論理式と自然演繹による推論を用いた文間の関連性学習, 2017-2018
谷中瞳, 日本学生支援機構奨学金特に優れた業績による返還免除, 2013
国内会議 / Domestic conferences
五百川展行, Gijs Wijnholds, 谷中瞳. 多様な言語現象を考慮した多言語VTEベンチマークの提案. 人工知能学会第38回全国大会, (2024.5).
九門涼真, 松岡大樹, 谷中瞳. ニューラル機械翻訳モデルにおける構成的汎化能力の評価. 言語処理学会第30回年次大会【委員特別賞】, (2024.3).
土井智暉, 磯沼大, 谷中瞳. 大規模言語モデルによる少数かつ短文の文書に対するトピックモデリング. 言語処理学会第30回年次大会, (2024.3).
松岡大樹, 戸次大介, 谷中瞳. 依存型意味論における暗黙的な文脈拡張による慣習的推意の分析. 言語処理学会第30回年次大会, (2024.3).
黒澤友哉, 谷中瞳. 文字系列情報による性能への影響からニューラルモデルが有する言語的な傾向を見出せるか. 言語処理学会第30回年次大会, (2024.3).
谷中瞳, 関澤瞭, 竹下昌志, 加藤大晴, Namgi Han, 荒井ひろみ. 日本語社会的バイアスQAデータセットの提案. 言語処理学会第30回年次大会, (2024.3).
土井智暉, 宮原克典, 新川拓哉, 濱田太陽, 西田知史, 谷中瞳. 深層的特徴を考慮した自然言語処理による意識体験ナラティブ分析の試み, 情報処理学会第257回自然言語処理研究発表会, (2023.9).
黒澤友哉, 谷中瞳. 多言語意味解析器における文字系列情報の有用性に関する分析, 情報処理学会第257回自然言語処理研究発表会, (2023.9).
関澤瞭, 谷中瞳. 日本語敬語理解タスクにおけるChain-of-Thoughtプロンプティングの有用性の検証, NLP若手の会第18回シンポジウム, (2023.8).
黒澤友哉, 谷中瞳. 多言語系列変換モデルにおける文字系列情報の有用性に関する分析, NLP若手の会第18回シンポジウム, (2023.8).
Aman Jain, Anirudh Reddy Kondapally, Kentaro Yamada, and Hitomi Yanaka. A Neuro-symbolic Approach for Multimodal Reference Expression Comprehension, Proceedings of the 37th Annual Conference of the Japanese Society for Artificial Intelligence, (2023.6).
Anirudh Reddy Kondapally, Kentaro Yamada, and Hitomi Yanaka. Towards Commonsense Reasoning in Outdoor Visual Linguistic Navigation, Proceedings of the 37th Annual Conference of the Japanese Society for Artificial Intelligence, (2023.6).
杉本智紀, 尾上康雅, 谷中瞳. 制御可能な日本語時間推論データセットの構築. 人工知能学会第37回全国大会, (2023.6).
富張聡祥, 谷中瞳. 論理推論におけるVision-and-Languageモデルを用いたフレーズ間知識の補完. 人工知能学会第37回全国大会, (2023.6).
五百川展行, 谷中瞳. モデル検査と知識補完を用いた数量表現に関するマルチモーダル推論. 人工知能学会第37回全国大会, (2023.6).
松岡大樹, 戸次大介, 谷中瞳. 依存型意味論を用いた日本語連体節のテンス解釈. 人工知能学会第37回全国大会, (2023.6).
関澤瞭, Nan Duan, Shuai Lu, 谷中瞳. ニューラル機械翻訳を用いた多言語コード検索データセットの構築. 人工知能学会第37回全国大会, (2023.6).
黒澤友哉, 谷中瞳. 多言語DRS意味解析における文字系列情報の性能分析. 人工知能学会第37回全国大会, (2023.6).
黒澤友哉, 谷中瞳. DRS意味解析における出現位置を利用した語彙数削減, 言語処理学会第29回年次大会, (2023.3).
黒澤友哉, 谷中瞳. 半構造化表データとテキスト間の数量比較に関する論理推論. 人工知能学会第36回全国大会【学生奨励賞】, (2022.6).
杉本智紀, 谷中瞳. 時間的順序を考慮した日本語論理推論システムの構築. 人工知能学会第36回全国大会, (2022.6).
RESOURCES
これまでの研究で構築したデータセット・プログラムを紹介しています。

医用画像の数量理解を問うマルチモーダル推論ベンチマークMedVTE
https://github.com/ynklab/MedVTE
近年vision-and-languageモデルの発展に伴い、与えられた画像に対して文が真か偽か判定するマルチモーダル推論の研究が進められていますが、モデルの評価に使用されているベンチマークの多くは一般的なドメインに限定されており、医療ドメインなどの特定のドメインにおけるモデルの性能を評価するためのベンチマークはまだ不十分であるのが現状です。本研究では医学論文のキャプションデータセットに対して専門家によるアノテーションを行い、医用画像中の数量理解を問うマルチモーダル推論ベンチマークMedVTEを構築しました。本研究はさきがけ「意思決定を支援する言語と非言語の論理関係認識」の研究成果です。
日本語構成的推論・文類似度データセットJSICK
https://github.com/verypluming/JSICK
汎用言語モデルや推論システムがどの程度日本語の構成的な意味を理解しているか評価するためのベンチマークとして、英語の構成的推論・文類似度データセットSICKを人手で翻訳しラベルを再付与した、日本語構成的推論・類似度データセットJSICKを構築しました。また、日本語の語順や助詞を理解しているか評価するためのJSICKストレステストを構築しました。本研究はさきがけ「意思決定を支援する言語と非言語の論理関係認識」の研究成果です。
日本語時間推論データセットJamp
https://github.com/ynklab/Jamp
「太郎は2時間で東京に到着した。」は「太郎は3時間以内に東京に到着した」を含意するといった時間関係の推論は現在の大規模言語モデルにおいて挑戦的な課題の一つです。本研究では形式意味論の知見に基づいて時間推論のテンプレートを構築し、テンプレートに格フレームを適用することで大規模かつ多様な日本語の時間推論データセットJapanese Temporal Ineference Dataset (Jamp)を構築しました。本研究はさきがけ「意思決定を支援する言語と非言語の論理関係認識」の研究成果です。
多言語大規模コード検索データセットXCodeSearchNet
https://github.com/ynklab/XCodeSearchNet
大規模言語モデルの便利な用途の一つとしてプログラミングの支援があります。しかし、自然言語もプログラミング言語もさまざまな言語があり、多言語化が求められています。本研究では多言語の自然言語文に対して関連した多言語のコードを検索する大規模なデータセットXCodeSearchNetを構築しました。本研究はMicrosoft Research Asiaとの共同研究の成果です。
背景情報つき日本語敬語理解ベンチマーク
https://github.com/ynklab/japanese_honorifics
日本語の敬語の正確な理解には、文法知識の理解に加えて、人物間の社会的関係や会話のシチュエーションなど、発話の背景情報を踏まえた柔軟な判断力が必要とされます。本研究では発話の背景情報と、スクランブリングなどの日本語特有のさまざまな構文を含んだ文を入力としたとき、言語モデルが正しい敬語に変換できるか評価するベンチマークを構築しました。
半構造化表データとテキスト間の数量推論システムsst_count
https://github.com/ynklab/sst_count
現在の汎用言語モデルは、半構造化表データとテキスト間の推論を含む、様々な形式の自然言語推論に対し高い性能を達成していますが、個体の数量など数に関係する推論を行なうことに課題があります。sst_countは、半構造化表データとテキストを論理表現で表し、モデル検査で含意関係を判定する論理推論システムで、既存モデルよりも数に関する推論を頑健に行います。また、半構造化表データとテキスト間の数量理解を問う推論テストセットと評価方法も合わせて提供しています。本研究はさきがけ「意思決定を支援する言語と非言語の論理関係認識」の研究成果です。
時間推論システムccgtemp
https://github.com/ynklab/ccgtemp
時間関係に関する自然言語推論は、時制だけでなく時間副詞や時間節などの分析が求められる挑戦的な課題です。形式意味論の分野ではこれまで時間的順序に関する推論についての様々な分析が行われてきましたが、形式意味論のテンス・アスペクト分析に基づいた日本語の論理推論システムは発展途上です。ccgtempは組合せ範疇文法(CCG)に基づく構文解析と型付き一階述語論理に基づく意味解析、自動定理証明からなる時間関係の論理推論システムです。本研究はさきがけ「意思決定を支援する言語と非言語の論理関係認識」の研究成果です。
日本語言語現象を考慮した自然言語推論 (NLI) データセットJaNLI
https://github.com/v erypluming/JaNLI
近年では多言語に対応した汎用言語モデルが活発に研究されていますが、汎用言語モデルは日本語の言語現象をどの程度捉えられているのでしょうか？本研究ではガーデンパス現象や受身・使役などの日本語の言語現象を考慮した自然言語推論の大規模なデータセットを構築し、日本語・多言語BERTがどの程度人と同じように言語現象を捉えているか、どのようなヒューリスティックスがあるのか分析しました。
ニューラルネットの推論の体系性の評価
https://github.com/verypluming/systematicity
https://github.com/verypluming/transitivity
人はBob loves Annという文を理解できれば、Ann loves Bobという文を理解できるというように、文を体系的に理解することができます。自然言語処理で一般的に用いられる技術となりつつあるニューラルネットですが、このような体系性を、ニューラルネットはどの程度獲得できているのでしょうか？本研究では推移性やmonotonicity[Van Benthem, 1983]という推論の重要な性質や現象に着目してニューラルネットが学習データから自然言語の推論の体系性を獲得できているかについて多面的に評価を行いました。
monotonicityの評価用データセットMED
https://github.com/verypluming/MED
monotonicity（単調推論）とは、Some small dogs ranに対してSome dogs ranが真であるというように、量化表現や否定表現の性質に基づいて文中の語を入れ替えた文と元の文との含意関係が成り立つという重要な推論現象の一つです。本研究ではクラウドソーシングと言語学の論文から多様な語彙と構文構造からなるmonotonicityの推論データを収集し、評価用データセットMEDを構築しました。
monotonicityの学習用データセットHELP
https://github.com/verypluming/HELP
多言語統語・意味情報コーパスParallel Meaning Bankを用いることで、否定・量化・等位接続表現を扱ったmonotonicityの推論データHELPを自動構築する手法を提案しました。本データセットを学習データに追加して自然言語推論モデルを学習することで、MEDなどのmonotonicityの推論テストセットにおいて一定の性能向上が見られました。本データセットはGroningen Universityとの共同研究の成果です。
意味解析・推論システムccg2lambdaの応用による
類似度計算・フレーズアブダクション
https://github.com/mynlp/ccg2lambda
ccg2lambdaは組合せ範疇文法(CCG)に基づく構文解析と高階述語論理による意味解析、自然演繹に基づく自動定理証明による統合的な推論システムです。記号論理に基づく推論システムの大きな課題として、文間類似度やフレーズ間の言い換えのようなソフトな推論を扱うことがあります。本研究ではccg2lambdaと機械学習の手法を組み合わせることで、文間類似度やフレーズ間の言い換えのようなソフトな推論を扱う手法を提案しました。
TODAICL
東京大学谷中研究室では、自然言語処理、計算言語学、理論言語学、人工知能などの多様な分野でご活躍の方をお招きし、大学院生・学部生の方向けにご講演いただいています。講演者の方に深く感謝いたします。

Schedule
2023/02/08 津留崎堅章さん（東京大学）＠online「Designing new proof language integrating natural and formal language」

2023/12/08　Evan Donahueさん（東京大学）＠理7-407「Towards a Probabilistic Logic Programming Language for Hybrid NLP」

2023/11/30　西田京介さん（NTT）＠理7-214「Research and Development of LLM at NTT」

2023/11/08　原聡さん（大阪大学）＠理7-202「説明可能AIと決定木」

2023/10/05　笠井淳吾さん（Toyota Technological Institute at Chicago, Kotoba Technologies）、小島熙之さん（Kotoba Technologies）@理7-214
「AI・自然言語処理、激動の五年間ー大規模言語モデルとKotoba Technologiesの現在、そして未来ー」

2022/10/18　高瀬翔さん（LINE株式会社）＠理7-407
「自然言語処理におけるニューラルモデルの効率化」
CONTACT US
大学院生（修士課程・博士課程）募集：本研究室は、東京大学大学院情報理工学系研究科コンピュータ科学専攻に所属しています。入学希望の方は専攻のページをご確認ください。入学希望、共同研究、執筆、講演等のご相談はhyanaka_at_is_u-tokyo_ac_jp （_at_と_を適切に置き換えてください）にご連絡ください。

文京区本郷7-3-1 理学部7号館　東京大学大学院情報理工学系研究科　コンピュータ科学専攻

東京大学 谷中研究室

Yanaka Laboratoryat the University of Tokyo

東京大学 大学院情報理工学系研究科 コンピュータ科学専攻

NEWS

PROJECTS

MEMBERS

PUBLICATIONS

現在までの全発表文献のリストはhttp://hitomiyanaka.mystrikingly.com/をご覧ください。

国際会議・ジャーナル論文 / International conferences & Journal papers

講演 / Invited talks

表彰 / Awards

著書 / Book chapter

研究資金 / Grants

国内会議 / Domestic conferences

RESOURCES

これまでの研究で構築したデータセット・プログラムを紹介しています。

医用画像の数量理解を問うマルチモーダル推論ベンチマークMedVTE

日本語構成的推論・文類似度データセットJSICK

日本語時間推論データセットJamp

多言語大規模コード検索データセットXCodeSearchNet

背景情報つき日本語敬語理解ベンチマーク

半構造化表データとテキスト間の数量推論システムsst_count

時間推論システムccgtemp

日本語言語現象を考慮した自然言語推論 (NLI) データセットJaNLI

ニューラルネットの推論の体系性の評価

monotonicityの評価用データセットMED

monotonicityの学習用データセットHELP

意味解析・推論システムccg2lambdaの応用による類似度計算・フレーズアブダクション

TODAICL

東京大学谷中研究室では、自然言語処理、計算言語学、理論言語学、人工知能などの多様な分野でご活躍の方をお招きし、大学院生・学部生の方向けにご講演いただいています。講演者の方に深く感謝いたします。

Schedule

CONTACT US

東京大学　谷中研究室

Yanaka Laboratory
at the University of Tokyo

東京大学　大学院情報理工学系研究科　コンピュータ科学専攻

意味解析・推論システムccg2lambdaの応用による
類似度計算・フレーズアブダクション