語彙コーパス：4万4千語超の深掘り विश्लेषण

June 04, 2025

タグ:

語彙コーパス

プロジェクト概要

「vocabulary-corpus」は、44,000語以上の英単語を収録したコーパスです。発音、定義、語源、文法、文化的背景など、多角的な側面から各単語を詳細に分析することを目指しています。このプロジェクトでは、語彙ごとに構造化されたJSONデータを生成します。

利用方法

具体的な利用方法（実行コマンド、設定手順など）は本情報には詳述されていません。しかし、プロジェクトの構造から、index.tsがメインプログラムファイル、word.txtが処理対象の単語リストを格納していると推測されます。出力データはdata/ディレクトリに保存される予定です。

主な機能

コア機能

多角的語彙分析: 発音（英国/米国IPA）、定義、語源、文法、文化的背景など、網羅的な分析を提供します。
インテリジェントなレート制御: スライディングウィンドウ式のレートリミッターを内蔵しており、API呼び出しの安定性を確保します。
バッチ処理: 大量の語彙リストの自動処理に対応しています。
中断からの再開: 既に処理済みの単語を自動的にスキップするため、処理が中断されても途中から再開できます。
構造化出力: 標準化されたJSON形式の語彙データを生成します。

データ項目

発音情報: 英国/米国IPA（国際音声記号）基準。
意味分析: 多段階の定義、難易度評価、使用頻度。
語源調査: 歴史的発展、語根分析、関連語。
文法情報: 品詞のバリエーション、構文パターン、よくある間違い。
意味関係: 同義語、反義語、コロケーションパターン。
文化的背景: 地域差、歴史的背景、現代的な用法。
記憶補助: 視覚的なシナリオ、記憶術（Mnemonic devices）、単語連想。

生成される各単語のJSONファイルには、以下のフィールドが含まれます。 * word: その語彙単語。 * phonetics: 英国と米国（IPA）の発音。 * definitions: 品詞、英語定義、中国語訳、レベル、頻度、レジスター（語の種類）を含む定義の配列。 * phrases: (詳細は未記載だが存在を示唆) * examples: (詳細は未記載だが存在を示唆) * etymology: 語源情報。 * difficultyAnalysis: 難易度評価。 * semanticRelations: 同義語、反義語、コロケーション。 * culturalContext: 文化的なニュアンスと用法。 * memoryAids: 記憶補助の詳細。 * grammaticalInfo: 文法上の詳細。 * metadata: (詳細は未記載だが存在を示唆)