中小企業診断士 過去問
令和5年度 再試験(2023年)
問156 (経営情報システム 問9)
問題文
デジタルデータを処理する技術や方法に関する記述として、最も適切なものはどれか。
このページは閲覧用ページです。
履歴を残すには、 「新しく出題する(ここをクリック)」 をご利用ください。
問題
中小企業診断士試験 令和5年度 再試験(2023年) 問156(経営情報システム 問9) (訂正依頼・報告はこちら)
デジタルデータを処理する技術や方法に関する記述として、最も適切なものはどれか。
- Webサイトからデジタルデータを抽出するプロセスを自動化し、効率化を図るようにした処理をWebスクレイピングという。
- 刻々と発生するデータに対し、あらかじめ処理条件を定めておき、それに合致した場合に決められたアクションを即座に行う方法をETL処理という。
- 大容量のデータをバッチ処理するために、データを複数台のサーバに分散・蓄積しておき処理を行う方法をストリームデータ処理という。
- デジタル機器に搭載されたセンサーから得られたデータから必要な部分を抽出し、使いやすい形に加工する処理を複合イベント処理という。
- 日本語テキストデータの分析に先立ち、意味を持つ最小の言語単位にテキストを分け、品詞を判別する事前処理をデータクレンジングという。
正解!素晴らしいです
残念...
この過去問の解説 (3件)
01
この問題を解くためのポイントは、各技術用語の正確な定義を理解し、文脈に適用することです。
(正)
Webスクレイピングとは、プログラムを用いてWebページからデータを自動的に取得する技術のことです。
例えば、Pythonの「BeautifulSoup」や「Scrapy」などのライブラリを使用して、特定のWebサイトから情報を収集・解析し、データを整理する処理を指します。
(誤)
ETL(Extract, Transform, Load)は、データを抽出(Extract)、変換(Transform)、格納(Load)する処理のことで、リアルタイムではなく、主にバッチ処理で利用されます。
リアルタイムデータ処理には、CEP(Complex Event Processing)やストリーム処理が適しています。
(誤)
ストリームデータ処理は、データをリアルタイムで継続的に処理する手法であり、大容量データをバッチ処理するものではありません。
大容量データをバッチ処理する方法としては「Hadoop」などの分散処理技術が一般的です。
(誤)
複合イベント処理(CEP: Complex Event Processing)は、リアルタイムで発生する複数のイベントを分析し、パターンを検出する技術です。
センサーデータの抽出・加工は、データプレパレーションやデータクレンジングといった処理の一部に該当します。
(誤)
この処理は形態素解析(morphological analysis)と呼ばれ、代表的なツールに「MeCab」や「Janome」などがあります。
データクレンジングは、誤字の修正や不要なデータの削除などを指します。
問題文には、Webスクレイピング、ETL処理、ストリームデータ処理、複合イベント処理、データクレンジングといったデータ処理技術が含まれています。それぞれの定義を理解しておけば、選択肢を素早く見分けられます。
・Webスクレイピング:Webサイトのデータを自動的に取得する技術
・ETL処理(Extract, Transform, Load):データを抽出・変換・格納するプロセス(主にバッチ処理)
・ストリームデータ処理:リアルタイムで連続的にデータを処理する方法
・複合イベント処理(CEP):複数のイベントを分析し、特定のパターンを見つけるリアルタイム処理
・データクレンジング:データの誤りを修正し、整形する前処理
参考になった数8
この解説の修正を提案する
02
デジタルデータを処理する技術や方法に関する問題です。
各選択肢で挙げられている用語を、以下に整理します。なお、横文字(英語)で記憶が定着しやすい人もいるため、一部の用語には英語も併記しています。
・Webスクレイピング
WebサイトのHTMLやCSSを解析し、必要なデータだけを抽出することで、特定の情報を自動的に抽出・取得する技術をいいます。
スクレイピング(scraping)には「こする」「削りとる」という意味があります。
・ETL処理
Extract(抽出)、Transform(変換)、Load(書き出し)の3つのステップで、必要に応じて扱いやすいフォーマットに変換・加工し、データウェアハウス(DWH)などのデータ格納場所に書き出すプロセスをいいます。
・ストリームデータ処理
絶え間なく発生し続けるデータをリアルタイムに処理する技術をいいます。株取引情報や交通情報など刻一刻と変化するデータの処理に適しています。ストリーム(stream)には「流れ」という意味があり、動画配信などのストリーミングサービスをイメージすると分かりやすいと思います。
※ストリーミングサービスは、受信したデータを随時再生することで視聴できるようになっています。(データを受信サーバ側にダウンロードしないため、ダウンロード後に視聴する形式に比べて視聴までのタイムラグが発生しにくいというメリットがあります)
・複合イベント処理(Complex Event Processing)
絶え間なく発生し続けるデータをリアルタイムで解析し、条件に合致したものだけを処理する技術をいいます。
・データクレンジング
データベースに格納されたデータから、破損したデータ、不正確なデータ、無関係のデータを修正または削除する作業をいいます。クレンジング(cleansing)には「洗浄する」「取り除く」という意味があります。
冒頭の解説より、Webスクレイピングの記述であるため正解の選択肢となります。
冒頭の解説より、ストリームデータ処理の記述であるため不適切な選択肢です。
本選択肢は分散処理の記述であるため不適切な選択肢です。
過去問題で復習されている方もいると思いますが、「バッチ処理」については一定期間のデータを定期的に処理することです。週次処理や月次処理が該当します。また、「データを複数台のサーバに分散・蓄積」という記述からも、ある程度データが蓄積されてから処理することは理解できると思います。
動画配信などのストリーミングサービスのイメージから、「ストリームデータ処理」との違和感を感じて排除できれば十分です。
冒頭の解説より、ETL処理の記述であるため不適切な選択肢です。
本選択肢は、形態素分析の記述であるため不適切な選択肢です。
形態素分析とは、テキストマイニングの事前処理としてテキスト(文章)を最小の意味を持つ言語単位(形態素)で区切ることをいいます。
【補足】
形態素分析のような対応が難しい選択肢が含まれており、実務で知識のある方以外では消去法でも正答することは難しいのではないかと思われる難易度レベルです。
いわゆる「捨て問」に該当する内容ですが、分散処理やバッチ処理など過去問でも出題履歴のある用語については復習しておきましょう。
参考になった数0
この解説の修正を提案する
03
デジタルデータを処理する技術や方法に関する問題です。
適切です。
Webスクレイピングは、Webサイトから必要な情報だけを自動的に抽出する技術のことです。
不適切です。
ETLは、複数のデータソースから必要なデータを抽出(Extract)、変換(Transform)、書き出し(Load)を行うことです。
不適切です。
ストリームデータ処理とは、リアルタイムで膨大なデータを処理し、変換、分析、配信することです。
不適切です。
複合イベント処理とは、事前に用意しておいた条件に従って、大量のデータを分析することです。
不適切です。
データクレンジングとは、データベース上のデータを整理することです。
参考になった数0
この解説の修正を提案する
前の問題(問155)へ
令和5年度 再試験(2023年) 問題一覧
次の問題(問157)へ