コンピュータービジョンとは?

コンピュータービジョンは、コンピューターが人間のように見て理解する能力を得るのを支援することを目的とする人工知能およびコンピューターサイエンスの領域である。人々が見る方法で見えるマシンを作成することは簡単ではない。そのようなマシンを作成するのが困難であるだけでなく、ビジョンのプロセスがどのように機能するのか本当に理解していない。

コンピュータービジョンは、コンピューターが人間のように見て理解する能力を得るのを支援することを目的とする人工知能およびコンピューターサイエンスの領域である。

人々が見る方法で見えるマシンを作成することは簡単ではない。そのようなマシンを作成するのが困難であるだけでなく、ビジョンのプロセスがどのように機能するのか本当に理解していない。

AIの先駆者であるマービンミンスキーを除いて、これは簡単だとは誰も考えていない。1966年に有名に彼の生徒に「カメラをコンピューターに接続して、何を説明させるか」と指示したのである。それは見る。しかし、それは50年前のことであり、研究はまだ未完成である。

この人間の視覚シミュレーターは、3つの連続した段階に分かれている（人々の見方と同様）。目のシミュレーション（取得-困難）、視覚皮質シミュレーション（処理-非常に困難）、残りの脳のシミュレーション（分析-最も難しい）。

入場料

アイシミュレーションは、私たちが最も成功している分野である。過去数十年にわたって、人間は人間の目を見る能力に似た（ある程度優れた）センサーと画像プロセッサを作成してきた。

より大きく、光学的に完全なレンズとナノメートルの大きさの半導体サブピクセルにより、今日のカメラは驚くほど正確で応答性に優れている。カメラは毎秒数千枚の写真を撮り、離れた場所から高精度で検出できる。

忠実度は高いであるが、これらは19世紀のピンホールカメラと同じである。それらは単に意図された方向での光子の分布を記録する。最高のカメラセンサーは、ボールを検出することはできない。

言い換えれば、ハードウェアはソフトウェアなしでは制限されます-それでも最大の問題である。しかし、今日のカメラは非常に柔軟性があり、研究のための優れた基盤として機能する。

説明

脳はゼロから構築され、次第に心を満たしていくイメージで構成される。脳は、他のどの仕事よりも視覚的なタスクを多く実行し、これはすべて細胞レベルにまで及ぶ。何十億もの細胞が連携してパターンを取り、信号を捕捉する。

ニューロンの1つのグループは、線に沿って（より速く移動したり、別の方向に移動したりするような特定の角度で）違いがある場合に別のグループに通知する。高レベルのニューラルネットワークは、これらのパターンをスーパーモデルに統合する。より多くの情報が徐々に追加される：白い円、黒い線、サイズの増加...新しい情報が追加されると、画像が表示される。

コンピュータビジョンの最初の研究は、ニューラルネットワークが非常に複雑であるため、トップダウンの説明にアプローチするのが理解しにくいことを示唆していた。本は次のように見えます>したがって、このパターンが存在します> そうでなければ、このようになる。

一部の被験者にとってこれはうまく機能するが、各オブジェクトを説明する場合、複数の視点、色の変化、動きなどから、それがどれほど難しいかを想像してください。赤ちゃんの認知レベルでさえ、膨大な量のデータを必要とする。

脳の働きを模倣したボトムアップのアプローチは、より有望なようである。コンピュータは画像に変換シーケンスを適用し、輪郭、それが参照するオブジェクト、画角、動きを見つけることができる。このプロセスには、多くの計算と統計の数値が必要であるが、図の数だけでも必要である。かつて教えられていた画像と人間の脳について。

上記の画像（パーデュー大学のEラボから）は、コンピューターによる（その計算によれば）強調表示されたオブジェクトを表示し、そのオブジェクトの他の例のように動作することを示している。ある程度の統計的確実性。

このアプローチの支持者は、「私があなたに言った」と言うかもしれない。近年まで、人工ニューラルネットワークの作成と操作は膨大な量の計算のために非常に困難でした。並列計算の進歩により、この問題は軽減された。人間の脳を模倣するための研究とこのシステムの使用が爆発的に増えてきた。パターン認識はまだ加速しており、私たちは継続的に進歩している。

理解

もちろん、静止していても動いていても、噛まれていても動かされていなくても、どのような状況でも、どんな角度からでもリンゴを認識するシステムを構築できるが、それでも認識できない。オレンジに直面する。

それはまた、リンゴが何であるか、それが食用であるかどうか、それがどれほど大きいか小さいか、またはそれが何のために使われるかをあなたに伝えることもできない。つまり、優れたハードウェアとソフトウェアでさえ、オペレーティングシステムなしでは何もできない。

それが脳の残りの部分である：短期/長期記憶、感覚データ、注意、知覚、世界との相互作用に関するレッスン...ニューラルネットワークに書かれている。私たちがこれまでに見たことのないものよりも複雑で、理解できないほどである。

そこでコンピュータサイエンスと人工知能が融合する。コンピュータサイエンティスト、エンジニア、心理学、神経科学、哲学者の間では、シミュレーションはもちろん、マインドがどのように機能するかについての定義はまだない。

まだ始まったばかりでしたが、コンピュータビジョンは依然として非常に役に立った。カメラ内にあるあなたの顔（顔ID）を認識し、笑顔する。自動運転車が標識や歩行者を認識するのに役立つ。それは工場のロボットであり、製品を認識し、それを人間に送信する。

彼らが人間のように見える日まで長い道のりがあるが、その道で彼らがすることも素晴らしいである。

※以下通り弊社の連絡先

電話番号:　(+84)2462 900 388

メール: konnichiwa@hachinet.jp

お電話でのご相談/お申し込み等、お気軽にご連絡くださいませ。

いずれかのサービスについてアドバイスが必要な場合は、お問い合わせください。

オフショア開発
エンジニア人材派遣
ラボ開発
ソフトウェアテスト

※以下通り弊社の連絡先
電話番号:　(+84)2462 900 388
メール: contact@hachinet.com
お電話でのご相談/お申し込み等、お気軽にご連絡くださいませ。
無料見積もりはこちらから

ご質問がある場合、またはハチネットに協力する場合
こちらに情報を残してください。折り返しご連絡いたします。

氏名 *

会社名 *

メール *

電話番号 *

件名 *

内容詳細 *

Message is sending ...