AIエージェントで変わる仕事の未来：Slack連携が拓く自然言語開発の新境地

はじめに：私たちの働き方を変えるAIエージェントの可能性

皆さん、こんにちは。Vercelのパートナーシップチームに所属するMatt Lewisです。ここ数ヶ月間、私たちはSlackのチームと密接に連携し、一つの大きな問いに取り組んできました。「もしエージェントが実際に私たちの同僚として働いてくれたらどうなるだろう？」という問いです。単なる機能としてではなく、日々の会話や既存のシステムの一部として、デジタルな同僚として働く未来です。

先週のDreamforceでは、Vercelが初期デモを披露し、私たちのV0エージェントがSlack内で皆さんと共に働く様子をお見せしました。本日は、Vercelがこのエージェントをどのように構築したのか、そしてそれ以上に、なぜ皆さんも構築すべきなのかについてご紹介したいと思います。

エージェントは単なる新しい機能ではありません。それは、私たちが仕事をする方法そのものにおける根本的な変化を象徴しているのです。

なぜ私たちは「コンピュータの言葉」を話してきたのか？

まず、私たちが現在に至るまでの背景からお話ししましょう。私たちの仕事の大部分は、会話によって成り立っています。計画を立て、意思決定し、調整し、時には議論することも、すべて言語を介して行われます。しかし、残念ながら、私たちの既存のツールは「言語」を理解できませんでした。

私たちは何十年もの間、人間が使う自然言語をコードへと翻訳することに時間を費やしてきました。私たちがコンピュータに話しかけることを学んだのは、そうしたかったからではありません。それが、コンピュータを機能させる唯一の方法だったからです。これは、私たちが「速く仕事をする」というメリットと引き換えに、「思考をコードに圧縮する」という代償を支払ってきた歴史です。

人間の豊かな表現とコンピュータの限定された理解

人間は、およそ17万語という膨大な単語から言葉を選び、ニュアンス、トーン、文脈、感情を込めてコミュニケーションを取ります。一方で、コンピュータ、特にJavaScriptのようなプログラミング言語の場合、使えるのはわずか7つのプリミティブ（基本的なデータ型）しかありません。この圧倒的なギャップが、私たちの表現とコンピュータの計算との間に横たわっています。

例えば、英語で最も有名な詩の一つであるシェイクスピアの「Shall I compare thee to a summer's day?（君を夏の日に例えようか）」という一節を考えてみましょう。シェイクスピアがこれを書いたとき、彼は論理を定義していたのではありません。感情、意味、意図を表現していたのです。

しかし、これをコンピュータが理解できるように書こうとするとどうなるでしょうか？私たちが以前話したJavaScriptのプリミティブを使い、もし「美しさ」や「創造性」をif文で説明しようと想像してみてください。これが、私たちがこれまでに構築してきた世界です。私たちは自然言語をコードへと変換し、そのコードと並行して、コンピュータと対話するための様々なインターフェースを構築してきました。

「ボックス」に縛られたコミュニケーション

私たちは望んでそうしたわけではなく、そうせざるを得ませんでした。それぞれの新しい入力タイプは、私たちがコンピュータに「何を意味しているのか」を少しずつ伝えることを可能にしました。すべての単語はフィールドになり、すべての思考はタスクになりました。人間語を機械が理解できるものに変換するために、私たちは異なる入力形式を構築してきたのです。

そして、これは見事に機能しました。私たちは確かに多くの優れたソフトウェアを構築してきました。しかし、それは同時に、私たちが言いたいことすべてが、これらの「ボックス」のいずれかに収まらなければならないことを意味しました。コンピュータが、私たちが何を言えるかを定義し、その境界を設定したのです。

それぞれの入力は私たちにより多くの制御を与えましたが、同時にシステムを少しずつ複雑にしていきました。画面に表示されるif this, then that、except if this other thing、unless something else happens firstといった無数の条件分岐は、次に起こりうる可能性を表すロジックです。

このすべてのロジックは、ユーザーがシステムと対話する前に記述されなければなりませんでした。ソフトウェアは、人々が何を求めているかを予測する必要があったのです。なぜなら、コンピュータは指示にしか従えなかったからです。当時はこれで十分でしたが、結果として、ソフトウェアは「聞く」のではなく「予測する」ことになってしまいました。そしてインターフェースが、ユーザーに「何を言ってもよいか」を指示していました。

複雑化の代償と失われた「行間」

ユーザーからの入力（フォームの送信、APIリクエストなど）がシステムに入ると、システムは複雑なロジックをすべて実行し、指示に従って入力が可能な出力のいずれかにルーティングされる様子が見られます。この「可能な」という言葉が重要です。エンジニアは、決して起こらないかもしれない、あるいはめったに起こらない可能性のために、複雑なコードを書かなければならなかったことを意味します。

私たちは、起こりうるすべてのエッジケースや、人間が私たちに伝えようとするかもしれないすべてのことを考え抜く必要がありました。しかし、コードの行間にあるスペースにも注目してください。それは、システムが見ることができないすべてです。私たちが想定できなかった、あるいは想定し得なかった入力です。それらはフォームの送信やAPIリクエストにきれいに収まりませんでした。

システムが賢くなるにつれて、コードの行も増え続けました。入力が入り、ロジックが追いつこうとし、アクションが出力されるというプロセスでした。

「聞くソフトウェア」としてのAIエージェントの登場

そして、全く新しい何かが現れました。それは「聞くことができる」ソフトウェアです。これこそがエージェントなのです。エージェントについて多くの定義を聞いてこられたかもしれませんが、私は「聞くことができるソフトウェア」だとお伝えします。

エージェントは単なるチャットボットではありません。それは聞き、推論し、皆さんに代わって行動を起こすことができます。そして、私たちが無限の複雑さを考えることなく、あらゆる異なるシナリオを処理できるのです。しかし、それだけではありません。

行間のギャップを埋めるエージェント

先ほど言及した、ロジックが破綻した場所、すべての例外やエッジケースを手動で記述しなければならなかった、あのコードの「行間」のギャップを思い出してください。まさにそこで、エージェントはすべてを変えます。エージェントは複雑さを処理するだけでなく、残されたギャップを埋めることができるのです。彼らは「行間にあるもの」を理解します。

それが起こると、会話は自然に流れるようになります。その瞬間、私たちは「何が起こりうるか」という可能性について考えるのをやめ、「何ができるか」ということに焦点を当てられるようになるのです。

私は、エージェントが「意図」を直接「アクション」にルーティングすると言います。先に述べたような、if this then thatやif this thing、あるいは知っている奇妙な例外といった複雑なコードは必要ありません。意図が入り、私たちはそれを直接アクションにルーティングします。フォームも、チケットも、迂回もありません。入力が入り、アクションが出力される。これこそが、エージェントが仕事のためのソフトウェア構築にいかに役立つかという理由の核心です。それらは本質的な複雑さをすべて取り除き、アイデアからアクションへと可能な限り迅速に移行するのを助けてくれるのです。

日常のワークフローにAIエージェントを統合する方法：Slack連携

では、具体的にどのようにしてエージェントが私たちがすでに仕事をしているやり方に適合するのでしょうか？

私たちが毎日仕事をし、会話を交わし、フィードバックやアイデアを共有している場所はどこでしょうか？それはSlackのようなツールです。Slackは、あらゆるエージェントにとって普遍的な入力源となりえます。言葉、言語で仕事がすでに起こっている場所だからです。

毎日、何百万ものメッセージがSlackを流れています。その一つ一つが、小さな「意図」の表現です。「これをデプロイできる？」「修正は出荷された？」「この状況について背景を知っているのは誰？」といった、Slackでの仕事の言葉そのものです。これらの会話は単なるメッセージではなく、「シグナル」なのです。私たちが何に取り組んでいるか、そしてどのような解決策を探しているかという情報です。

Slackイベントによる意図のキャプチャ

その仕組みを少し詳しく見てみましょう。Slackは単にメッセージを処理するだけでなく、「イベント」を扱います。すべてのメッセージ、メンション、リアクション、ショートカット、絵文字は、私たちの「意図」を表すイベントです。

ここに示されているのは、エージェントがどのように「聞く」かの例です。エージェントが聞くことができるものをいかに簡単に登録できるか、お分かりいただけるでしょう。if this then thatのような複雑なルーティングソフトウェアや、何かをチェックするようなロジックは一切必要ありません。イベントを登録するだけで、それが意図となるのです。

これは、私たちがすでに慣れ親しんでいる入力と出力のモデルに似ています。違いは、入力が「自然言語」であるという点です。コンピュータに私たちを理解させるためのコードを、私たちは一切書く必要がありません。ただ話せばよかったのです。これらの各行は、人間の表現を機械のアクションへとつなぎます。

まとめ

本記事では、AIエージェントがいかに私たちの働き方に革命をもたらすか、そしてその構築がなぜ重要なのかについて解説しました。

従来のシステムが、人間の豊かな自然言語をコンピュータが理解できるコードや限定されたインターフェースに「圧縮」し、膨大なif-thenロジックで「予測」しようとしていたのに対し、AIエージェントは「聞く」能力によって、ユーザーの「意図」を直接理解し、アクションへと結びつけます。

Slackのような日常的に使われるコミュニケーションツールとの連携は、このエージェントを私たちのデジタルな同僚としてワークフローに自然に溶け込ませる鍵となります。これにより、エンジニアは決して起こらないかもしれないエッジケースのための複雑なコードを書く必要がなくなり、ユーザーはより直感的で自然な方法でシステムと対話できるようになります。

AIエージェントは、私たちが仕事をする上での本質的な複雑さを取り除き、アイデアから行動へのプロセスを加速させる、まさに未来の働き方を切り開く存在と言えるでしょう。皆さんもぜひ、この新しいパラダイムを活用し、より人間中心のシステムを構築してみてください。

参考動画

https://www.youtube.com/watch?v=BOxIW6LXKp8

ポイント