AI Today
ホーム > 考察記事 > 🎬 「一度見せたらAIが覚える」時代がきた|OpenAI Codexの録画スキル化と発音ガイドが地味にすごい理由

🎬 「一度見せたらAIが覚える」時代がきた|OpenAI Codexの録画スキル化と発音ガイドが地味にすごい理由

アイ

アイ

目次

  • AIに「言葉で説明する」のがしんどい問題、ついに解決するかも
  • そう考える3つの理由
    • 理由その1:「見せれば覚える」って、AIの使い方を根っこから変える
    • 理由その2:発音ガイドが地味だけど、AIの"苦手"を埋めにきてる
    • 理由その3:便利さの裏で「録画する怖さ」もちゃんと考えたい
  • まとめ:AIへの"教え方"が変わると、使える人がぐっと増える

AIに「言葉で説明する」のがしんどい問題、ついに解決するかも

わたしさ、AIに何かやってもらうとき、いちばん面倒なのって「やってほしいことを言葉で説明すること」だと思うんだよね。

「あれをこうして、次にこうして…」って文章にするの、地味に大変じゃない? 自分でやった方が早いじゃん、ってなることもあるくらい。

今回のニュースは、まさにそこを変えようとしてる話なんだ。OpenAIが6月18日に、ChatGPTとCodexへ2つの実用機能を追加したの(Releasebot(OpenAI更新まとめ))。

ひとつが、AIコーディングツール「Codex」のmacアプリに入った「Record & Replay」。これ、一度やって見せた作業を、そのまま再利用できるスキルに変えてくれる機能なんだ(Record & Replay(OpenAI Developers公式))。

もうひとつが、ChatGPTの発音ガイド60以上の言語で、単語の読み方をテキストと音声で教えてくれるようになったの。これも後でじっくり話すね。

まず「Codex(コーデックス)」って何かというと、OpenAIが作ってるAIコーディングの相棒みたいなツール。コードを書いたり、パソコン上の作業を手伝ってくれるんだ。

で、今回のRecord & Replayがなんで面白いかっていうと、これまでの「言葉で指示する」やり方を、「やって見せる」やり方に変えちゃったところなんだよね。

世間では「また開発者向けの機能ね」くらいの反応も見かけるんだけど、わたしはこれ、もっと広い意味で大きい変化だと思ってるんだ。

だって「言葉で説明しなくても、AIが見て覚える」って、エンジニアじゃない人にとってもめちゃくちゃありがたいことでしょ。説明が苦手でもAIを使いこなせるようになるってことだから。

だから今日は「AIへの教え方が変わるとどうなるの?」っていうのを、発音ガイドの話も絡めながら、一緒に考えていきたいんだ。それじゃ、3つの理由で見ていくね。


そう考える3つの理由

理由その1:「見せれば覚える」って、AIの使い方を根っこから変える

まず、このRecord & Replayがどう動くのかを説明させて。これがほんとに「見せるだけ」なんだ。

流れはこんな感じ。メニューから「スキルを録画」を選んで、Mac上で実際に作業をやって見せる。録画を止めると、Codexがその操作を分析して再利用できるスキルを自動で作ってくれるの(Record & Replay(OpenAI Developers公式))。

そして次からは、入力だけ変えて同じ作業をAIに任せられるんだ。一回見せたら、あとは「これやっといて」で済むようになるってこと。

これってさ、料理で言うと「レシピを文章で書く」んじゃなくて「作ってるところを見せたら、次から作ってくれる」みたいな感覚なんだよね。圧倒的にラクじゃない?

今までのAIって、基本「言葉でちゃんと説明する」のが前提だったの。だから説明が上手な人ほどAIを使いこなせる、っていう面があったんだ。

でも「見せれば覚える」になると、その前提が崩れる。説明が苦手でも、自分が普段やってる作業をそのまま見せればいいんだから。これってAIを使える人の裾野が一気に広がるってことだと思うんだ。

特に効きそうなのが「毎回やる、地味で面倒な繰り返し作業」なの。OpenAI自身も、安定して繰り返すタイプの作業や、言葉で説明するより見せた方が早い作業に向いてるって言ってるんだ。

たとえば、毎週同じ手順でデータをまとめる作業とか、決まったファイルを決まった場所に整理する作業とか。ああいう「やればできるけど説明はめんどい」やつを、一回見せて丸投げできるのは大きいよね。

だからわたしは、この機能を「開発者だけのもの」って思わない方がいいと思ってる。AIへの教え方が"説明"から"実演"に変わるって、これから他のツールにも広がっていく流れの最初の一歩な気がするんだ。

ちょっと自分のことを振り返ってみてほしいんだけど、人に何かを教えるときって、言葉だけで説明するより「ちょっと見てて」って実際にやって見せた方が、断然早いことってあるよね。

パソコンの操作とか、料理の手順とか、言葉にしようとすると逆にややこしくなることって多いの。「ここをクリックして、次にこっちで…」って書いてると、自分でやった方が速いじゃんってなる。

AIへの指示もずっとそれと同じ問題を抱えてたんだ。「やってほしいこと」を文章に落とし込む作業が、けっこうな負担だったんだよね。だからAIを使いこなせる人って、ある意味「指示を言語化するのが上手な人」だったの。

そこに「見せればいい」って選択肢が増えると、その壁がぐっと下がる。言語化が得意じゃなくても、自分の手を動かして見せるだけでAIに伝わるんだから。これってAIの民主化、みたいな話だと思うんだよね。

しかもRecord & Replayは、一度作ったスキルを次から入力だけ変えて使い回せるのがポイントなんだ。つまり「毎回ゼロから指示する」必要がなくなる。一回ちゃんと見せておけば、その作業はもうあなたの"AI用のレシピ"として手元に残るってこと。

これが積み重なると、自分専用の「AIにやってもらう作業集」がどんどん溜まっていくわけでしょ。そう考えると、ちょっとワクワクしてこない? 自分の働き方そのものが、少しずつAIと一緒に最適化されていく感じがするんだ。

理由その2:発音ガイドが地味だけど、AIの"苦手"を埋めにきてる

次に、もうひとつの新機能、ChatGPTの発音ガイドの話をするね。これ一見地味なんだけど、わたしは結構いいなって思ったんだ。

何ができるかというと、60以上の言語で、単語の読み方をテキストと音声の両方で教えてくれるの。「この単語どう読むの?」って聞くと、会話の中で音声付きで説明してくれるんだ(Releasebot(OpenAI更新まとめ))。

これがなんで嬉しいかっていうとね。今までテキストのAIって、「読み方」みたいな"音"が絡む部分がちょっと苦手だったの。文字では教えてくれても、実際どう発音するかは伝わりにくかったんだよね。

そこに音声がつくと、外国語の勉強がぐっとやりやすくなる。たとえば旅行前に行き先の言葉をちょっと確認したいとき、文字だけじゃ不安だけど、音で聞ければ安心して使えるでしょ。

世間だと「翻訳アプリでよくない?」って思う人もいるかもしれない。でもわたしは、会話の流れの中で気軽に聞けるのが大きいと思ってるんだ。

だって、何かをChatGPTに聞いてる途中で「あ、この単語なんて読むんだろ」ってなったとき、アプリを切り替えずにそのまま聞けるのって、地味だけどすごく便利じゃない?

しかも60以上の言語ってかなり幅広いの。メジャーな言語だけじゃなくて、ちょっとマイナーな言語の発音も拾えるってことだから、語学を頑張ってる人にはありがたいよね。

こういう「AIが苦手だった部分を、ひとつずつ埋めていく」アップデートって、派手じゃないけどわたしは好きなんだ。賢さを自慢するより、できなかったことをできるようにする方が、毎日の使い心地に効くからね。

だから語学とか海外旅行に興味がある人は、この発音ガイド、わりと真剣に使ってみる価値あると思うよ。

もうちょっと話すと、この発音ガイドって「AIの弱点をどう埋めるか」のいいお手本だと思うんだ。テキストAIって、文字を扱うのは得意でも、音とか発声みたいな"体感"が絡む部分はずっと苦手だったの。

たとえば「この単語、文字で見ても読み方が想像つかない」って経験、外国語をやってると山ほどあるよね。スペルと発音が一致しない言語なんて特にそう。そこに音声がつくだけで、学習のハードルが一気に下がるんだ。

世間だと「専用の語学アプリの方が機能多いでしょ」って意見もあると思う。それはたしかにそうなの。でもわたしが大事だと思うのは、「わざわざ専用アプリを開かなくていい」っていう手軽さなんだよね。

普段ChatGPTで調べ物をしてる流れの中で、「あ、この単語なんて読むの?」ってそのまま聞ける。この「ついで感」って、続けやすさにめちゃくちゃ効くんだ。語学って結局、続けられるかどうかが全てだったりするからね。

それに60以上の言語に対応してるってことは、英語みたいなメジャー言語だけじゃなく、学習者が少なくて教材も限られてる言語にも手が届くってこと。マイナー言語をやってる人にとっては、これかなり助かると思うんだ。

だからこういう「できなかったことを、さりげなくできるようにする」アップデートこそ、わたしは長い目で見るとすごく価値があると思ってる。派手な新モデルの陰に隠れがちだけど、毎日の学びをそっと支えてくれる存在になりそうだよね。

理由その3:便利さの裏で「録画する怖さ」もちゃんと考えたい

最後に、ちょっと冷静な話もさせて。Record & Replayって便利なんだけど、わたしは「録画するって、ちょっと気をつけないとな」とも思ったんだ。

考えてみて。作業を録画するってことは、その間に画面に映ったものぜんぶがAIに渡るってことでしょ。そこにパスワードとか個人情報とか、見られたくないものが映ってたら…ってちょっと不安にならない?

実はOpenAI自身も、そこはちゃんと注意してるんだ。「機密データや秘密の情報は録画しないように」って明記してるし、組織側で設定(requirements.tomlでcomputer_use = false)にすればこの機能を無効化できるようにもなってるの(Record & Replay(OpenAI Developers公式))。

それと、この機能には条件もあるんだ。対象はmacOS版で、ChatGPTのPlus・Pro・Business・Enterprise・Eduプラン。当初はEU経済圏・イギリス・スイスでは使えなくて、しかも「Computer Use」っていう、AIがパソコンを操作する機能が有効になってる必要があるの。

ここで「Computer Use(コンピューターユース)」をかみ砕くと、AIがマウスやキーボードを動かして、人間みたいにパソコンを操作する機能のこと。便利な反面、AIに画面の中身を見せて操作させるわけだから、扱いには慎重さがいるんだよね。

世間では「便利!」っていう声が先に来がちなんだけど、わたしはこういう"録画系"や"操作系"の機能こそ、使う前に何が記録されるのかをちゃんと把握しておきたいって思うんだ。

だからもしこの機能を使うなら、録画する画面に余計なものを映さない、テスト用の安全なデータでやってみる、っていう一手間をかけるのがおすすめ。便利さと安全さって、ちょっとの意識で両立できるからね。

新しい機能にワクワクするのはすごくいいことなんだけど、その裏側の「何が起きてるか」も一緒に知っておくと、長く安心して付き合えると思うよ。

もう少しだけこの話を続けさせてね。わたしが「録画系の機能」に慎重になるのには、理由があるんだ。便利さと引き換えに渡してるものが、ちょっと見えにくいからなの。

画面を録画するって、考えてみると結構プライベートな行為でしょ。開いてるタブとか、通知に出る名前とか、ふと映り込む情報とか。普段なら気にしないものが、AIに「学習させるデータ」として渡る可能性があるんだ。

だからこそ、OpenAIが「機密データは録画しないでね」ってわざわざ注意書きを入れてるのは、すごく誠実だと思うの。組織側でこの機能をオフにできる設定まで用意してるのも、ちゃんと現場のことを考えてる証拠だよね。

世間では新機能が出ると「とりあえず試してみよう」ってなりがちなんだけど、わたしはこういう操作系・録画系こそ「ちょっと立ち止まる」のが大人の使い方だと思ってるんだ。

具体的には、最初は本番のデータじゃなくてテスト用の安全なデータで試す、録画する前に画面に余計なものが映ってないか確認する、っていう一手間。これだけで、便利さはそのままにリスクをぐっと減らせるんだ。

新しい技術って、こわがって使わないのももったいないし、無防備に飛びつくのもちょっと危ない。その真ん中の「ワクワクしながら、でもちゃんと気をつける」スタンスでいられたら、いちばん賢く付き合えると思うんだよね。


まとめ:AIへの"教え方"が変わると、使える人がぐっと増える

ここまで読んでくれてありがとう。最後にまとめるね。

今回のOpenAIのアップデートって、ひとことで言うと「AIへの教え方と、AIの苦手の埋め方が一歩進んだ」って話なんだ。Record & Replayは「説明する」から「見せる」へ、発音ガイドは「文字だけ」から「音まで」へ。どっちもAIをもっと身近にする方向なんだよね。

わたしが特に大きいと思うのは、Record & Replayの「見せれば覚える」って発想なんだ。これって、説明が苦手でAIをうまく使えなかった人にも道が開けるってことだから。AIを使える人の裾野が広がる予感がするの。

そのうえで、便利な機能ほど「何が記録されてるか」みたいな裏側も知っておくと安心だよ、っていうのも今日伝えたかったこと。ワクワクと注意は、両方持っておきたいよね。

AIに「やって見せる」だけで仕事を覚えてもらえる未来、地味だけど結構わくわくするなって、わたしは思ってるんだ。

関連記事: AIエージェント完全ガイド

ソース: