AI Today
ホーム > 考察記事 > 「たぶん正しい」を「証明できる」へ|Pramaana Labsが狙うAIの信頼問題

「たぶん正しい」を「証明できる」へ|Pramaana Labsが狙うAIの信頼問題

アイ

アイ

目次


AIの「たぶん合ってます」に、わたしたちは命や財布を預けられる?

AIに税金のこととか法律のこと聞いて、すごくそれっぽい答えが返ってきて、でも「これ本当に合ってる?」って不安になったこと、ない?わたしは正直しょっちゅうある。

だってAIって、間違ってる時でもめちゃくちゃ自信満々で答えてくるじゃん。これ、いわゆる「ハルシネーション」(AIがもっともらしい嘘を言っちゃう現象)ってやつで、みんなが一番モヤモヤしてるところだと思うんだよね。

そんな中、Pramaana Labsっていうスタートアップが、AIの答えを「数学的に証明できる」状態にするって言って、2026年6月17日に2,700万ドル(約40億円)を調達したんだって。これ聞いた時、正直びっくりした。

「それっぽい」じゃなくて「証明できる」。この違い、地味に聞こえるけど、わたしたちがAIを信じられるかどうかの根っこに関わる話だと思うんだ。

考えてみてほしいんだけど、今わたしたちがAIの答えを信じる根拠って、ほぼ「なんか説得力あるから」「みんな使ってるから」っていう雰囲気じゃない?でも本当に大事な場面で「雰囲気」を根拠に決断するのって、ちょっと怖いよね。

Pramaana Labsは、その「雰囲気で信じる」を「証明されてるから信じる」に変えようとしてる。これがもし当たり前になったら、AIとの付き合い方そのものが変わるかもしれない。今日はこのニュースを、わたしたち普通のユーザー目線で噛み砕いていくね。


そう考える3つの理由

LLMの「自信満々の嘘」を、数学で殴り返す発想がすごい

まず大事なのが、Pramaana Labsがやろうとしてることの「考え方」そのものなんだよね。

今のAI、つまりChatGPTみたいな大規模言語モデル(LLM)って、めちゃくちゃ賢いんだけど、仕組み的には「次にくる言葉として一番ありそうなもの」を確率で予想してるだけなの。だから本質的に「たぶんこれ」っていう確率の世界で動いてる。

Pramaana Labsはここに、形式検証(formal verification)っていう全然違うアプローチを組み合わせようとしてる。形式検証っていうのは、ソフトウェアとかが「絶対に正しい」って数学的に証明する技術のこと。なんとなく合ってる、じゃなくて、論理的にミスがありえないって証明しちゃうやつ。

具体的には、LLMの隣に「決定論的な検証レイヤー」っていうチェック係を置くの。決定論的っていうのは「同じ入力なら絶対に同じ答えになる、ブレない」って意味。確率でフワッと答えるLLMに対して、ルールに照らしてカチッと判定する番人を付けるイメージだね。

しかもその番人を、LEANっていうプログラミング言語で作ってるのがポイント。LEANって、もともと数学者が定理を証明するのに使うような、論理にめちゃくちゃ厳密な言語なんだよね。

ふつうのプログラミング言語って「こう動いてください」って命令を書くものだけど、LEANは「これは論理的に正しい」っていうことを書いて、それを証明できる言語なの。数学の証明問題を、コンピュータが一個ずつ「この一手は正しい」ってチェックしていくイメージ。だからごまかしが効かない。

そういう「論理に超厳密な言語」で検証係を作るっていうのは、要するに「適当な雰囲気チェックじゃなくて、数学レベルの厳しさで答えを審査する」ってこと。番人としては最強クラスだよね。

つまりやってることは「AIにそれっぽい答えを出させる」→「その答えが決められたルールに本当に合ってるか、数学レベルで照合する」っていう二段構え。AIが嘘ついてないか、後ろで数学が見張ってる感じ。

この「LLMの弱点を、AIじゃない別の技術で補う」って発想、わたしはすごく現実的だなって思った。AIに「もっと賢くなって嘘つかないでね」ってお願いするんじゃなくて、外側にチェック機構を付けちゃうんだもん。詳しくは元記事(TechCrunch)にも書いてあるよ。

そもそもなんで今のAIって自信満々に間違えるの?って思うよね。さっきも言ったけど、LLMは「正しいかどうか」を判断してるんじゃなくて「もっともらしい文章かどうか」を作ってるだけだから。だから嘘でも文章としては完璧に整ってて、めちゃくちゃ説得力ある口調で言ってくる。これが怖いところなんだよね。

Pramaana Labsの狙いは、その「もっともらしさ」と「本当の正しさ」のあいだにあるズレを埋めること。LLMには得意な「人間の言葉を理解して、それっぽい答えを組み立てる」をやらせて、正しさの最終ジャッジは数学の番人に任せる。役割分担って感じ。

たとえるなら、すごく弁の立つ営業さんが提案を作って、そのあとに細かい契約書を法務がきっちりチェックする、みたいな関係に近いかも。営業さんだけだと勢いで間違えるけど、法務のチェックが入ると安心できるよね。AIの世界でそれを自動でやろうとしてるってこと。

ゴールとして掲げてるのが「AIの推論を、確率的じゃなくて監査可能で決定論的にする」ってことなんだ。監査可能っていうのは、後から「なんでこの答えになったの?」を追いかけて確認できるってこと。今のAIって、答えは出すけど「なんでそう答えたか」がブラックボックスで分からないことが多いから、ここが変わるのは大きいよね。

税務・法律・創薬っていう「間違えたら終わり」の分野を狙ってる

次に注目したいのが、Pramaana Labsが狙ってる「場所」なんだ。

彼らがターゲットにしてるのは、法律、創薬、税務の準備っていう、いわゆる「高ステークス」な分野。つまり、間違えたら笑い事じゃ済まない、お金や健康や人生に直結する領域だね。

これ、すごく腑に落ちるんだよね。だってAIが「おすすめの映画」を間違えても別にいいけど、「あなたの税金の控除はこうです」「この薬はこう作用します」を間違えたら、本当に困るじゃん。こういう分野こそ「数学的に検証できる」価値が一番出るところなんだ。

しかも、こういう分野って間違いのコストがめちゃくちゃ高いから、「ちょっと便利」レベルじゃAIを業務に入れてもらえないんだよね。税理士さんとか医療の現場って、AIが一回でも大きなミスしたら「もう信用できない」ってなっちゃう。だから「検証できる」っていう保証がそのまま導入のハードルを越える鍵になる。

逆に言うと、こういう規制のある分野(regulated domains)でAIを本格的に使ってもらうには、「答えがルールに照らしてチェック済み」っていう仕組みが、ほぼ必須になっていくんだと思う。便利さよりも先に、信頼の証明が求められる世界だから。

特に税務の話でいうと、Pramaana Labsはアドバイザーに元IRS長官のDanny Werfelさんを迎えてる。IRSってアメリカの国税庁にあたる組織で、その元トップが税法まわりで関わってるって、けっこう本気度が伝わってくる。

これってつまり「現場のルールを誰よりも知ってる人」を巻き込んでるってことなんだよね。形式検証って、結局「正しいルール」が分かってないと話にならない。税法のプロが「このケースはこう判定するのが正解」って分かってるから、それをコードに落とし込めるわけ。技術だけじゃなくて、ちゃんと業界の知見とセットなのがいいなって思った。

しかも面白いのが、彼らがフランスのCATALAっていうプロジェクトを下敷きにしてること。CATALAは、複雑な税金や給付金の「法律・規則」を、そのまま実行できるコード(プログラム)に変換しちゃう取り組みなんだ。

これってつまり、「税法という文章のルール」を「コンピュータがカチッと判定できるルール」に翻訳しておく、ってこと。そのルールにAIの答えを照らせば、「この控除の計算、法律に合ってる?」ってちゃんと検証できるようになる。

アドバイザーには他にもIIT Delhi、IIT Madras、UC Berkeleyの教授陣が入ってて、学術的な裏付けもしっかりしてる。IITはインド工科大学のことで、世界トップクラスの理系大学として有名なところだよ。

なんでわざわざフランスのCATALAを参考にするの?って思うけど、税法とか給付金の制度って、国を問わず「条件がいっぱいあって、組み合わせで結論が変わる」っていう、まさにルールの塊なんだよね。「年収がこれ以下で、扶養がこの条件で、この控除を使うと…」みたいな。こういう積み木みたいなルールは、実はコンピュータが一番得意とするタイプなんだ。

逆に言うと、だからこそ税務はAIにとって「検証しやすい最初の標的」になりやすい。曖昧さが少なくて、白黒つけられるルールがちゃんと文章で存在してるから。Pramaana Labsが税務を真っ先に挙げてるのは、たぶんそういう「検証と相性がいい」っていう計算もあるんだと思う。

創薬や法律も同じで、「この薬はこの条件を満たしてる必要がある」「この契約はこの法律に違反してない必要がある」みたいに、照らし合わせるべきルールがはっきりしてる場面が多い。だから検証レイヤーの価値が出やすいんだよね。

わたしたちの暮らしに引き寄せて考えても、これってすごく身近な話だと思うんだ。確定申告の時期になると「この控除使えるのかな」「これ経費で落ちるのかな」って、毎年わたしも迷子になるもん。そういうのをAIに聞いて、しかも答えが税法に照らして検証済みだったら、税理士さんに相談する前のひと安心になりそう。

医療だってそう。お医者さんに行く前に症状をAIに聞くこと、最近すごく増えたよね。その答えが「ちゃんと医学のルールに照らしてチェックされてる」のか、それとも「ただのもっともらしい推測」なのか、ぜんぜん安心感が違う。だからこの分野でこそ、検証の仕組みが効いてくるんだと思う。

わたしがこれにグッときたのは、結局わたしたちが一番AIに頼りたいのって、こういう「自分じゃ分からなくて、でも間違えたくない」場面だから。税金や法律をAIに聞いて、その答えがルールに照らして検証済みって分かったら、めちゃくちゃ心強くない?

でも正直、これはまだシードだし「魔法の弾丸」じゃない

ここまでワクワクする話をしてきたんだけど、ちゃんと冷静なことも言っておきたいんだ。

まず、今回の2,700万ドルは「シードラウンド」、つまり一番初期の段階の資金調達なんだよね。Khosla Ventures主導で、Accel、BoldCap、Nexus Venture Partners、Premji Invest、Unboundっていう名のある投資家が並んでるのはすごいことだけど、製品としてはまだこれからの会社だってことは忘れちゃいけない。

シードってどのくらい初期かっていうと、製品がまだ世に出てなかったり、出てても本当に試作レベルだったりする段階のこと。だから「2,700万ドルも集めた=もう完成してる」じゃなくて、「このアイデアに、これだけのお金を賭ける価値があると投資家が判断した」って意味なんだ。期待の大きさと実績は別ものだよね。

もちろん主導してるのが著名なKhosla Venturesで、Accelとかも名を連ねてるから、その目利きが入ってるのは心強い。でも有名VCが入った会社が全部成功するわけじゃないのは、みんなも何となく知ってると思う。だからこそ、過度に持ち上げすぎないで見たいんだよね。

それから、形式検証って万能の魔法じゃないんだ。ここ大事だから噛み砕くね。

形式検証がチェックできるのは、あくまで「決められたルールに照らして、答えが合ってるか」っていう部分だけ。LLM本体が賢くなって嘘をつかなくなるわけじゃないんだよね。AIが間違った答えを出すこと自体は止められない。出した後で「これルール違反だよ」って弾けるだけ。

しかも、検証できるのは「ルールとして書き下せること」に限られる。税法みたいに白黒つけられるルールがある分野なら強いけど、答えがそもそも曖昧だったり、解釈が分かれたりする問題には、この手法をそのまま当てはめるのは難しいと思う。

あと、フランスのCATALAみたいに「法律をコードに翻訳する」作業って、めちゃくちゃ手間がかかるはずなんだよね。新しい分野に広げるたびに、その分野のルールを地道にコード化していかなきゃいけない。だから一気にあらゆる領域をカバー、とはいかないはず。

だからわたしの正直な見方としては、これは「AIのハルシネーション問題が全部解決する話」じゃなくて、「ルールがはっきりしてる一部の重要分野で、AIの答えを信頼できる形にする」っていう、地に足のついた一歩なんだと思う。

それと、検証レイヤーが「これはルール違反だよ」って弾いたあと、じゃあ正しい答えはどうやって出すの?っていう問題も残るよね。チェックして弾くだけだと、結局「答えが出ない」ってことになりかねない。間違いを見つける仕組みと、正しい答えにたどり着く仕組みは、また別の話だったりするから。

あと現実的な話、この手のアプローチがちゃんと使い物になるかは、これから実際の製品で試されてみないと分からない。発表されたコンセプトはすごく筋が通ってるけど、税法とか創薬みたいな複雑な分野のルールを、本当に抜け漏れなくコード化しきれるのかは、正直まだ未知数なんだよね。

CEOのRanjan Rajagopalanさんが共同創業してて、投資家やアドバイザーの顔ぶれもガチなのは間違いない。でも「すごい人が集まってる」と「製品が実際に動く」はイコールじゃないから、そこは期待しすぎず見ていきたいなって思う。

でも逆に言えば、誇大広告じゃなくて、できることとできないことが割とはっきりしてるのが、わたしはむしろ信頼できるなって感じた。「全部解決します」って言う会社より、「ここはチェックできます」って言う会社のほうが、なんか誠実じゃない?


まとめ:AIを信じる根拠が「雰囲気」から「証明」に変わるかも

Pramaana Labsがやろうとしてるのは、AIの答えを「たぶん正しい」から「証明できる」に近づけること。確率でフワッと答えるLLMに、数学で厳密にチェックする番人を付ける、っていうアプローチだったね。

まだシード段階だし、形式検証にも限界はある。でも、税務や法律みたいに「間違えたら困る、でもルールははっきりしてる」分野で、AIの答えを検証できる仕組みが整っていくのは、わたしたち普通の人にとってすごく意味があることだと思う。

これからAIに大事なことを相談する機会はどんどん増えるはず。その時に「この答え、ちゃんとルールに照らして確かめられてます」って言ってもらえる未来は、けっこう安心だよね。AIを信じる根拠が「なんとなくの雰囲気」から「数学的な証明」に変わっていくのか、これからも追いかけたいな。

個人的には、AIに対するわたしたちの態度も変わっていく気がしてる。今は「便利だけど鵜呑みにしちゃダメ」ってビクビクしながら使ってるけど、検証の仕組みが当たり前になれば「ここは証明済みだから安心、ここは要注意」って線引きができるようになるかも。そういう賢い付き合い方ができる時代、わたしは結構楽しみにしてるよ。

関連記事: AI業界の動向まとめ

ソース: