2024/6/7

エキスパート集団による音声合成・変換サービスで、エンタメやビジネスに新基軸を

Parakeet株式会社 | 代表取締役CEO 中村泰貴

2023年度の1stRound支援先の一つであるParakeet(パラキート)株式会社は、音声合成AIに特化した能力密度が極めて高い研究者集団。2022年4月に設立し、「2030年までに『世界で最も傑出した音声合成技術を持つ会社』という評価を確立する」ことを目指して、テキスト音声合成技術とリアルタイム音声変換技術を使ったサービスを展開している。代表取締役CEOの中村泰貴氏に事業の特徴や起業の経緯、1stRoundで役立ったこと、今後の展望などを聞いた。

世界有数の技術力で「最速0.06秒の遅延によるボイスチェンジ」を実現

―まず、Parakeetの事業について教えてください。

中村:音声合成の中でも大きく2種類の技術を核にしています。まず、文字から人間の声のような音を合成する「テキスト音声合成技術」を用い、高速に動作するテキスト音声合成ソフトウェア「Paratts(パラッツ)」をB to Bで提供しています。主な使用場面は、館内や車内アナウンスをAIで生成したり、最近増えているAI VTuberの声を作ったり。また、既存の音声コンテンツの一部撮り直しや追加などの際に、声優を補助する形で使われたりしています。

もう1つは、リアルタイムでマイクに入力した声を他の声優やキャラクターの声にする「リアルタイム音声変換技術」を用い、スマートフォンでも動作する次世代リアルタイムAIボイスチェンジャー「Paravo(パラボ)」をB to Cで提供しています。こちらは主にエンタテインメント用途で、AI VTuberの声を作る他、配信者が自分の声では配信したくない場合や、心理的負担から他のキャラクターの声で配信したい場合などに使われています。

―Parakeetならではの技術的優位性はどこにありますか。

中村:当社は、東京大学で音声合成を専門とする猿渡・齋藤研究室の修士・博士のメンバーが多く参画しており、極めて高い専門性を有している会社です。一般的に他社はオープンソースのコードをプログラミングのベースにすることが多いのに対して、当社はイチから設計して自社で組み上げるため、格段に高品質を実現できます。

たとえば音声変換の速度は、オープンソースのコードを使うと0.1~1秒の遅延が生じます。発声後、それが自分に聞こえるタイミングが遅れるため話者はしゃべりづらく、音と口の動きがずれるので相手も聞きづらいのです。ですが、当社で2024年5月から提供を開始した「Paravo」β版では、最速0.06秒の遅延でボイスチェンジが可能です。人間の知覚的に0.04~0.06秒で遅延が収まれば、ずれの違和感がほぼなくなるため、この0.06秒をベンチマークとして開発を進めてきました。安価なノートPCやスマートフォンでこの速度を達成している企業は、世界でも少なく、当社がその一角を担っています。

―その技術的優位性は、他社では容易に真似られないものですか。

中村:そのとおりです。こうした高速で高品質なボイスチェンジャーを作るには2つの要素が必要です。1つは徹底的にAIモデルを軽量化すること。もう1つはプログラム上の音声を扱う際の遅延を、エンジニア観点で把握できること。当社にはこの2つが圧倒的に備わっているのです。

実際、世の中にオープンソースのボイスチェンジャーのコードが出回って1年ほど経ちますが、安価なノートPCやスマートフォンで0.1秒をきるほどの速度は未だ出ません。これは同じ思想を持つ少数精鋭で取り組むからできることであって、それを達成できる企業や組織は今後もなかなか現れないでしょう。

―ビジネス面では現在どのようなフェーズにありますか。

中村:B to CのリアルタイムAIボイスチェンジャー「Paravo」は2023年末にリリースしたα版が、2日間で約1万人にダウンロードされ、約半年経った今はユーザー数が累計3万5000人となっています。公式のディスコードサーバーも1800人に成長しており、2024年5月頭にリリースしたβ版が課金版であるため、初めて売上が立ちました。

B to Bのテキスト音声合成については、お客様からのご紹介をいただく流れができてきました。1案件ごとに丁寧に取り組み、ブランド戦略として実績を作っていこうとしています。

メンターとの距離感も世代も近く、カジュアルながら実のあるアドバイスが得られた

―会社の設立は2022年4月ですが、起業に至った経緯を教えてください。

中村:修士1年生のときに独立行政法人情報処理推進機構が主催する未踏アドバンスト事業に採択されて1年間、リアルタイム音声変換技術の開発に取り組み、終了したのがその年の3月でした。次いで、猿渡・齋藤研究室の研究チームで取り組んだ、歌手の松任谷由実さん(ユーミン)が50年前にデビューした当時の歌声を人工で再現するプロジェクトに参画するのに伴い、会社を設立しました。この歌声と現在のユーミンがデュエットしたミュージックビデオはYouTubeで公開され、その年末のNHK紅白歌合戦でも披露されて、大きな反響を呼んでいます。

高専在学中から起業に憧れがあったのですが、東大でユーミンの案件に携わるにあたり、起業が手段として合理的だと思い、すぐ起業に踏み切ることができました。

―その後、2023年度の第8回1stRoundに採択されていますが、応募した目的を教えてください。

中村:ずっとユーミン案件を手がけ、2022年10月にアルバムが発売されると紅白までポッカリ時間ができたので、何かよいアクセラレーションプログラムがないかと探していて、1stRoundを知りました。

魅力に感じたのはAWSのクレジットと、ノンエクイティの事業資金提供、そしてメンタリングや弁護士など専門家への無料相談です。当社ではAIにひたすら学習させ続けるので、AWSのクレジットは非常にありがたかったです。事業資金は、AIの学習用データの購入と、メンバーの給与に充てました。それまでは共同創業者と2人だけでしたが、この機に音声研究者のインターンに業務委託で入ってもらったのです。相場より高く時給を設定して、優秀な人を集めるよう心がけました。

―1stRoundの支援内容では、何が役立ちましたか。

中村:メンタリングで大きかったのは、学生起業した自分たちには分からなかった、企業の方に接する態度や話し方、ヒアリングやクロージングといった営業や交渉の方法などを学べたことです。初期の頃は企業と面談する際に東大IPCの方が同席もしてくれました。また、スタートアップに必要なファイナンスの知識も教わり、将来の資金調達などを考えられるようになりました。

―その他に、1stRoundならではで役立ったことはありますか。

中村:弁護士や弁理士への相談がSlackでクイックにできるのが良かったです。一般的にこうしたプログラムで相談する場合は、まずメールでスケジュール調整をして決まった日時に面談すると思いますが、それが思い立ったらすぐ気軽に聞ける。これは大きな違いでした。

また、東大IPCのオフィスが東大キャンパス内にあるので、メンタリングや食事に連れて行ってもらったりと、メンターの距離感が近かったのが印象的です。世代も近かったので、話しやすかったのも良かったです。他の採択メンバーとの交流会も月1回くらいの頻度であり、シード期のスタートアップ同士、ざっくばらんに相談などができました。毎月顔を合わせるので、踏み込んだ話もしやすかったです。

日本の音声変換のルール作りにも参画して、この分野のリーダーへ

―今後の事業展開はどのように考えていますか。

中村:リアルタイム音声変換のサービスでは、現在109名の声優と登録キャラクター契約をしていますが、1年後には1000人規模まで増やしたいと考えています。合わせて、有名声優やVTuberとのコラボも積極化してエコシステムを作り、新しいエンタメを作り出す道具として当社サービスを広める地盤にしたいです。

こうした契約の交渉のためにも、1stRoundでお世話になった弁護士事務所に法律顧問となっていただきました。また、エンタメ×デジタルで著名な方々に当社のアドバイザーとなっていただいています。

メンバーは業務委託を含め、現在8名ですが、博士卒の研究者を増やしていきたいですね。目標は、日本でトップクラスの音声関連の論文数を継続的に出していける組織です。こうして、音声変換の世界をリードしていきたいです。

―日本の音声合成技術は、世界でどのくらいの位置づけですか。また、Parakeetとして海外進出はどう考えていますか。

中村:音声合成の国際会議に行くと、日本人が他の分野に対し比較的多く、論文数もこの分野では伝統的に多いです。日本はもともと信号処理分野が強かったので、その流れですね。

ですから、今後もその優位性は変わらないでしょう。その他の言語では、英語はレッドオーシャンなので、インドネシア語などで、訪日観光客や滞在者向けの音声合成を検討していて、この1年くらいで着手したいと考えています。

―最後に、起業を考える方へアドバイスをお願いします。

中村:シード期のスタートアップは全く無名なので、まずは1stRoundのようなプログラムに応募し、採択されることを目指すべきです。そうすると外部からの評価も高いものとなるでしょう。

また、ホームページへの問合せやメール、SNSからのアプローチに対しては無視せずに、徹底的に会いまくることがとても重要だと思います。営業メールに応対したことが縁で、人をご紹介いただいたこともありました。かなりの数が来ると思いますが、1つ1つを大事にしておくと、思わぬつながりを生むことがあるのです。VCやエンジェル投資家の方ともこの1年で25社ほどと面談しました。その中で相性が良いと思えた方に、資金調達を考えるタイミングでまた声をかけていこうと思っています。その意味でも、最初の段階でいろいろな人と話をしたことが効いてきますし、毎回事業の説明をするうちに、実践でうまく伝えることができるよう鍛えられるのも副産物ですね。

一覧へ戻る
東大IPCの
ニュースを受け取る
スタートアップ界隈の最新情報、技術トレンドなど、ここでしか得られないNewsを定期配信しています