豊橋技術科学大学(以下TUT)にインターンシップ参加してきました。
その日その日に何をしたか書き残していこうと思います。
0日目/5日
高速バス,新幹線を乗り継いで豊橋へ。
ホテルチェックインまで特にすることもなかったので駅近くを散策。
名古屋で降りればよかったと後悔・・。
初めて来たので時間潰すのに苦労した。
晩御飯は豊橋駅近くの四天王ラーメン。
こってり味噌で美味しかった。
食べた分消化するべく、歩いていたら広場でライブイベントをしていたので参加してきた。
1日目/5日
初TUT、豊橋駅からのバスで行こうとしたら乗り場間違えて危うく遅刻しそうになった。
開講式、昼食を済ましてから研究室に移動。
まずは言語処理の基本となる
・TF-IDF
・Cos類似推定法
の学習、実装。
この二つに関する記事は今後投稿しようと思う。(しない可能性がある)
講義終了後、正門を探してたらオブジェを見つけた。
写真はないけれど、とても美味しかった。
食べた分を消化するべく歩いていたが特に何もなかった。
2日目/5日
1日目同様、言語処理の勉強。
検索エンジンを作成し始める(過去のツイート検索)。
TF-IDF Cos類似度推定法を用いて、入力した文章に最も近いTweetを出力するもの。
エンジン製作の前段階として、データベースファイルを作成したり、pythonからMeCabを使用して、形態素解析するコード書いたり。
ポテトが作り置きされていた物だったので味がアレだった。
3日目/5日
2日目に引き続き検索エンジンの作成。
データベースの作成にSQLiteを使ったのだが、Tweetデータが膨大すぎて時間がかかりすぎた。
データ数が25万程度あったが、泣く泣く5万まで減らした。(そうしないと3日くらいかかる)
データベースの作成と同時進行で、検索部のコーディング。
よし検索するぞ!
と思ったら何故か検索結果が同一ツイートしか出てこなかった。
一時間くらいかけてようやく原因が判明。結構初歩的なところ。
完成したので、実際に検索してみる。
検索ワード「ありがとウサギ」
検索にかなり時間がかかるので、処理してもらってる間にご飯。
晩御飯は味噌カツ丼
味噌の味が濃い。美味であった。
食べた分を消化するべく歩いていたら、豊橋駅付近で女の子たちがダンスの練習をしていた気がした。
ホテルに戻ると結果が・・
類似度が高いツイートを上位から5つ表示。
確かこの5つのツイート、類似度が1になったのだが、
検索ワードと全く同じのツイートでないと1にならないはずである。
つまり....バグ!!!!!! やったーーー!!!!
追記:バグではなかった。詳しい説明は面倒なので割愛。
4日目/5日
5日目は報告会だけなので実質最終日。
検索ワードと一致度の高いツイートの検索は終わったので、
次は転置インデックスの実装。
単語で検索すると、その単語が含まれるツイートを表示する。
文章で検索することも可能だが、形態素解析され、各単語(品詞)を全て含むツイートを表示するようになる。
実行時に標準入力で検索ワード入力してもいいが、それだけだと物足りなかったので
簡素だがGUIも取り入れてみた。
後ろになんか色々写ってるけど気にしないでね><
晩御飯はマック。
ベーコンレタスバーガーとナゲット。
ポテトが注文してから揚げていたので美味しかった。
5日目/5日
最終日。報告会。
滞りなく進み、インターンシップ終了。
帰ってからはホテルで無限に練りをしてた。
晩御飯は、カレーうどん食べに行く予定が、予想以上に混んでたのですき家に。
キムチ牛丼中盛美味しかった。
食べた分を消化するべく歩いていたら、同じTシャツを着ている人を発見した。世界って狭い。
6日目/5日
豊橋駅に行くと知り合いがいたので、一緒にオープンキャンパスに参加してきた。
その後は豊橋駅でご飯探し。
食べに行こうと思っていたところが準備中で入れなかったのが残念。
-以上-
僕は今某高専のn年生でして、そろそろ進学を考えないといけない時期なのですが、
今回のインターンシップは進路を決めるのにとても役に立ったなと実感してます。
進路に悩んでる人や、技科大の進学を考えてる人は、インターンシップ・オープンキャンパスに参加してみてはいかがでしょうか。