The Story in the Notebook: Exploratory Data Science using a Literate Programming Tool

論文URL:http://dl.acm.org/citation.cfm?doid=3173574.3173748

論文アブストラクト:Literate programming tools are used by millions of programmers today, and are intended to facilitate presenting data analyses in the form of a narrative. We interviewed 21 data scientists to study coding behaviors in a literate programming environment and how data scientists kept track of variants they explored. For participants who tried to keep a detailed history of their experimentation, both informal and formal versioning attempts led to problems, such as reduced notebook readability. During iteration, participants actively curated their notebooks into narratives, although primarily through cell structure rather than markdown explanations. Next, we surveyed 45 data scientists and asked them to envision how they might use their past history in an future version control system. Based on these results, we give design guidance for future literate programming tools, such as providing history search based on how programmers recall their explorations, through contextual details including images and parameters.

日本語のまとめ:

リテラートプログラミングツールは、今日の何百万人ものプログラマによって使用されており、ナラティブの形でデータ分析を提示することを容易にすることを目的としています。私たちは21のデータ科学者にインタラクティブなプログラミング環境におけるコーディング行動を研究するためにインタビューし、データ科学者が彼らが調査した変種をどのように追跡したかを調べました。実験の詳細な履歴を保持しようとした参加者にとって、非公式のバージョン管理の試みはノートブックの可読性の低下などの問題を引き起こしました。反復の間、参加者は主にノートダウンの説明ではなくセルの構造を通じて、ノートを積極的に物語に編成しました。次に、45名のデータサイエンスを調査し、将来のバージョン管理システムで過去の履歴をどのように使用するかを想像してみました。これらの結果に基づいて、プログラマが画像やパラメータなどの文脈的な詳細を使って探索を思い出す方法に基づいて履歴検索を提供するなど、将来の文章作成ツールの設計ガイダンスを提供します。

(446文字)

発表スライド: